性能评分超越DeepSeek R1?阿里QWQ-Max它来了!

就在上周,DeepSeek一口气新增开源了五大核心技术:**FlashMLA、DeepEP、DeepGEMM、DualPipe、3FS**,今天带大家一文看懂这些新开源的技术都是什么?以及普通人如何利用这些新开源技术!

FlashMLA:让NLP推理飞起来!

FlashMLA 是 DeepSeek 为 NVIDIA Hopper 架构 GPU 量身打造的高效 MLA(多头线性注意力)解码内核,专为处理变长序列而生!通过优化 KV 缓存机制和采用 BF16 数据格式,FlashMLA 在 H800 SXM5 GPU 上实现了惊人的 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。无论是大语言模型(LLM)推理,还是自然语言处理(NLP)任务,FlashMLA 都能让你轻松应对!

主要亮点:

  • BF16 精度支持:性能与效率的完美平衡。
  • 页式 KV 缓存:64 块大小,内存管理更精细。
  • 极致性能:3000 GB/s 带宽 + 580 TFLOPS 算力,AI 推理快到飞起!

适用场景:

  • 机器翻译、文本生成、情感分析等 NLP 任务。
  • 大语言模型推理,实时交互应用(如对话 AI、实时翻译)。
  • 金融、医疗、教育等行业的高性能计算需求。

如何使用?

1、GitHub 下载工程

地址:https://github.com/deepseek-ai/FlashMLA

2、环境准备

FlashMLA 需要以下硬件和软件环境:

  • 硬件:NVIDIA Hopper 架构 GPU(例如 H800 SXM5)。
  • 软件:CUDA 12.3 及以上版本;PyTorch 2.0 及以上版本。

3、安装FlashMLA

通过以下命令安装 FlashMLA:

1
python setup.py <span class="token function">install</span>

4、运行基准测试

安装完成后,可以通过运行以下命令进行性能测试:(此脚本将验证 FlashMLA 在当前环境下的性能表现,例如在 H800 SXM5 GPU 上,内存受限配置下可达到 3000 GB/s 的带宽,计算受限配置下可达到 580 TFLOPS 的算力。)

1
python tests/test_flash_mla.py

5、使用 FlashMLA

以下是 FlashMLA 的典型使用代码示例:

1
2
3
4
5
6
7
8
9
10
11
<span class="token keyword">from</span> flash_mla <span class="token keyword">import</span> get_mla_metadata<span class="token punctuation">,</span> flash_mla_with_kvcache

<span class="token comment"># 获取元数据和分块信息</span>
tile_scheduler_metadata<span class="token punctuation">,</span> num_splits <span class="token operator">=</span> get_mla_metadata<span class="token punctuation">(</span>cache_seqlens<span class="token punctuation">,</span> s_q <span class="token operator">*</span> h_q <span class="token operator">//</span> h_kv<span class="token punctuation">,</span> h_kv<span class="token punctuation">)</span>

<span class="token comment"># 在多层解码中调用 FlashMLA</span>
<span class="token keyword">for</span> i <span class="token keyword">in</span> <span class="token builtin">range</span><span class="token punctuation">(</span>num_layers<span class="token punctuation">)</span><span class="token punctuation">:</span>
o_i<span class="token punctuation">,</span> lse_i <span class="token operator">=</span> flash_mla_with_kvcache<span class="token punctuation">(</span>
q_i<span class="token punctuation">,</span> kvcache_i<span class="token punctuation">,</span> block_table<span class="token punctuation">,</span> cache_seqlens<span class="token punctuation">,</span> dv<span class="token punctuation">,</span>
tile_scheduler_metadata<span class="token punctuation">,</span> num_splits<span class="token punctuation">,</span> causal<span class="token operator">=</span><span class="token boolean">True</span>
<span class="token punctuation">)</span>

6、更多说明

完整代码和文档可访问 GitHub 仓库查看。


DeepEP:混合专家模型的通信加速器!

DeepEP 是 DeepSeek 开源的专家并行(EP)通信库,专为混合专家模型(MoE)训练和推理设计。通过高吞吐量、低延迟的全对全 GPU 内核,DeepEP 支持 FP8 数据格式调度,延迟低至 163 微秒!无论是节点内 NVLink 还是跨节点 RDMA 通信,DeepEP 都能轻松搞定。

主要亮点:

  • 高效通信内核:全对全 GPU 内核,吞吐量爆表!
  • 低延迟推理:延迟低至 163 微秒,推理解码快到没朋友。
  • 通信与计算重叠:基于 Hook 的设计,最大化计算效率。

适用场景:

  • 大规模模型训练、推理任务。
  • 智能客服、金融风险评估等高性能计算场景。

如何使用?

1、GitHub 下载工程

地址:https://github.com/deepseek-ai/DeepEP

2、使用DeepEP训练模型

具体训练放肆可在github参考代码示例


DeepGEMM:FP8 矩阵乘法的终极武器!

DeepGEMM 是 DeepSeek 开源的 FP8 矩阵乘法库,专为 NVIDIA Hopper 架构优化。通过即时编译(JIT)技术和细粒度缩放,DeepGEMM 在多种矩阵形状下性能爆表,最高加速比达 2.7 倍!无论是普通 GEMM 还是 MoE 分组 GEMM,DeepGEMM 都能轻松应对。

主要亮点:

  • 高效 FP8 计算:细粒度缩放 + 双级累加,精度与性能兼得。
  • 即时编译(JIT):运行时动态优化,无需安装时编译。
  • 轻量级设计:核心代码仅 300 行,学习优化超简单!

适用场景:

  • 大规模 AI 模型推理、混合专家模型(MoE)训练。
  • 低精度计算、高性能计算任务。

如何使用?

1、下载工程

地址:https://github.com/deepseek-ai/DeepGEMM

2、安装deep_gemm

1
python setup.py install

3、性能表现

  • 普通GEMM(非分组)性能
    • 最高加速比:在某些矩阵形状下,DeepGEMM能达到2.7倍的加速比,显著提升矩阵乘法的效率。
    • 计算性能:在大规模矩阵运算中,DeepGEMM能够实现超过1000 TFLOPS的计算性能,接近Hopper架构GPU的理论峰值。

  • 分组GEMM(MoE模型)性能
    • 加速比:在分组GEMM中,DeepGEMM能实现1.1-1.2倍的加速比,显著提升MoE模型的训练和推理效率。
    • 内存带宽优化:基于TMA特性,DeepGEMM在内存带宽利用上表现出色,达到接近硬件极限的性能。
      • 连续布局(Contiguous Layout)
      • 掩码布局(Masked Layout)


DualPipe:双向流水线并行,训练速度翻倍!

DualPipe 是 DeepSeek 开源的创新双向流水线并行技术,专为大规模深度学习模型训练设计。通过将前向计算和反向计算解耦为两个独立管道,DualPipe 实现了计算与通信的完全重叠,大幅提升训练效率!

主要亮点:

  • 双向流水线设计:前向与反向计算并行执行,资源利用率最大化。
  • 降低内存峰值:错峰执行,硬件资源需求更低。
  • 训练速度翻倍:流水线式处理,模型迭代更快!

适用场景:

  • 大规模模型训练、推理加速。
  • 多模态数据处理、多任务学习。

如何使用?

1、下载工程

地址:https://github.com/deepseek-ai/DualPipe

2、启动示例工程

1
2
python examples/example_dualpipe.py
python examples/example_dualpipev.py

这里配置有点专业,具体可以参考其配置文件


3FS:高性能分布式文件系统,AI 训练的神助攻!

3FS 是 DeepSeek 开源的高性能分布式文件系统,专为 AI 训练和推理任务设计。通过聚合数千个 SSD 的吞吐量和数百个存储节点的网络带宽,3FS 提供高达 6.6 TiB/s 的读取吞吐量,强一致性保障让数据管理更轻松!

主要亮点:

  • 高性能数据访问:6.6 TiB/s 读取吞吐量,AI 训练快到飞起!
  • 强一致性保障:链式复制与分配查询(CRAQ)技术,数据安全无忧。
  • KVCache 优化:推理任务缓存替代方案,效率提升显著。

适用场景:

  • 大规模 AI 训练、分布式数据处理。
  • 推理优化、检查点支持。

如何使用

1、下载工程

下载地址:https://github.com/deepseek-ai/3FS

1
git clone https://github.com/deepseek-ai/3fs

2、检查子模块

<font style="color:rgba(222, 18, 99, 0.835);">deepseek-ai/3fs</font> 克隆到本地文件系统后,运行以下命令检查子模块:

1
2
3
cd 3fs
git submodule update --init --recursive
./patches/apply.sh

3、安装依赖项

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# for Ubuntu 20.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libdwarf-dev libunwind-dev \
libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
libgoogle-perftools-dev google-perftools libssl-dev libclang-rt-14-dev gcc-10 g++-10 libboost1.71-all-dev

# for Ubuntu 22.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libdwarf-dev libunwind-dev \
libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
libgoogle-perftools-dev google-perftools libssl-dev gcc-12 g++-12 libboost-all-dev

# for openEuler 2403sp1
yum install cmake libuv-devel lz4-devel xz-devel double-conversion-devel libdwarf-devel libunwind-devel \
libaio-devel gflags-devel glog-devel gtest-devel gmock-devel clang-tools-extra clang lld \
gperftools-devel gperftools openssl-devel gcc gcc-c++ boost-devel

4、Build 3FS

<font style="color:rgba(222, 18, 99, 0.835);">build</font> 文件夹中的 Build 3FS:

1
2
cmake -S . -B build -DCMAKE_CXX_COMPILER=clang++-14 -DCMAKE_C_COMPILER=clang-14 -DCMAKE_BUILD_TYPE=RelWithDebInfo -DCMAKE_EXPORT_COMPILE_COMMANDS=ON
cmake --build build -j 32

5、运行集群测试

按照设置指南运行测试集群,以下是峰值吞吐量

总结

今天分享的这篇文章有点专业,主要针对AI大模型有深入了解的人员使用,总结起来就两个字:牛逼!

目前DeepSeek官网对话及API调用均表现速度有点慢,继续推荐个字节旗下火山引擎的DeepSeek-API(https://volcengine.com/L/LVGI8nt54yY/),不仅可以网页免费体验DeepSeek-R1联网模型,每日还免费赠送50万tokens(**基本上用不完**)!

**注意:使用邀请码:K1449QIJ**,每日获取的tokens额度会翻倍!!!直接自己注册登录就只能拿普通的tokens数了!


性能评分超越DeepSeek R1?阿里QWQ-Max它来了!
http://example.com/2025/03/10/AI资讯互联/一文看懂DeepSeek上周最新全部开源内容!不愧是AI开源最强王者!/
作者
技术Z先生
发布于
2025年3月10日
许可协议