性能评分超越DeepSeek R1？阿里QWQ-Max它来了！

就在上周，DeepSeek一口气新增开源了五大核心技术：**FlashMLA、DeepEP、DeepGEMM、DualPipe、3FS**，今天带大家一文看懂这些新开源的技术都是什么？以及普通人如何利用这些新开源技术！

FlashMLA：让NLP推理飞起来！

FlashMLA 是 DeepSeek 为 NVIDIA Hopper 架构 GPU 量身打造的高效 MLA（多头线性注意力）解码内核，专为处理变长序列而生！通过优化 KV 缓存机制和采用 BF16 数据格式，FlashMLA 在 H800 SXM5 GPU 上实现了惊人的 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。无论是大语言模型（LLM）推理，还是自然语言处理（NLP）任务，FlashMLA 都能让你轻松应对！

主要亮点：

BF16 精度支持：性能与效率的完美平衡。
页式 KV 缓存：64 块大小，内存管理更精细。
极致性能：3000 GB/s 带宽 + 580 TFLOPS 算力，AI 推理快到飞起！

适用场景：

机器翻译、文本生成、情感分析等 NLP 任务。
大语言模型推理，实时交互应用（如对话 AI、实时翻译）。
金融、医疗、教育等行业的高性能计算需求。

如何使用？

1、GitHub 下载工程

地址：https://github.com/deepseek-ai/FlashMLA

2、环境准备

FlashMLA 需要以下硬件和软件环境：

硬件：NVIDIA Hopper 架构 GPU（例如 H800 SXM5）。
软件：CUDA 12.3 及以上版本；PyTorch 2.0 及以上版本。

3、安装FlashMLA

通过以下命令安装 FlashMLA：

1	`python setup.py <span class="token function">install</span>`

4、运行基准测试

安装完成后，可以通过运行以下命令进行性能测试：（此脚本将验证 FlashMLA 在当前环境下的性能表现，例如在 H800 SXM5 GPU 上，内存受限配置下可达到 3000 GB/s 的带宽，计算受限配置下可达到 580 TFLOPS 的算力。）

1	`python tests/test_flash_mla.py`

5、使用 FlashMLA

以下是 FlashMLA 的典型使用代码示例：

<span class="token keyword">from</span> flash_mla <span class="token keyword">import</span> get_mla_metadata<span class="token punctuation">,</span> flash_mla_with_kvcache

<span class="token comment"># 获取元数据和分块信息</span>
tile_scheduler_metadata<span class="token punctuation">,</span> num_splits <span class="token operator">=</span> get_mla_metadata<span class="token punctuation">(</span>cache_seqlens<span class="token punctuation">,</span> s_q <span class="token operator">*</span> h_q <span class="token operator">//</span> h_kv<span class="token punctuation">,</span> h_kv<span class="token punctuation">)</span>

<span class="token comment"># 在多层解码中调用 FlashMLA</span>
<span class="token keyword">for</span> i <span class="token keyword">in</span> <span class="token builtin">range</span><span class="token punctuation">(</span>num_layers<span class="token punctuation">)</span><span class="token punctuation">:</span>
    o_i<span class="token punctuation">,</span> lse_i <span class="token operator">=</span> flash_mla_with_kvcache<span class="token punctuation">(</span>
        q_i<span class="token punctuation">,</span> kvcache_i<span class="token punctuation">,</span> block_table<span class="token punctuation">,</span> cache_seqlens<span class="token punctuation">,</span> dv<span class="token punctuation">,</span>
        tile_scheduler_metadata<span class="token punctuation">,</span> num_splits<span class="token punctuation">,</span> causal<span class="token operator">=</span><span class="token boolean">True</span>
    <span class="token punctuation">)</span>

6、更多说明

完整代码和文档可访问 GitHub 仓库查看。

DeepEP：混合专家模型的通信加速器！

DeepEP 是 DeepSeek 开源的专家并行（EP）通信库，专为混合专家模型（MoE）训练和推理设计。通过高吞吐量、低延迟的全对全 GPU 内核，DeepEP 支持 FP8 数据格式调度，延迟低至 163 微秒！无论是节点内 NVLink 还是跨节点 RDMA 通信，DeepEP 都能轻松搞定。

主要亮点：

高效通信内核：全对全 GPU 内核，吞吐量爆表！
低延迟推理：延迟低至 163 微秒，推理解码快到没朋友。
通信与计算重叠：基于 Hook 的设计，最大化计算效率。

适用场景：

大规模模型训练、推理任务。
智能客服、金融风险评估等高性能计算场景。

如何使用？

1、GitHub 下载工程

地址：https://github.com/deepseek-ai/DeepEP

2、使用DeepEP训练模型

具体训练放肆可在github参考代码示例

DeepGEMM：FP8 矩阵乘法的终极武器！

DeepGEMM 是 DeepSeek 开源的 FP8 矩阵乘法库，专为 NVIDIA Hopper 架构优化。通过即时编译（JIT）技术和细粒度缩放，DeepGEMM 在多种矩阵形状下性能爆表，最高加速比达 2.7 倍！无论是普通 GEMM 还是 MoE 分组 GEMM，DeepGEMM 都能轻松应对。

主要亮点：

高效 FP8 计算：细粒度缩放 + 双级累加，精度与性能兼得。
即时编译（JIT）：运行时动态优化，无需安装时编译。
轻量级设计：核心代码仅 300 行，学习优化超简单！

适用场景：

大规模 AI 模型推理、混合专家模型（MoE）训练。
低精度计算、高性能计算任务。

如何使用？

1、下载工程

地址：https://github.com/deepseek-ai/DeepGEMM

2、安装deep_gemm

1	`python setup.py install`

3、性能表现

普通GEMM（非分组）性能
- 最高加速比：在某些矩阵形状下，DeepGEMM能达到2.7倍的加速比，显著提升矩阵乘法的效率。
- 计算性能：在大规模矩阵运算中，DeepGEMM能够实现超过1000 TFLOPS的计算性能，接近Hopper架构GPU的理论峰值。

分组GEMM（MoE模型）性能
- 加速比：在分组GEMM中，DeepGEMM能实现1.1-1.2倍的加速比，显著提升MoE模型的训练和推理效率。
- 内存带宽优化：基于TMA特性，DeepGEMM在内存带宽利用上表现出色，达到接近硬件极限的性能。
  - 连续布局（Contiguous Layout）
  - 掩码布局（Masked Layout）

DualPipe：双向流水线并行，训练速度翻倍！

DualPipe 是 DeepSeek 开源的创新双向流水线并行技术，专为大规模深度学习模型训练设计。通过将前向计算和反向计算解耦为两个独立管道，DualPipe 实现了计算与通信的完全重叠，大幅提升训练效率！

主要亮点：

双向流水线设计：前向与反向计算并行执行，资源利用率最大化。
降低内存峰值：错峰执行，硬件资源需求更低。
训练速度翻倍：流水线式处理，模型迭代更快！

适用场景：

大规模模型训练、推理加速。
多模态数据处理、多任务学习。

如何使用？

1、下载工程

地址：https://github.com/deepseek-ai/DualPipe

2、启动示例工程

1 2	`python examples/example_dualpipe.py python examples/example_dualpipev.py`

这里配置有点专业，具体可以参考其配置文件

3FS：高性能分布式文件系统，AI 训练的神助攻！

3FS 是 DeepSeek 开源的高性能分布式文件系统，专为 AI 训练和推理任务设计。通过聚合数千个 SSD 的吞吐量和数百个存储节点的网络带宽，3FS 提供高达 6.6 TiB/s 的读取吞吐量，强一致性保障让数据管理更轻松！

主要亮点：

高性能数据访问：6.6 TiB/s 读取吞吐量，AI 训练快到飞起！
强一致性保障：链式复制与分配查询（CRAQ）技术，数据安全无忧。
KVCache 优化：推理任务缓存替代方案，效率提升显著。

适用场景：

大规模 AI 训练、分布式数据处理。
推理优化、检查点支持。

如何使用

1、下载工程

下载地址：https://github.com/deepseek-ai/3FS

1	`git clone https://github.com/deepseek-ai/3fs`

2、检查子模块

当 <font style="color:rgba(222, 18, 99, 0.835);">deepseek-ai/3fs</font> 克隆到本地文件系统后，运行以下命令检查子模块：

1
2
3

cd 3fs
git submodule update --init --recursive
./patches/apply.sh

3、安装依赖项

# for Ubuntu 20.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libdwarf-dev libunwind-dev \
  libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
  libgoogle-perftools-dev google-perftools libssl-dev libclang-rt-14-dev gcc-10 g++-10 libboost1.71-all-dev

# for Ubuntu 22.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libdwarf-dev libunwind-dev \
  libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
  libgoogle-perftools-dev google-perftools libssl-dev gcc-12 g++-12 libboost-all-dev

# for openEuler 2403sp1
yum install cmake libuv-devel lz4-devel xz-devel double-conversion-devel libdwarf-devel libunwind-devel \
    libaio-devel gflags-devel glog-devel gtest-devel gmock-devel clang-tools-extra clang lld \
    gperftools-devel gperftools openssl-devel gcc gcc-c++ boost-devel

4、Build 3FS

<font style="color:rgba(222, 18, 99, 0.835);">build</font> 文件夹中的 Build 3FS：

1 2	`cmake -S . -B build -DCMAKE_CXX_COMPILER=clang++-14 -DCMAKE_C_COMPILER=clang-14 -DCMAKE_BUILD_TYPE=RelWithDebInfo -DCMAKE_EXPORT_COMPILE_COMMANDS=ON cmake --build build -j 32`

5、运行集群测试

按照设置指南运行测试集群，以下是峰值吞吐量

总结

今天分享的这篇文章有点专业，主要针对AI大模型有深入了解的人员使用，总结起来就两个字：牛逼！

目前DeepSeek官网对话及API调用均表现速度有点慢，继续推荐个字节旗下火山引擎的DeepSeek-API（https://volcengine.com/L/LVGI8nt54yY/），不仅可以网页免费体验DeepSeek-R1联网模型，每日还免费赠送50万tokens（**基本上用不完**）！

**注意：使用邀请码：K1449QIJ**，每日获取的tokens额度会翻倍！！！直接自己注册登录就只能拿普通的tokens数了！

AI资讯互联

#DeepSeek

性能评分超越DeepSeek R1？阿里QWQ-Max它来了！

http://example.com/2025/03/10/AI资讯互联/一文看懂DeepSeek上周最新全部开源内容！不愧是AI开源最强王者！/

作者

技术Z先生

发布于

2025年3月10日

许可协议

如何使用语雀Agent写文章上一篇

2025年2月第一期软件分享下一篇