1. 引言

我们介绍了 DeepSeek-V3,这是一个强大的专家混合 (MoE) 语言模型,总共有 671B 个参数,每个令牌激活了 37B。为了实现高效的推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。我们在 14.8 万亿个多样化和高质量的代币上对 DeepSeek-V3 进行预训练,然后是监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 的性能优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 只需要 2.788M H800 GPU 小时即可进行完整训练。此外,它的训练过程非常稳定。在整个训练过程中,我们没有遇到任何无法恢复的损失峰值或执行任何回滚。

2. 模型概述


架构:创新的负载均衡策略和训练目标

  • 除了 DeepSeek-V2 的高效架构之外,我们还开创了一种用于负载均衡的辅助无损策略,该策略可以最大限度地减少因鼓励负载均衡而引起的性能下降。

  • 我们研究了多标记预测 (MTP) 目标,并证明它对模型性能有益。它还可用于推理加速的推测解码。


训练前:迈向终极训练效率

  • 我们设计了一个 FP8 混合精度训练框架,并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。

  • 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全的计算-通信重叠。
    这显著提高了我们的训练效率并降低了训练成本,使我们能够在不增加开销的情况下进一步扩大模型大小。

  • 我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T 令牌上完成了 DeepSeek-V3 的预训练,生成了目前最强的开源基础模型。预训练后的后续训练阶段只需要 0.1M GPU 小时。


培训后:DeepSeek-R1 的知识提炼

  • 我们引入了一种创新方法,将长链思维 (CoT) 模型的推理能力,特别是 DeepSeek R1 系列模型之一的推理能力提炼到标准 LLM 中,特别是 DeepSeek-V3。我们的 pipeline 将 R1 的验证和反射模式优雅地整合到 DeepSeek-V3 中,并显著提高了它的推理性能。同时,我们还保持对 DeepSeek-V3 的输出样式和长度的控制。


3. 模型下载

#Total Params#Activated Params上下文长度下载
DeepSeek-V3-基础671B 系列编号 37B128K🤗 拥抱脸
深度搜索-V3671B 系列编号 37B128K🤗 拥抱脸

注意:HuggingFace 上的 DeepSeek-V3 模型总大小为 685B,其中包括 671B 的主模型权重和 14B 的多标记预测 (MTP) 模块权重。

为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供了多种在本地运行模型的方法。有关分步指南,请查看第 6 节:How_to Run_Locally。

对于希望深入了解的开发人员,我们建议探索 README_WEIGHTS.md 以了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意,MTP 支持目前在社区内正在积极开发中,我们欢迎您的贡献和反馈。

4. 评估结果

基本模型

标准基准

1. 建筑(Architecture)

对于大规模的架构类任务,模型的参数量和激活参数对性能至关重要。以下是不同模型在建筑类任务中的对比:

测试项深度搜索-V2Qwen2.5 72BLLaMA3.1 405B深度搜索-V3
激活的参数21B72B 系列405B 系列37B
总参数236B72B 系列405B 系列671B

在此领域中,深度搜索-V2和深度搜索-V3的参数数量较大,能够支持更复杂的计算任务,尤其是在需要更高模型容量的任务中,LLaMA3.1 405B和深度搜索-V3显示了更强的性能。

2. 英语(English)

英语任务包含了从语言理解到推理的多项指标,以下是各个模型在英语类基准测试中的表现:

测试项深度搜索-V2Qwen2.5 72BLLaMA3.1 405B深度搜索-V3
桩测试 (BPB)0.6060.6380.5420.548
BBH (EM)78.879.882.987.5
MMLU (Acc.)78.485.084.487.1
DROP (F1)80.480.686.089.0
ARC-Easy (累积)97.698.498.498.9

从以上数据来看,深度搜索-V3在多数指标上表现最为出色,尤其在ARC-Easy这一类容易任务上,显示了接近完美的表现。

3. 法典(Code)

编程任务常见于自动化代码生成和修复等应用,以下是四款模型在法典类任务中的对比:

测试项深度搜索-V2Qwen2.5 72BLLaMA3.1 405B深度搜索-V3
HumanEval (Pass@1)43.353.054.965.2
MBPP (Pass@1)65.072.668.475.4
LiveCodeBench-Base (Pass@1)11.612.915.519.4
CRUXEval-I (Acc.)52.559.158.567.3

深度搜索-V3在代码生成任务中显现出较高的通过率,尤其在HumanEval等复杂编程任务上表现突出。

4. 数学(Math)

数学类任务主要包括代数、几何等推理问题,以下是各模型在数学类基准测试中的对比:

测试项深度搜索-V2Qwen2.5 72BLLaMA3.1 405B深度搜索-V3
GSM8K (电磁)81.688.383.589.3
数学 (EM)43.454.449.061.6
MGSM (EM)63.676.269.979.8
CMath (EM)78.784.577.390.7

在数学问题中,深度搜索-V3再次展现了优势,尤其在“数学(EM)”和“CMath(EM)”任务中,取得了明显的领先。

5. 中文(Chinese)

中文任务考察了语言理解、推理和语义推断等能力,以下是各模型在中文类任务中的表现:

测试项深度搜索-V2Qwen2.5 72BLLaMA3.1 405B深度搜索-V3
CLUEWSC (EM)82.082.583.082.7
C-Eval (Acc.)81.489.272.590.1
CMMLU (Acc.)84.089.573.788.8
CMRC (EM)77.475.876.076.3

深度搜索-V3在中文任务中表现稳定,尤其是在“C-Eval”这类较为复杂的任务上取得了最佳成绩。

6. 多种语言(Multilingual)

多语言任务是衡量模型跨语言能力的重要指标,以下是各模型在非英语多语言任务中的表现:

测试项深度搜索-V2Qwen2.5 72BLLaMA3.1 405B深度搜索-V3
MMMLU-non-English (Acc.)64.074.873.879.4

 

注意:最佳结果以粗体显示。差距不超过 0.3 的分数被视为处于同一水平。DeepSeek-V3 在大多数基准测试中实现了最佳性能,尤其是在数学和代码任务上。有关更多评估详情,请查看我们的论文。

上下文窗口

(NIAH) 测试的评估结果。DeepSeek-V3 在高达 128K 的所有上下文窗口长度上都表现良好。Needle In A Haystack

聊天模型

标准基准(大于 67B 的型号)

以下是根据您提供的最新数据整理的AI模型性能对比表格,适用于微信公众号文章的格式:


各大AI模型性能对比:深度寻觅 V2-0506、深度Seek V2.5-0905、Qwen2.5 72B-研究所、骆驼3.1 405B-研究所、克劳德-3.5-十四行诗-1022 与 GPT-4o 0513 的 深度Seek V3

随着AI技术的进步,模型的表现不断提升。在不同领域的基准测试中,模型的性能差异成为关键因素。本文将详细对比深度寻觅 V2-0506深度Seek V2.5-0905Qwen2.5 72B-研究所骆驼3.1 405B-研究所克劳德-3.5-十四行诗-1022GPT-4o 0513的深度Seek V3等多个模型的表现。以下是您提供的模型在不同任务中的表现,已按任务分类整理和格式化:

1. 建筑(Architecture)

  • 激活的参数:

    • 深度寻觅 V2-0506: 21B

    • 深度Seek V2.5-0905: 21B

    • Qwen2.5 72B-研究所: 72B 系列

    • 骆驼3.1 405B-研究所: 405B 系列

    • 深度Seek V3: 37B

  • 总参数:

    • 深度寻觅 V2-0506: 236B

    • 深度Seek V2.5-0905: 236B

    • Qwen2.5 72B-研究所: 72B 系列

    • 骆驼3.1 405B-研究所: 405B 系列

    • 深度Seek V3: 671B

  • 建筑任务:

    • 深度寻觅 V2-0506: 教育部

    • 深度Seek V2.5-0905: 教育部

    • Qwen2.5 72B-研究所: 稠

    • 骆驼3.1 405B-研究所: 稠

    • 深度Seek V3: 教育部


2. 英语(English)

  • MMLU(EM):

    • 深度寻觅 V2-0506: 78.2

    • 深度Seek V2.5-0905: 80.6

    • Qwen2.5 72B-研究所: 85.3

    • 骆驼3.1 405B-研究所: 88.6

    • 深度Seek V3: 88.5

  • MMLU-Redux(EM):

    • 深度寻觅 V2-0506: 77.9

    • 深度Seek V2.5-0905: 80.3

    • Qwen2.5 72B-研究所: 85.6

    • 骆驼3.1 405B-研究所: 86.2

    • 深度Seek V3: 89.1

  • DROP(3次 F1):

    • 深度寻觅 V2-0506: 83.0

    • 深度Seek V2.5-0905: 87.8

    • Qwen2.5 72B-研究所: 76.7

    • 骆驼3.1 405B-研究所: 88.7

    • 深度Seek V3: 91.6


3. 法典(Code)

  • HumanEval-Mul(Pass@1):

    • 深度寻觅 V2-0506: 69.3

    • 深度Seek V2.5-0905: 77.4

    • Qwen2.5 72B-研究所: 77.3

    • 骆驼3.1 405B-研究所: 77.2

    • 深度Seek V3: 82.6

  • LiveCodeBench(Pass@1):

    • 深度寻觅 V2-0506: 20.3

    • 深度Seek V2.5-0905: 28.4

    • Qwen2.5 72B-研究所: 28.7

    • 骆驼3.1 405B-研究所: 30.1

    • 深度Seek V3: 37.6


4. 数学(Math)

  • AIME 2024(Pass@1):

    • 深度寻觅 V2-0506: 4.6

    • 深度Seek V2.5-0905: 16.7

    • Qwen2.5 72B-研究所: 23.3

    • 骆驼3.1 405B-研究所: 23.3

    • 深度Seek V3: 39.2

  • 数学500(EM):

    • 深度寻觅 V2-0506: 56.3

    • 深度Seek V2.5-0905: 74.7

    • Qwen2.5 72B-研究所: 80.0

    • 骆驼3.1 405B-研究所: 73.8

    • 深度Seek V3: 90.2


5. 中文(Chinese)

  • CLUEWSC(EM):

    • 深度寻觅 V2-0506: 89.9

    • 深度Seek V2.5-0905: 90.4

    • Qwen2.5 72B-研究所: 91.4

    • 骆驼3.1 405B-研究所: 84.7

    • 深度Seek V3: 90.9

  • C-Eval(EM):

    • 深度寻觅 V2-0506: 78.6

    • 深度Seek V2.5-0905: 79.5

    • Qwen2.5 72B-研究所: 86.1

    • 骆驼3.1 405B-研究所: 61.5

    • 深度Seek V3: 86.5

注:所有模型均在将输出长度限制为 8K 的配置中进行评估。包含少于 1000 个样品的基准使用不同的温度设置进行多次测试,以获得可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型,并且与前沿的闭源模型相比也表现出有竞争力的性能。

开放式生成评估

 

竞技场-困难羊驼评估 2.0
深度搜索-V2.5-090576.250.5
Qwen2.5-72B-指令81.249.1
LLaMA-3.1 405B69.340.5
GPT-4o-051380.451.1
克劳德-十四行诗-3.5-102285.252.0
深度搜索-V385.570.0

注意:英语开放式对话评估。对于 AlpacaEval 2.0,我们使用长度控制的胜率作为指标。

5. 聊天网站和API平台

您可以在 DeepSeek 的官方网站上与 DeepSeek-V3 聊天:chat.deepseek.com

我们还在 DeepSeek 平台上提供兼容 OpenAI 的 API:platform.deepseek.com

6. 如何在本地运行

DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:

  1. DeepSeek-Infer Demo:我们为 FP8 和 BF16 推理提供了一个简单轻量级的 Demo。

  2. SGLang:完全支持 BF16 和 FP8 推理模式下的 DeepSeek-V3 模型。

  3. LMDeploy:为本地和云部署提供高效的 FP8 和 BF16 推理。

  4. TensorRT-LLM :目前支持 BF16 推理和 INT4/8 量化,即将推出 FP8 支持。

  5. vLLM:支持 DeekSeek-V3 模型,具有 FP8 和 BF16 模式,用于张量并行和流水线并行。

  6. AMD GPU:支持通过 SGLang 在 BF16 和 FP8 模式下在 AMD GPU 上运行 DeepSeek-V3 模型。

  7. 华为昇腾 NPU:支持在华为昇腾设备上运行 DeepSeek-V3。

由于 FP8 训练是在我们的框架中原生采用的,因此我们只提供 FP8 权重。如果您需要 BF16 权重进行实验,则可以使用提供的转换脚本来执行转换。

以下是将 FP8 权重转换为 BF16 的示例:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

 

注意:尚未直接支持 Huggingface 的 Transformers。

6.1 使用 DeepSeek-Infer 进行推理 Demo (仅示例)

模型权重和演示代码准备

首先,克隆我们的 DeepSeek-V3 GitHub 存储库:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

 

导航到文件夹并安装 中列出的依赖项。inferencerequirements.txt

cd DeepSeek-V3/inference
pip install -r requirements.txt

 

从 HuggingFace 下载模型权重,并将它们放入文件夹中。/path/to/DeepSeek-V3

模型权重转换

将 HuggingFace 模型权重转换为特定格式:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

 

然后,您可以与 DeepSeek-V3 聊天:

torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

 

或对给定文件进行批量推理:

torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

 

6.2 使用 SGLang 进行推理(推荐)

SGLang 目前支持 MLA 优化、FP8 (W8A8)、FP8 KV Cache 和 Torch Compile,在开源框架中提供最先进的延迟和吞吐量性能。

值得注意的是,SGLang v0.4.1 完全支持在 NVIDIA 和 AMD GPU 上运行 DeepSeek-V3,使其成为一个高度通用且强大的解决方案。

以下是 SGLang 团队的启动说明:https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3

6.3 使用 LMDeploy 进行推理(推荐)

LMDeploy 是一个为大型语言模型量身定制的灵活、高性能的推理和服务框架,现在支持 DeepSeek-V3。它提供离线管道处理和在线部署功能,与基于 PyTorch 的工作流无缝集成。

有关使用 LMDeploy 运行 DeepSeek-V3 的全面分步说明,请参阅此处:https://github.com/InternLM/lmdeploy/issues/2960

6.4 使用 TRT-LLM 进行推理(推荐)

TensorRT-LLM 现在支持 DeepSeek-V3 模型,仅提供 BF16 和 INT4/INT8 权重等精度选项。对 FP8 的支持目前正在进行中,并将很快发布。您可以通过以下链接访问 TRTLLM 专门用于 DeepSeek-V3 支持的自定义分支,直接体验新功能:https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3。

6.5 使用 vLLM 进行推理(推荐)

vLLM v0.6.6 支持在 NVIDIA 和 AMD GPU 上对 FP8 和 BF16 模式进行 DeepSeek-V3 推理。除了标准技术之外,vLLM 还提供管道并行性,允许您在通过网络连接的多台机器上运行此模型。有关详细指导,请参阅 vLLM 说明。也请随时遵循增强计划。

6.6 AMD GPU 的推荐推理功能

通过与 AMD 团队合作,我们实现了对使用 SGLang 的 AMD GPU 的第一天支持,完全兼容 FP8 和 BF16 精度。有关详细指南,请参阅 SGLang 说明。

6.7 华为昇腾 NPU 的推荐推理功能

来自华为昇腾社区的 MindIE 框架成功适配了 DeepSeek-V3 的 BF16 版本。有关 Ascend NPU 的分步指南,请按照此处的说明进行操作。

7. 许可

此代码存储库根据 MIT 许可证获得许可。使用 DeepSeek-V3 Base/Chat 模型需遵守模型许可证。DeepSeek-V3 系列(包括 Base 和 Chat)支持商用。

8. 引文

@misc{deepseekai2024deepseekv3technicalreport,
title={DeepSeek-V3 Technical Report},
author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan},
year={2024},
eprint={2412.19437},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.19437},
}

联系我们

工四科技 是一家前沿技术公司,提供云计算大数据信息安全人工智能解决方案。我们致力于利用创新技术助力企业数字化转型,推动业务增长。我们的业务范围包括:

  • 云服务:作为 AWS 和 Akamai 合作伙伴,提供全面的云计算和企业上云解决方案,帮助企业实现高效的云端部署和管理,满足各种规模的业务需求。
  • 安全防护:通过安全托管应对未知的网络威胁,通过SOC安全运营中心提供一个全面的网络安全解决方案,集成了资产管理、入侵检测、调查响应、风险防范等多项功能,旨在为企业提供全方位的网络安全保护和管理服务。
  • RPA(机器人流程自动化):通过自动化技术,提高业务流程效率,降低运营成本
  • PWA(渐进式 Web 应用):开发跨平台的 Web 应用,为用户提供接近原生应用的体验。
  • 短信服务:提供全球短信语音短信,满足企业通信需求
Categories: 解决方案

0 Comments

发表回复

Avatar placeholder

您的邮箱地址不会被公开。 必填项已用 * 标注