DeepSeek V3

DeepSeek V3：拥有6710亿参数的先进人工智能语言模型

体验下一代语言模型在推理、编程和数学计算方面的突破性效率

6710亿参数

先进编程

高效训练

试用 DeepSeek V3 访问 API

免费网站集成

拥有自己的网站？使用简单的iframe代码免费嵌入我们的聊天界面，无需注册。

免注册试用 DeepSeek 聊天

DeepSeek 对话

核心特性

探索使 DeepSeek V3 脱颖而出的强大功能

先进的 MoE 架构

革命性的6710亿参数模型，每个词元仅激活370亿参数，通过创新的负载均衡实现最佳效率

•多头潜在注意力（MLA）
•无辅助损失的负载均衡
•DeepSeekMoE 架构
•多词元预测目标

最先进的性能

在多个基准测试中取得卓越成果，包括 MMLU (87.1%)、BBH (87.5%) 和数学推理任务

•编程竞赛最高分
•高级数学计算
•多语言能力
•复杂推理任务

高效训练

突破性的训练方法仅需278.8万小时 H800 GPU，成本效率显著，仅需550万美元

•FP8混合精度训练
•优化的训练框架
•稳定的训练过程
•无需回滚

灵活部署

支持 NVIDIA、AMD GPU 和华为昇腾 NPU 的多种部署选项，实现灵活集成

•云端部署就绪
•本地推理支持
•多硬件平台
•优化的服务选项

先进的编程能力

在编程任务中表现卓越，在竞赛编程和实际开发场景中都有出色表现

•多语言支持
•代码补全
•错误检测
•代码优化

企业级安全

全面的安全措施和合规功能，适用于企业部署和集成

•访问控制
•数据加密
•审计日志
•合规就绪

海量训练数据

在14.8万亿多样化、高质量的词元上预训练，确保广泛的知识和能力

•多样化数据源
•质量过滤内容
•多领域覆盖
•定期更新

创新领导力

通过开放协作和持续创新，引领人工智能技术的进步

•研究领导力
•开放协作
•社区驱动
•持续改进

媒体报道中的 DeepSeek V3

开源人工智能开发的新突破

突破性表现

DeepSeek V3 在编程竞赛中超越开源和闭源 AI 模型，尤其在 Codeforces 竞赛和 Aider Polyglot 测试中表现出色。

大规模架构

拥有6710亿参数并在14.8万亿词元上训练，规模是 Meta 的 Llama 3.1 405B 的1.6倍。

高效开发成本

仅用两个月时间使用 Nvidia H800 GPU 训练完成，开发成本仅为550万美元。

DeepSeek V3 实际演示

观看 DeepSeek V3 如何革新开源人工智能能力

DeepSeek V3：革命性的开源人工智能

深入了解 DeepSeek V3 的能力及其与其他领先人工智能模型的性能对比。

DeepSeek V3 性能指标

DeepSeek V3 语言理解

MMLU87.1%

BBH87.5%

DROP89.0%

DeepSeek V3 编程

HumanEval65.2%

MBPP75.4%

CRUXEval68.5%

DeepSeek V3 数学

GSM8K89.3%

MATH61.6%

CMath90.7%

技术规格

探索支持 DeepSeek V3 的先进技术能力和架构

DeepSeek V3 架构详情

为最佳性能和效率设计的先进神经网络架构

•6710亿总参数，每个词元动态激活370亿参数

•多头潜在注意力（MLA）机制增强上下文理解

•具有专业专家网络的 DeepSeekMoE 架构

•无辅助损失的负载均衡以实现最佳资源利用

•多词元预测训练目标提高效率

•创新的稀疏门控机制

•先进的参数共享技术

•优化的内存管理系统

DeepSeek V3 研究

推进语言模型能力的边界

创新架构

创新的混合专家（MoE）架构，采用无辅助损失的负载均衡策略

训练方法

先进的 FP8 混合精度训练框架，在大规模模型训练中得到验证

技术论文

阅读我们详细介绍 DeepSeek V3 架构、训练过程和评估结果的技术论文。

阅读论文

关于 DeepSeek

开创开源人工智能发展的未来

公司背景

在高瓴资本的支持下，DeepSeek 致力于通过开放协作和创新实现人工智能技术的突破性进展。

基础设施

DeepSeek 拥有包括10,000个 Nvidia A100 GPU 在内的先进计算集群，在大规模模型训练方面展现出卓越的能力。

下载 DeepSeek V3 模型

选择 DeepSeek V3 的基础版本或对话优化版本

DeepSeek V3 基础模型

具有6710亿参数（370亿激活）的基础模型

大小: 685GB

•在14.8万亿词元上预训练
•128K上下文长度
•FP8权重
•6710亿总参数

下载基础模型

DeepSeek V3 对话模型

针对对话和交互优化的微调模型

大小: 685GB

•增强的推理能力
•128K上下文长度
•改进的指令遵循
•6710亿总参数

下载对话模型

安装说明

使用 Git LFS 下载（推荐方法）：

# For Base Model
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

# For Chat Model
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-V3

查看基础模型查看对话模型

DeepSeek V3 部署选项

DeepSeek V3 本地部署

使用 DeepSeek-Infer Demo 在本地运行，支持 FP8 和 BF16 推理

简单设置
轻量级演示
多精度选项

DeepSeek V3 云端集成

通过 SGLang 和 LMDeploy 支持在云平台上部署

云原生部署
可扩展基础设施
企业级就绪

DeepSeek V3 硬件支持

兼容 NVIDIA、AMD GPU 和华为昇腾 NPU

多供应商支持
性能优化
灵活部署

如何使用 DeepSeek V3

只需简单三步，即可开始与 DeepSeek V3 对话

步骤 1

访问聊天页面

点击页面顶部的"Try Chat"按钮，进入聊天界面

步骤 2

输入问题

在聊天输入框中输入你想问的问题

步骤 3

等待回复

DeepSeek V3 会快速生成回答，通常只需要几秒钟

立即开始对话

常见问题

了解更多关于 DeepSeek V3 的信息

DeepSeek V3 有什么独特之处？

DeepSeek V3 采用 671B 参数的 MoE 架构，结合多令牌预测和无辅助损失的负载均衡等创新特性，在各类任务中展现出卓越性能。

如何访问 DeepSeek V3？

您可以通过我们的在线演示平台和 API 服务使用 DeepSeek V3，也可以下载模型权重进行本地部署。

DeepSeek V3 在哪些任务上表现出色？

DeepSeek V3 在数学、编程、推理和多语言任务中表现优异，在基准评估中持续取得顶级成绩。

运行 DeepSeek V3 的硬件要求是什么？

DeepSeek V3 支持多种部署选项，包括 NVIDIA GPU、AMD GPU 和华为昇腾 NPU，并提供多种框架选择以实现最佳性能。

DeepSeek V3 支持商业使用吗？

是的，DeepSeek V3 支持商业使用，具体使用条款请参考模型许可协议。

DeepSeek V3 与其他语言模型相比如何？

DeepSeek V3 在各项基准测试中优于其他开源模型，并达到了与领先闭源模型相当的性能水平。

DeepSeek V3 支持哪些部署框架？

DeepSeek V3 可以使用多种框架部署，包括 SGLang、LMDeploy、TensorRT-LLM、vLLM 等，并支持 FP8 和 BF16 推理模式。

DeepSeek V3 的上下文窗口大小是多少？

DeepSeek V3 具有 128K 的上下文窗口，能够有效处理和理解复杂任务和长文本内容。

开始使用 DeepSeek V3

尝试 DeepSeek V3 API

通过我们的开发者友好型 API 平台访问 DeepSeek V3 的功能

开始构建

在 GitHub 上探索

访问源代码、文档，并为 DeepSeek V3 做出贡献

查看仓库

尝试 DeepSeek V3 聊天

通过我们的交互式聊天界面直接体验 DeepSeek V3 的功能

开始聊天