DeepSeek V3

DeepSeek V3：擁有6710億參數的先進人工智慧語言模型

體驗下一代語言模型在推理、程式設計和數學計算方面的突破性效率

6710億參數

先進程式設計

高效訓練

試用 DeepSeek V3 訪問 API

免費網站整合

擁有自己的網站？使用簡單的iframe代碼免費嵌入我們的聊天界面，無需註冊。

免註冊試用 DeepSeek 聊天

DeepSeek 對話

核心特性

探索使 DeepSeek V3 脫穎而出的強大功能

先進的 MoE 架構

革命性的6710億參數模型，每個詞元僅激活370億參數，通過創新的負載均衡實現最佳效率

•多頭潛在注意力（MLA）
•無輔助損失的負載均衡
•DeepSeekMoE 架構
•多詞元預測目標

最先進的性能

在多個基準測試中取得卓越成果，包括 MMLU (87.1%)、BBH (87.5%) 和數學推理任務

•程式競賽最高分
•高級數學計算
•多語言能力
•複雜推理任務

高效訓練

突破性的訓練方法僅需278.8萬小時 H800 GPU，成本效率顯著，僅需550萬美元

•FP8混合精度訓練
•優化的訓練框架
•穩定的訓練過程
•無需回滾

靈活部署

支援 NVIDIA、AMD GPU 和華為昇騰 NPU 的多種部署選項，實現靈活整合

•雲端部署就緒
•本地推理支援
•多硬體平台
•優化的服務選項

先進的程式設計能力

在程式設計任務中表現卓越，在競賽程式設計和實際開發場景中都有出色表現

•多語言支援
•程式碼補全
•錯誤檢測
•程式碼優化

企業級安全

全面的安全措施和合規功能，適用於企業部署和整合

•存取控制
•資料加密
•稽核日誌
•合規就緒

海量訓練資料

在14.8兆多樣化、高品質的詞元上預訓練，確保廣泛的知識和能力

•多樣化資料來源
•品質過濾內容
•多領域覆蓋
•定期更新

創新領導力

通過開放協作和持續創新，引領人工智慧技術的進步

•研究領導力
•開放協作
•社群驅動
•持續改進

媒體報導中的 DeepSeek V3

開源人工智慧開發的新突破

突破性表現

DeepSeek V3 在程式設計競賽中超越開源和閉源 AI 模型，尤其在 Codeforces 競賽和 Aider Polyglot 測試中表現出色。

大規模架構

擁有6710億參數並在14.8兆詞元上訓練，規模是 Meta 的 Llama 3.1 405B 的1.6倍。

高效開發成本

僅用兩個月時間使用 Nvidia H800 GPU 訓練完成，開發成本僅為550萬美元。

DeepSeek V3 實際演示

觀看 DeepSeek V3 如何革新開源人工智慧能力

DeepSeek V3：革命性的開源人工智慧

深入了解 DeepSeek V3 的能力及其與其他領先人工智慧模型的性能對比。

DeepSeek V3 性能指標

DeepSeek V3 語言理解

MMLU87.1%

BBH87.5%

DROP89.0%

DeepSeek V3 程式設計

HumanEval65.2%

MBPP75.4%

CRUXEval68.5%

DeepSeek V3 數學

GSM8K89.3%

MATH61.6%

CMath90.7%

技術規格

探索支援 DeepSeek V3 的先進技術能力和架構

DeepSeek V3 架構詳情

為最佳性能和效率設計的先進神經網路架構

•6710億總參數，每個詞元動態激活370億參數

•多頭潛在注意力（MLA）機制增強上下文理解

•具有專業專家網路的 DeepSeekMoE 架構

•無輔助損失的負載均衡以實現最佳資源利用

•多詞元預測訓練目標提高效率

•創新的稀疏門控機制

•先進的參數共享技術

•優化的記憶體管理系統

DeepSeek V3 研究

推進語言模型能力的邊界

創新架構

創新的混合專家（MoE）架構，採用無輔助損失的負載均衡策略

訓練方法

先進的 FP8 混合精度訓練框架，在大規模模型訓練中得到驗證

技術論文

閱讀我們詳細介紹 DeepSeek V3 架構、訓練過程和評估結果的技術論文。

閱讀論文

關於 DeepSeek

開創開源人工智慧發展的未來

公司背景

在高瓴資本的支持下，DeepSeek 致力於通過開放協作和創新實現人工智慧技術的突破性進展。

基礎設施

DeepSeek 擁有包括10,000個 Nvidia A100 GPU 在內的先進計算集群，在大規模模型訓練方面展現出卓越的能力。

下載 DeepSeek V3 模型

選擇 DeepSeek V3 的基礎版本或對話優化版本

DeepSeek V3 基礎模型

具有6710億參數（370億激活）的基礎模型

大小: 685GB

•在14.8兆詞元上預訓練
•128K上下文長度
•FP8權重
•6710億總參數

下載基礎模型

DeepSeek V3 對話模型

針對對話和互動優化的微調模型

大小: 685GB

•增強的推理能力
•128K上下文長度
•改進的指令遵循
•6710億總參數

下載對話模型

安裝說明

使用 Git LFS 下載（推薦方法）：

# For Base Model
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

# For Chat Model
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-V3

查看基礎模型查看對話模型

DeepSeek V3 部署選項

DeepSeek V3 本地部署

使用 DeepSeek-Infer Demo 在本地運行，支援 FP8 和 BF16 推理

簡單設置
輕量級演示
多精度選項

DeepSeek V3 雲端整合

通過 SGLang 和 LMDeploy 支援在雲平台上部署

雲原生部署
可擴展基礎設施
企業級就緒

DeepSeek V3 硬體支援

相容 NVIDIA、AMD GPU 和華為昇騰 NPU

多供應商支援
性能優化
靈活部署

如何使用 DeepSeek V3

只需簡單三步，即可開始與 DeepSeek V3 對話

步驟 1

訪問聊天頁面

點擊頁面頂部的"Try Chat"按鈕，進入聊天界面

步驟 2

輸入問題

在聊天輸入框中輸入你想問的問題

步驟 3

等待回覆

DeepSeek V3 會快速生成回答，通常只需要幾秒鐘

立即開始對話

常見問題

了解更多關於 DeepSeek V3 的資訊

DeepSeek V3 有什麼獨特之處？

DeepSeek V3 採用 671B 參數的 MoE 架構，結合多令牌預測和無輔助損失的負載均衡等創新特性，在各類任務中展現出卓越性能。

如何訪問 DeepSeek V3？

您可以通過我們的線上演示平台和 API 服務使用 DeepSeek V3，也可以下載模型權重進行本地部署。

DeepSeek V3 在哪些任務上表現出色？

DeepSeek V3 在數學、程式設計、推理和多語言任務中表現優異，在基準評估中持續取得頂級成績。

運行 DeepSeek V3 的硬體要求是什麼？

DeepSeek V3 支援多種部署選項，包括 NVIDIA GPU、AMD GPU 和華為昇騰 NPU，並提供多種框架選擇以實現最佳性能。

DeepSeek V3 支援商業使用嗎？

是的，DeepSeek V3 支援商業使用，具體使用條款請參考模型許可協議。

DeepSeek V3 與其他語言模型相比如何？

DeepSeek V3 在各項基準測試中優於其他開源模型，並達到了與領先閉源模型相當的性能水平。

DeepSeek V3 支援哪些部署框架？

DeepSeek V3 可以使用多種框架部署，包括 SGLang、LMDeploy、TensorRT-LLM、vLLM 等，並支援 FP8 和 BF16 推理模式。

DeepSeek V3 的上下文窗口大小是多少？

DeepSeek V3 具有 128K 的上下文窗口，能夠有效處理和理解複雜任務和長文本內容。

開始使用 DeepSeek V3

嘗試 DeepSeek V3 API

通過我們的開發者友好型 API 平台訪問 DeepSeek V3 的功能

開始構建

在 GitHub 上探索

訪問原始碼、文件，並為 DeepSeek V3 做出貢獻

查看儲存庫

嘗試 DeepSeek V3 聊天

通過我們的互動式聊天介面直接體驗 DeepSeek V3 的功能

開始聊天