DeepSeek V3

DeepSeek V3: مدل زبانی هوش مصنوعی پیشرفته با ۶۷۱ میلیارد پارامتر

کارایی انقلابی نسل بعدی مدل‌های زبانی را در استدلال، برنامه‌نویسی و محاسبات ریاضی تجربه کنید

۶۷۱ میلیارد پارامتر
برنامه‌نویسی پیشرفته
آموزش کارآمد

ادغام رایگان در وب‌سایت

آیا وب‌سایت دارید؟ رابط گفتگوی ما را با یک کد iframe ساده به صورت رایگان در سایت خود جاسازی کنید. نیازی به ثبت‌نام نیست.

<iframe src="https://www.deepseekv3.com/embed" width="100%" height="600px" frameborder="0"></iframe>

چت DeepSeek را بدون ثبت‌نام امتحان کنید

ویژگی‌های کلیدی

قابلیت‌های قدرتمندی که DeepSeek V3 را متمایز می‌کند را کشف کنید

معماری پیشرفته MoE

مدل انقلابی با ۶۷۱ میلیارد پارامتر که تنها ۳۷ میلیارد پارامتر برای هر توکن فعال می‌شود، با متعادل‌سازی بار نوآورانه به کارایی بهینه دست می‌یابد

  • توجه نهان چندسر (MLA)
  • متعادل‌سازی بار بدون تلفات کمکی
  • معماری DeepSeekMoE
  • هدف پیش‌بینی چند توکنی

عملکرد پیشرو

نتایج استثنایی در معیارهای مختلف از جمله MMLU (۸۷.۱٪)، BBH (۸۷.۵٪) و وظایف استدلال ریاضی

  • امتیازات برتر در مسابقات برنامه‌نویسی
  • محاسبات ریاضی پیشرفته
  • قابلیت‌های چندزبانه
  • وظایف استدلال پیچیده

آموزش کارآمد

رویکرد آموزشی پیشگامانه که تنها به ۲.۷۸۸ میلیون ساعت GPU H800 نیاز دارد، با کارایی هزینه قابل توجه ۵.۵ میلیون دلار

  • آموزش دقت ترکیبی FP8
  • چارچوب آموزشی بهینه‌شده
  • فرآیند آموزش پایدار
  • بدون نیاز به بازگشت

استقرار انعطاف‌پذیر

گزینه‌های متعدد استقرار با پشتیبانی از GPUهای NVIDIA، AMD و NPUهای Huawei Ascend برای یکپارچه‌سازی انعطاف‌پذیر

  • آماده استقرار در ابر
  • پشتیبانی از استنتاج محلی
  • پلتفرم‌های سخت‌افزاری متعدد
  • گزینه‌های سرویس‌دهی بهینه

قابلیت‌های پیشرفته کدنویسی

عملکرد برتر در وظایف برنامه‌نویسی، برتری در مسابقات برنامه‌نویسی و سناریوهای توسعه دنیای واقعی

  • پشتیبانی از چند زبان
  • تکمیل کد
  • تشخیص خطا
  • بهینه‌سازی کد

امنیت سازمانی

اقدامات امنیتی جامع و ویژگی‌های انطباق برای استقرار و یکپارچه‌سازی سازمانی

  • کنترل دسترسی
  • رمزگذاری داده
  • ثبت ممیزی
  • آماده انطباق

داده‌های آموزشی گسترده

پیش‌آموزش روی ۱۴.۸ تریلیون توکن متنوع و با کیفیت بالا، تضمین‌کننده دانش و قابلیت‌های گسترده

  • منابع داده متنوع
  • محتوای فیلترشده با کیفیت
  • حوزه‌های متعدد
  • به‌روزرسانی‌های منظم

رهبری نوآوری

پیشگامی در پیشرفت‌های فناوری هوش مصنوعی از طریق همکاری باز و نوآوری مستمر

  • رهبری پژوهش
  • همکاری باز
  • هدایت توسط جامعه
  • بهبودهای منظم

DeepSeek V3 در پوشش رسانه‌ای

پیشرفت جدید در توسعه هوش مصنوعی متن‌باز

عملکرد پیشگامانه

DeepSeek V3 از مدل‌های هوش مصنوعی متن‌باز و بسته در مسابقات برنامه‌نویسی پیشی گرفته است، به ویژه در مسابقات Codeforces و آزمون Aider Polyglot.

معماری مقیاس بزرگ

با ۶۷۱ میلیارد پارامتر و آموزش روی ۱۴.۸ تریلیون توکن، ۱.۶ برابر بزرگتر از Llama 3.1 405B متا است.

هزینه توسعه کارآمد

آموزش تنها در دو ماه با استفاده از GPUهای Nvidia H800 تکمیل شد، با هزینه توسعه تنها ۵.۵ میلیون دلار.

نمایش عملی DeepSeek V3

ببینید چگونه DeepSeek V3 قابلیت‌های هوش مصنوعی متن‌باز را متحول می‌کند

DeepSeek V3: هوش مصنوعی متن‌باز انقلابی

درک عمیق‌تری از قابلیت‌های DeepSeek V3 و مقایسه عملکرد آن با سایر مدل‌های پیشرو هوش مصنوعی کسب کنید.

معیارهای عملکرد DeepSeek V3

درک زبان DeepSeek V3

MMLU87.1%
BBH87.5%
DROP89.0%

برنامه‌نویسی DeepSeek V3

HumanEval65.2%
MBPP75.4%
CRUXEval68.5%

ریاضیات DeepSeek V3

GSM8K89.3%
MATH61.6%
CMath90.7%

مشخصات فنی

کاوش در قابلیت‌ها و معماری فنی پیشرفته که DeepSeek V3 را پشتیبانی می‌کند

جزئیات معماری DeepSeek V3

معماری شبکه عصبی پیشرفته طراحی شده برای بهترین عملکرد و کارایی

۶۷۱ میلیارد پارامتر کل، با فعال‌سازی پویای ۳۷ میلیارد پارامتر برای هر توکن
مکانیزم توجه نهان چندسر (MLA) برای بهبود درک زمینه
معماری DeepSeekMoE با شبکه‌های متخصص
متعادل‌سازی بار بدون تلفات کمکی برای استفاده بهینه از منابع
هدف آموزشی پیش‌بینی چند توکنی برای افزایش کارایی
مکانیزم دروازه‌بندی تُنُک نوآورانه
تکنیک‌های پیشرفته اشتراک پارامتر
سیستم مدیریت حافظه بهینه‌شده

پژوهش DeepSeek V3

پیشبرد مرزهای قابلیت‌های مدل زبانی

معماری نوین

معماری نوآورانه Mixture-of-Experts (MoE) با استراتژی متعادل‌سازی بار بدون نیاز به تابع خطای کمکی

روش‌شناسی آموزش

چارچوب پیشرفته آموزش FP8 با دقت ترکیبی اعتبارسنجی شده در آموزش مدل‌های مقیاس بزرگ

مقاله فنی

مقاله فنی جامع ما را مطالعه کنید که جزئیات معماری، فرآیند آموزش و نتایج ارزیابی DeepSeek V3 را شرح می‌دهد.

مطالعه مقاله

درباره DeepSeek

پیشگامی در آینده توسعه هوش مصنوعی متن‌باز

پیشینه شرکت

DeepSeek با پشتیبانی Hillhouse Capital، متعهد به دستیابی به پیشرفت‌های پیشگامانه در فناوری هوش مصنوعی از طریق همکاری و نوآوری باز است.

زیرساخت

DeepSeek دارای خوشه‌های محاسباتی پیشرفته شامل ۱۰,۰۰۰ GPU Nvidia A100 است که توانایی برجسته‌ای در آموزش مدل‌های مقیاس بزرگ نشان می‌دهد.

دانلود مدل‌های DeepSeek V3

بین نسخه‌های پایه و بهینه‌شده برای چت DeepSeek V3 انتخاب کنید

مدل پایه DeepSeek V3

مدل پایه با ۶۷۱ میلیارد پارامتر (۳۷ میلیارد فعال)

حجم: ۶۸۵ گیگابایت
  • پیش‌آموزش روی ۱۴�۸ تریلیون توکن
  • طول زمینه ۱۲۸ هزار
  • وزن‌های FP۸
  • ۶۷۱ میلیارد پارامتر کل
دانلود مدل پایه

مدل چت DeepSeek V3

مدل بهینه‌شده برای گفتگو و تعامل

حجم: ۶۸۵ گیگابایت
  • استدلال پیشرفته
  • طول زمینه ۱۲۸ هزار
  • پیروی بهبود یافته از دستورات
  • ۶۷۱ میلیارد پارامتر کل
دانلود مدل چت

دستورالعمل‌های نصب

دانلود با استفاده از Git LFS (روش توصیه شده):

# For Base Model
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

# For Chat Model
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-V3

گزینه‌های استقرار DeepSeek V3

استقرار محلی DeepSeek V3

اجرا در محل با DeepSeek-Infer Demo، با پشتیبانی از استنتاج FP8 و BF16

  • راه‌اندازی ساده
  • نسخه نمایشی سبک
  • گزینه‌های دقت چندگانه

یکپارچه‌سازی ابری DeepSeek V3

استقرار در پلتفرم‌های ابری با پشتیبانی SGLang و LMDeploy

  • استقرار بومی ابر
  • زیرساخت مقیاس‌پذیر
  • آماده سازمانی

پشتیبانی سخت‌افزاری DeepSeek V3

سازگار با GPUهای NVIDIA، AMD و NPUهای Huawei Ascend

  • پشتیبانی چند فروشنده
  • بهینه‌سازی عملکرد
  • استقرار انعطاف‌پذیر

نحوه استفاده از DeepSeek V3

در سه مرحله ساده، گفتگو با DeepSeek V3 را آغاز کنید

مرحله 1

بازدید از صفحه چت

روی دکمه "امتحان چت" در بالای صفحه کلیک کنید تا وارد رابط چت شوید

مرحله 2

نوشتن سؤال

سؤال خود را در کادر ورودی چت بنویسید

مرحله 3

منتظر پاسخ بمانید

DeepSeek V3 به سرعت پاسخی تولید می‌کند، معمولاً فقط چند ثانیه طول می‌کشد

سؤالات متداول

اطلاعات بیشتر درباره DeepSeek V3

چه چیزی DeepSeek V3 را منحصر به فرد می‌کند؟

DeepSeek V3 از معماری MoE با ۶۷۱ میلیارد پارامتر استفاده می‌کند و با ویژگی‌های نوآورانه مانند پیش‌بینی چند توکنی و متعادل‌سازی بار بدون تلفات کمکی، عملکرد برجسته‌ای در انواع وظایف نشان می‌دهد.

چگونه می‌توانم به DeepSeek V3 دسترسی پیدا کنم؟

شما می‌توانید از طریق پلتفرم نمایشی آنلاین و سرویس API ما به DeepSeek V3 دسترسی پیدا کنید، یا وزن‌های مدل را برای استقرار محلی دانلود کنید.

DeepSeek V3 در چه وظایفی عملکرد برجسته دارد؟

DeepSeek V3 در وظایف ریاضی، برنامه‌نویسی، استدلال و چندزبانه عملکرد عالی دارد و به طور مداوم نتایج برتر در ارزیابی‌های معیار کسب می‌کند.

الزامات سخت‌افزاری برای اجرای DeepSeek V3 چیست؟

DeepSeek V3 گزینه‌های متعدد استقرار را پشتیبانی می‌کند، از جمله GPUهای NVIDIA، AMD و NPUهای Huawei Ascend، و چارچوب‌های متعددی را برای عملکرد بهینه ارائه می‌دهد.

آیا DeepSeek V3 برای استفاده تجاری مجاز است؟

بله، DeepSeek V3 برای استفاده تجاری مجاز است. برای شرایط خاص استفاده، لطفاً به توافقنامه مجوز مدل مراجعه کنید.

DeepSeek V3 در مقایسه با سایر مدل‌های زبانی چگونه است؟

DeepSeek V3 در تمام معیارهای ارزیابی از سایر مدل‌های متن‌باز برتر است و به سطح عملکرد مشابه با مدل‌های بسته پیشرو دست یافته است.

DeepSeek V3 از چه چارچوب‌های استقراری پشتیبانی می‌کند؟

DeepSeek V3 را می‌توان با چارچوب‌های متعددی مستقر کرد، از جمله SGLang، LMDeploy، TensorRT-LLM، vLLM و غیره، و از حالت‌های استنتاج FP8 و BF16 پشتیبانی می‌کند.

اندازه پنجره زمینه DeepSeek V3 چقدر است؟

DeepSeek V3 دارای پنجره زمینه ۱۲۸K است که امکان پردازش و درک مؤثر وظایف پیچیده و محتوای متنی طولانی را فراهم می‌کند.

شروع کار با DeepSeek V3

امتحان API دیپ‌سیک V3

دسترسی به قابلیت‌های DeepSeek V3 از طریق پلتفرم API مناسب برای توسعه‌دهندگان

شروع توسعه

بررسی در گیت‌هاب

دسترسی به کد منبع، مستندات و مشارکت در DeepSeek V3

مشاهده مخزن

امتحان چت DeepSeek V3

تجربه قابلیت‌های DeepSeek V3 به طور مستقیم از طریق رابط چت تعاملی ما

شروع گفتگو