2025年初,當DeepSeek-V3以驚人的低成本訓練效率震撼全球AI圈時,這家年輕的AI公司再次進入公眾視野。作為幻方科技旗下的明星企業,DeepSeek用短短一年半的時間,完成了從默默無聞到全球矚目的蛻變。
幻方科技:量化交易巨頭的AI布局
在杭州匯金國際大廈,一支由80後創始人梁文鋒帶領的團隊正在進行著一場技術革命。這裡是量化私募巨頭幻方科技的所在地,也是DeepSeek的誕生地。
幻方科技成立於2016年,是中國頂尖的量化私募基金。憑藉在AI和量化交易領域的深厚積累,公司早在2022年就開始為進軍大語言模型領域佈局。在晶片荒最嚴重的時候,幻方提前儲備了萬張A100晶片,為DeepSeek的誕生奠定了堅實基礎。
獨特的技術路線
與其他中國大模型公司不同,DeepSeek選擇了一條獨特的發展道路。創始人梁文鋒堅信,中國AI企業不應該永遠停留在跟隨者的位置,而應該在全球技術創新的浪潮中貢獻自己的力量。
這種信念體現在公司的每一個重要決策中。DeepSeek是七家中國大模型明星創業公司中唯一一家至今專注研究和技術、未做toC應用的公司,也是唯一一家未全面考慮商業化、堅定選擇開源路線甚至都沒融過資的公司。
顛覆性的技術突破
DeepSeek的技術創新主要體現在兩個方面:架構創新和訓練方法創新。
在架構方面,公司獨創的MLA(多頭潛在注意力機制)架構將顯存佔用降到了傳統MHA架構的5%-13%。這項創新源自一位年輕研究員的靈感,經過團隊幾個月的努力最終實現了突破。同時,DeepSeekMoE架構的創新也讓計算量降到了極致。
在訓練方法上,DeepSeek開創性地採用FP8混合精度訓練,並對數據處理策略進行了優化。這些創新讓DeepSeek-V3僅用2048塊GPU、不到兩個月的時間就完成了訓練,總成本僅為550萬美元,約為GPT-4o的二十分之一。
年輕的創新團隊
DeepSeek擁有一支極具特色的研發團隊。核心技術崗位基本由應屆生和畢業一兩年的年輕人擔任,團隊leader也都以畢業4-6年的年輕人為主。這些來自清華、北大等頂尖高校的年輕人,在公司扁平化的管理體系和自由創新的氛圍中迸發出驚人的創造力。
在DeepSeek,每個人都可以自由調用訓練集群的算力資源,不需要審批。當一個研究員有了想法,可以隨時拉其他感興趣的同事組隊探索。這種靈活的創新機制讓許多突破性的想法得以實現。
開源的技術理念
作為幻方科技孵化的創新企業,DeepSeek繼承了母公司務實創新的基因,同時也走出了自己的特色。公司堅持開源路線,認為在顛覆性技術面前,閉源形成的護城河是短暫的。
DeepSeek將價值沉澱在團隊上,通過開源促進整個AI生態的發展。梁文鋒認為,「開源更像一個文化行為,而非商業行為。給予其實是一種額外的榮譽。」
對標全球的技術雄心
在基本由矽谷牽動故事進展的AI浪潮裡,DeepSeek提供了一個難得的反向案例。它的MLA架構創新被SemiAnalysis首席分析師評價為「可能是今年最好的一篇論文」,OpenAI前員工也對其「充滿驚人智慧」的訓練設置表示讚嘆。
作為幻方科技在AI領域的重要布局,DeepSeek正在用實際行動證明:中國科技企業完全有能力在全球技術創新的最前沿做出貢獻。從簡單的技術跟隨者,到積極的創新貢獻者,這家年輕的公司正在書寫著中國AI產業的新篇章。
未來展望
展望未來,DeepSeek的目標是成為全球領先的基礎模型提供商。公司希望通過持續的技術創新,形成完整的產業生態,讓更多企業能夠在DeepSeek的基礎上構建toB、toC的業務。
從幻方科技的量化交易起步,到如今在AI領域的開疆拓土,DeepSeek展現了中國科技企業從1到N,再到從0到1的進化之路。這個故事仍在繼續,而幻方科技和DeepSeek的組合,必將在這個AI時代寫下濃墨重彩的一筆。