by Ava Feb 28,2025
DeepSeek令人驚訝的具有成本效益的AI模型挑戰了行業巨頭。該公司的新聊天機器人具有令人印象深刻的能力,從而導致了嚴重的市場中斷並影響了Nvidia的股票。它的成功源於創新技術和大量投資的結合,這與最低培訓成本的初始主張相矛盾。
圖像:ensigame.com
DeepSeek V3利用尖端技術:多token預測(MTP),以提高準確性和效率; 專家(MOE)的混合物,利用256個神經網絡,加速培訓並提高了性能; 多頭潛在注意力(MLA),以確保不會忽略關鍵細節。
圖像:ensigame.com
盡管DeepSeek最初聲稱僅支付了600萬美元的培訓費用,但一份半分析報告顯示,投資的投資要大得多。他們的基礎設施包括約50,000個NVIDIA GPU,價值約16億美元,運營成本達到9.44億美元。這與最初的低成本敘述相矛盾。
圖像:ensigame.com
DeepSeek的獨立結構,其數據中心的所有權以及高薪中國人才的高薪有助於其成功。這筆600萬美元的數字僅反映了預培訓的GPU成本,省略了研究,改進,數據處理和基礎架構。 AI開發投資總額超過5億美元。對於一些研究人員來說,高薪高於130萬美元,進一步強調了這一巨大投資。
圖像:ensigame.com
DeepSeek的示例表明,資金充足的獨立AI公司可以有效競爭。但是,它的成功在很大程度上取決於大量投資,技術進步和熟練的團隊。 “革命預算”主張具有誤導性,盡管其成本仍然大大低於競爭對手(例如,DeepSeek的R1為500萬美元,而Chatgpt 4的1億美元)。