by Ava Feb 28,2025
DeepSeek令人惊讶的具有成本效益的AI模型挑战了行业巨头。该公司的新聊天机器人具有令人印象深刻的能力,从而导致了严重的市场中断并影响了Nvidia的股票。它的成功源于创新技术和大量投资的结合,这与最低培训成本的初始主张相矛盾。
图像:ensigame.com
DeepSeek V3利用尖端技术:多token预测(MTP),以提高准确性和效率; 专家(MOE)的混合物,利用256个神经网络,加速培训并提高了性能; 多头潜在注意力(MLA),以确保不会忽略关键细节。
图像:ensigame.com
尽管DeepSeek最初声称仅支付了600万美元的培训费用,但一份半分析报告显示,投资的投资要大得多。他们的基础设施包括约50,000个NVIDIA GPU,价值约16亿美元,运营成本达到9.44亿美元。这与最初的低成本叙述相矛盾。
图像:ensigame.com
DeepSeek的独立结构,其数据中心的所有权以及高薪中国人才的高薪有助于其成功。这笔600万美元的数字仅反映了预培训的GPU成本,省略了研究,改进,数据处理和基础架构。 AI开发投资总额超过5亿美元。对于一些研究人员来说,高薪高于130万美元,进一步强调了这一巨大投资。
图像:ensigame.com
DeepSeek的示例表明,资金充足的独立AI公司可以有效竞争。但是,它的成功在很大程度上取决于大量投资,技术进步和熟练的团队。 “革命预算”主张具有误导性,尽管其成本仍然大大低于竞争对手(例如,DeepSeek的R1为500万美元,而Chatgpt 4的1亿美元)。