突然火爆全网：中国“神秘力量”震动美国科技圈

2025年1月27日 20:42

作者：环球网

1月27日，DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。同日，苹果中国区应用商店免费榜显示，DeepSeek成为中国区第一。

苹果APPStore中国区免费榜

1月27日相关微博热搜刷屏：

DeepSeek是啥？

DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，成立于2023年7月17日，是一家创新型科技公司，专注于开发先进的大语言模型（LLM）和相关技术。去年12月DeepSeek-V3发布后，AI数据服务公司ScaleAI创始人AlexanderWang就发帖称，DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时，中国（科技界）在工作，以更低的成本、更快的速度和更强的实力赶上。”不到一个月之后，今年1月20日，DeepSeek正式开源R1推理模型。

图源：证券时报DeepSeek为何突然爆火？26日，DeepSeek出现了短时闪崩现象。不少网友反映，使用时遇到“服务器繁忙”的提示。对此，DeepSeek回应称，当天下午确实出现了局部服务波动，但问题在数分钟内就得到了解决。此次事件可能是由于新模型发布后，用户访问量激增，服务器一时无法满足大量用户的并发需求。不过，官方状态页并未将这一事件标记为事故。

据了解，此前DeepSeek在美区榜单的排名并无特别突出表现，处于稳步上升阶段，但未进入前十。此次突然蹿升，与其近期一系列突出表现有直接关系。据广州日报报道，“DeepSeek爆火的原因主要可以归结为两点：性能和成本。”萨摩耶云科技集团首席经济学家郑磊告诉记者。DeepSeek解释称，R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。这种卓越的性能不仅吸引了科技界的广泛关注，也让投资界看到了其巨大的商业潜力。更为关注的是，DeepSeekR1真正与众不同之处在于它的成本——或者说成本很低。DeepSeek的R1的预训练费用只有557.6万美元，仅是OpenAIGPT-4o模型训练成本的不到十分之一。同时，DeepSeek公布了API的定价，每百万输入tokens1元（缓存命中）/4元（缓存未命中），每百万输出tokens16元。这个收费大约是OpenAIo1运行成本的三十分之一，也因此，DeepSeek被称为AI界的“拼多多”。郑磊直言，DeepSeek对硬件市场产生了重大影响，因为它可能会降低人工智能模型的硬件成本，从而推动人工智能技术的发展。团队不到140人，都来自国内顶尖高校DeepSeek之所以能取得这些创新并非一日之功，而是“孵化”数年之久，长期谋划后的结果。DeepSeek创始人梁文锋也是头部量化私募幻方量化的创始人。Deepseek充分利用了其幻方量化积累的资金、数据和卡。

梁文锋本科、研究生毕业于浙江大学，拥有信息与电子工程学系本科和硕士学位。2008年起，他开始带领团队使用机器学习等技术探索全自动量化交易。2023年7月，DeepSeek正式成立，进军通用人工智能领域，至今从未对外融资。此前，OpenAI前政策主管、Anthropic联合创始人JackClark认为DeepSeek雇用了“一批高深莫测的奇才”，对此，梁文峰在接受自媒体采访时曾透露过，并没有什么高深莫测的奇才，都是来自Top高校的毕业生、没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。

从目前已有的媒体公开报道中可以看出，DeepSeek团队最大的特点是名校、年轻，即使是团队Leader级别，年纪也多在35岁以下。不到140人的团队，工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校，工作时间都不长。番外

专家解读：中国新AI大模型为何火爆全网

近日，一个名为DeepSeek（深度求索）的中国AI初创公司成为国内外人工智能（AI）大模型领域热议话题。在不到30天的时间里，DeepSeek先后发布了DeepSeek-V3和DeepSeek-R1两款大模型，其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉，而性能与国外顶尖大模型相当。同时，DeepSeek与外国大模型巨头闭源的路径不同，采用开源模式。中国这家公司的发展模式与成果让硅谷高度关注，多家西方主流媒体纷纷发文感叹“中国AI模型震惊硅谷”，甚至引发了国内外多家知名厂商与机构连夜尝试复现DeepSeek成果的“热潮”。DeepSeek的发展具有哪些特点？是否对国产大模型的发展路径以及创新思路带来一些启示？《环球时报》记者26日采访了多位人工智能领域的专家。

“OpenAIo1经济实惠且开放的竞争对手”

DeepSeek公司本月20日发布大模型R1，并表示“在数学、代码、自然语言推理等任务上，性能比肩OpenAIo1正式版”，引发外媒特别是美国媒体高度关注这家中国公司及其最新大模型成果。

“中国便宜、开放的人工智能模型DeepSeek让科学家兴奋不已。”《自然》杂志24日以此为题称，中国研制的大语言模型DeepSeek-R1令科学家们兴奋不已，它被认为是OpenAIo1等“推理”模型的经济实惠且开放的竞争对手。

《纽约时报》24日以“中国人工智能初创企业DeepSeek如何与硅谷巨头竞争”为题报道称，能做到上述成绩本已是一个里程碑，但DeepSeek-V3大模型背后的团队描述了一个更大的进步。他们在训练该系统时只用了先进人工智能公司所用的高度专业化计算机芯片的一小部分。中国工程师称，他们只花了约600万美元以及约2000个英伟达专用芯片就完成了新模型的训练，无论资金以及芯片使用规模都远低于世界领先的人工智能公司。

“这不是中国追赶美国的问题，而是开源追赶闭源的问题”

DeepSeek备受关注，除了性价比超高，还有另一个原因：开源。连日来，网络上已经出现了一波复现DeepSeek的热潮。加州大学伯克利分校、香港科技大学、知名人工智能公司HuggingFace等纷纷成功复现，只用强化学习，没有监督微调，甚至只用几十美元的成本就能完成复现。

美国红迪网25日称，中国DeepSeek的模型是开源的，这是令人兴奋的真正原因。基本上，他们将制造这些东西的知识免费提供给全世界，确保没有人能够真正垄断它。中国公司基本上与美国公司的做法完全相反。你能看到OpenAI、Anthropic或谷歌开源任何强大的模型吗？到目前为止，我们从他们那里得到的只是皮毛。Meta是唯一一家对开源大模型做出重大贡献的西方大公司，但他们将来可能不会开源其最好的模型。被誉为“深度学习三巨头”之一的YannLeCun（杨立昆）在社交平台X上表示，这不是中国追赶美国的问题，而是开源追赶闭源的问题。

北京邮电大学人机交互与认知工程实验室主任刘伟在接受《环球时报》记者采访时表示，大模型三大核心要素是数据、算法、算力，Deepseek使用较少的数据、较少的算力，通过算法的优化实现了与国外知名大模型等效甚至更优的效果，这是非常值得肯定的。同时还要看到它是开源的，可以供全球希望使用这一大模型的用户来使用和复现。

清华大学新闻学院、人工智能学院教授沈阳26日对《环球时报》记者表示，DeepSeek的大模型是全球开源大模型当中相当优秀的一款，是混合使用多种先进技术实现超越传统预训练技术的创新突破。他结合自身使用的感受谈了这款大模型的几个优点。一是它把目前提升AI大模型能力的方法进行了工程上的微创新组合。二是DeepSeek公布了相关论文，整个过程可以让大家去复现，这就是开源的力量。三是DeepSeek的推理过程，有自身的创新。沈阳作为AI领域的研究者，使用AI超过3万次，他认为，DeepSeek跟美国的AI相比，还有很多中国元素在里面，如中国网络当中的一些热词。

提升推理能力

对于Deepseek的发展模式为国内大模型发展以及创新提供了怎样的重要启示，刘伟认为，“创新不是规划出来的，需要市场、专业机构通过长时间的研究来另辟蹊径，尤其是一些长期关注垂直领域的商业公司可以通过对技术路径的反思、对市场发展的嗅觉，来找到更好的创新点。OpenAI最初的发展过程也是这样，并不是美国官方与科技巨头砸重金规划出来的。”

日前，OpenAI、软银等公司公布了“星际之门”计划，要在4年中砸5000亿美元来加速美国人工智能的发展。刘伟强调，这种集中人力、财力、物力，再给予政策倾斜的发展路径，在未来研究方向与研究结果方面都存在一定的不确定性。“还是要鼓励国内更多商业公司、科研院所聚焦自身的研究领域，找到适合自己的创新与发展路径。”

沈阳表示，在AI发展历史中，新的突破往往是由不显眼的工程创新与科学探索共同驱动的。这种趋势在DeepSeek的成果中得到了深刻体现，它不仅突破了传统的训练方式，也为推理能力的提升带来了全新的视角。“尽管它的成就尚处于一个阶段性水平，但其工程贡献和理论创新已经为未来的AI发展奠定了重要基础。”沈阳认为，DeepSeek团队在基础模型预训练方面的贡献，不仅是在技术层面上的突破，更在于其工程方法的精细与高效。DeepSeek的这种工程创新，标志着AI模型训练的一个全新阶段，这不仅降低了开发成本，也为其他公司提供了可借鉴的路径。同时，DeepSeek的核心创新还体现在推理能力的提升上，尤其是通过相关算法创新来推动模型的自然推理能力，证明了AI领域的一种潜力——无须大量昂贵的思维链标注，模型依然能够涌现出推理能力。

沈阳认为，DeepSeek的成功也让我们看到了未来AI产业的发展方向：更多的开源创新、硬件与软件的深度协同，以及对模型开发成本与推理能力的不断优化。同时，我们也必须看到，DeepSeek虽然取得了显著的阶段性成果，要想在未来发展道路上实现进一步突破，仍然需要面对许多深层次的挑战，例如需要更多的原创性训练数据和算法创新。