来源 | 伯虎财经(bohuFN)
作者 | 路费
上周末,外媒The Information爆出消息:DeepSeek正在寻求至少3亿美元(约20亿人民币)的首轮外部融资,估值至少100亿美元。
DeepSeek还没对此消息做出任何回应,但是消息本身已经激起千层浪。
一方面,DeepSeek毫无疑问是圈内最技术理想主义的公司之一:长期拒绝外部融资、不稀释股权、不被任何人的商业化时间表绑架。
根据晚点LatePost报道,DeepSeek没有明确的绩效考核和 DDL,研究员可自由组队或独自钻研一些新想法,甚至没有AI常见的内卷:中美核心AI开发人员的每周工时高达70-80小时,而DeepSeek的多数员工下午六七点就会离开公司。
背靠幻方量化,Deepseek活得更像一家研究机构而不是创业公司。
很多人认为,放开融资意味着Deepseek正在从一家神坛上的公司变回一个正常的AI创业公司,数据、算力、人才这些要素竞争的升维正在逼迫Deepseek改变过去的动作。
另一方面,虽然对于一家创业公司而言,100亿美元的估值并不算低,但AI是看想象力的领域。
2026年初,OpenAI最新一轮融资估值高达8520亿美元、Anthropic也完成了一轮估值3800亿美元的融资。国内上市的智谱和MiniMax如果以4000亿港元的市值计算,大概也在500亿美元的量级。
因此,也有人认为,DeepSeek过于沉溺于自己的节奏,结果接连错过多模态和coding两大风口,这个估值水平其实是选择导致的结果。
我们认为这些观点一定程度上照见了DeepSeek当下的处境,但不是它的全部。
01 为什么要融资?
和其他AI创业者相比,DeepSeek的腰杆算是硬的。
幻方量化2025年平均收益率高达56.6%,管理规模超700亿元人民币,在百亿级量化私募业绩榜中位列第二,仅次于灵均投资。如果按照行业估算的方法,前者的收入大概在50亿元人民币左右。反过来说,3亿美元不少,但是对于DeepSeek来说,有幻方量化在背后,并不是一定要迈出这一步。
同时,100亿美元的估值对于DeepSeek来说确实显著低于市场行情。以二级市场为例,同为AI六小龙的智谱、MiniMax的估值都明显高于这个水平。
我们认为,DeepSeek启动融资最主要的原因是,竞争的环境变了。
特别是人才争夺。在接受36氪的采访时,当被问道:
“很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?”
梁文锋的回答是,“V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”
但现在情况变了,DeepSeek自己就成了那个被抢夺的对象。除了最近被报道的加入字节的DeepSeek-R1核心作者郭达雅,DeepSeek被挖走的员工包括但是不限于参与早期大模型训练的王炳宣、DeepSeek-OCR核心作者魏浩然,还有更为大家熟知的、已经在小米独当一面的V3模型关键贡献者罗福莉。
这些离职者覆盖了基座模型、推理、OCR和多模态四条核心技术主线。
让这些人选择离开的当然不只是收入,但收入一定是一个重要原因。越来越多的AI公司开始加大人才争夺的力度。
举个例子,月之暗面即将推出一项新的顶尖人才校招计划,拟授予尚未毕业的实习生公司期权。即便把范围放大到整个互联网行业,这也是一个很少见的激励政策,股权和期权激励的范围过去都被限定在正式员工。考虑到月之暗面迅速攀升的估值,这项计划对于月之暗面提前锁定AI 人才有很大帮助。
DeepSeek也类似。期权的价值需要市场化定价来估算,如果员工对手中的股权缺乏预期,那么他也很难靠期权去留住核心员工。因此引入一轮小额融资,既能保证Deepseek的自主权,还能给到核心员工一些明确的回报预期。
02 梁文锋不在乎赢
过去一年,AI行业的风向变得很快,但是DeepSeek很安静。
V3和 R1爆火以后,DeepSeek成为了国内增长最快的AI App。但前者并没有大力去做推广,也没有把目标放在行业最主流的方向。
从去年到今年,AI行业最受瞩目的趋势有两个:
一是多模态生成。无论是Google的NanoBanana,还是字节的Seedance2.0都引发很大关注。生成视频模型有着非常确定的产业化趋势,AI漫剧已经成为许多从业者乃至平台比如爱奇艺的押注方向。有从业者分享,AI漫剧的产能已经来到每月上千部的水平。
生成视频模型还和更前沿的世界模型有关。比如阿里发布Happy Oyster,强调可互动、可演绎、可探索的AI数字世界;腾讯发布并开源混元3D世界模型2.0,面向文字、图片、视频输入生成和模拟3D世界。
二是以coding 能力为基础的 Agentic 模型和应用。从Anthropic 和 OpenAI 的斗争,到OpenClaw 的爆火,再到智谱、MiniMax、Kimi踩中需求估值大涨,都和这股风向有关。
但DeepSeek显得非常淡定。
DeepSeek不是没做到多模态,它做过Janus-Pro,也做过DeepSeek-OCR,但更集中于自己路线的开发。
比如今年1月,DeepSeek团队连续发布了两篇由梁文锋署名的论文,mHC(流形约束超连接)及Engram(条件记忆),瞄准对大模型长序列处理的提升。这也是DeepSeek一以贯之的模型架构改进。
再比如去年9月,DeepSeek-V3.2引入了DSA(稀疏注意力)机制,它和 NSA(原生稀疏注意力)一样都是为了更经济的、不依赖大幅算力提升的前提下,能处理更长的上下文。
这种判断和创始人梁文锋有关。
在36氪的采访中,梁文锋认为中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。因此DeepSeek重视的不仅仅是测试结果乃至模型效果本身,还有能被行业追随、复用的技术发现。
03 我们为什么期待DeepSeek?
DeepSeekR1某种程度上是中美AI发展的一个重要节点。在此之前,一个公认的观点是,中国AI至少落后美国2-3年,每个人都对此深信不疑。当高端算力卡被锁住以后,大家会认为中美AI的差距会越来越大,
DeepSeek不仅打破了这种叙事,也是和国产芯片适配的重要贡献者,试图打破高性能GPU 供给受限的现实。
去年8月,DeepSeek更新更新V3.1 后提及,DeepSeek 采用的 UE8M0 FP8——这是一种数据压缩格式——“是针对下一代国产芯片设计”。前文提到的用国产开源的 TileLang 替代 Triton 也是这类工作,能在基础层更有主动权。
去年9月,DeepSeek-V3.2更新,有开发者发现DeepSeek 把底层的算子库从主流的 CUDA 和 Triton 语言换成了 TileLang。后者是北京大学杨智团队发起的开源项目。
这意味着DeepSeek将会在技术底座全面“去美化”。
据《The Information》及多家科技媒体证实,DeepSeek在V4版本的开发过程中,打破了此前优先与英伟达、AMD合作的行业惯例,拒绝向这两家美国芯片巨头提供预发布版本的访问权限。取而代之的是华为。
如果V4在华为芯片上跑出有竞争力的性能,它将是全球第一个不依赖英伟达的前沿AI模型。
从更宏大的叙事来说,这意味着中国AI有希望发展出自己的生态,从而完全逃离来自美国的限制。这些让许多人有足够的理由,去确保当DeepSeekV4登场时,至少仍然是最好的模型之一。
开放融资这件事当然说明了DeepSeek不是一家能完全对抗商业引力的公司,它随后也一定会做出更多和同行并无二致的商业化举动,比如推出更多的Agent产品。但惊喜一定不是突如其来的,每一个惊喜背后一定是长期的技术积累和坚持。
就像梁文锋自己说的,我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。
参考来源:
1、全天候科技:DeepSeek不会向资本低头
2、晚点LatePost:晚点独家丨Kimi 计划提前 1 年授予 27 届顶尖人才期权
3、晚点LatePost:V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标揭秘DeepSeek:36氪:一个更极致的中国技术理想主义故事
4、界面新闻:AI投入大幅增加,字节跳动2025年净利润下滑超70%
5、锦缎:DeepSeek百亿美元估值融资传闻背后的四重逻辑判断
6、投资界:再等等梁文锋
文章封面首图及配图,版权归版权所有人所有。若版权者认为其作品不宜供大家浏览或不应无偿使用,请及时联系我们,本平台将立即更正。