梁文锋不在乎赢，DeepSeek不能输,梁文胜是个什么人

来源 | 伯虎财经（bohuFN）

作者 | 路费

上周末，外媒The Information爆出消息：DeepSeek正在寻求至少3亿美元（约20亿人民币）的首轮外部融资，估值至少100亿美元。

DeepSeek还没对此消息做出任何回应，但是消息本身已经激起千层浪。

一方面，DeepSeek毫无疑问是圈内最技术理想主义的公司之一：长期拒绝外部融资、不稀释股权、不被任何人的商业化时间表绑架。

根据晚点LatePost报道，DeepSeek没有明确的绩效考核和 DDL，研究员可自由组队或独自钻研一些新想法，甚至没有AI常见的内卷：中美核心AI开发人员的每周工时高达70-80小时，而DeepSeek的多数员工下午六七点就会离开公司。

背靠幻方量化，Deepseek活得更像一家研究机构而不是创业公司。

很多人认为，放开融资意味着Deepseek正在从一家神坛上的公司变回一个正常的AI创业公司，数据、算力、人才这些要素竞争的升维正在逼迫Deepseek改变过去的动作。

另一方面，虽然对于一家创业公司而言，100亿美元的估值并不算低，但AI是看想象力的领域。

2026年初，OpenAI最新一轮融资估值高达8520亿美元、Anthropic也完成了一轮估值3800亿美元的融资。国内上市的智谱和MiniMax如果以4000亿港元的市值计算，大概也在500亿美元的量级。

因此，也有人认为，DeepSeek过于沉溺于自己的节奏，结果接连错过多模态和coding两大风口，这个估值水平其实是选择导致的结果。

我们认为这些观点一定程度上照见了DeepSeek当下的处境，但不是它的全部。

01 为什么要融资？

和其他AI创业者相比，DeepSeek的腰杆算是硬的。

幻方量化2025年平均收益率高达56.6%，管理规模超700亿元人民币，在百亿级量化私募业绩榜中位列第二，仅次于灵均投资。如果按照行业估算的方法，前者的收入大概在50亿元人民币左右。反过来说，3亿美元不少，但是对于DeepSeek来说，有幻方量化在背后，并不是一定要迈出这一步。

同时，100亿美元的估值对于DeepSeek来说确实显著低于市场行情。以二级市场为例，同为AI六小龙的智谱、MiniMax的估值都明显高于这个水平。

我们认为，DeepSeek启动融资最主要的原因是，竞争的环境变了。

特别是人才争夺。在接受36氪的采访时，当被问道：

“很多大模型公司都执着地去海外挖人，很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司，你们的人都来自哪里？”

梁文锋的回答是，“V2模型没有海外回来的人，都是本土的。前50名顶尖人才可能不在中国，但也许我们能自己打造这样的人。”

但现在情况变了，DeepSeek自己就成了那个被抢夺的对象。除了最近被报道的加入字节的DeepSeek-R1核心作者郭达雅，DeepSeek被挖走的员工包括但是不限于参与早期大模型训练的王炳宣、DeepSeek-OCR核心作者魏浩然，还有更为大家熟知的、已经在小米独当一面的V3模型关键贡献者罗福莉。

这些离职者覆盖了基座模型、推理、OCR和多模态四条核心技术主线。

让这些人选择离开的当然不只是收入，但收入一定是一个重要原因。越来越多的AI公司开始加大人才争夺的力度。

举个例子，月之暗面即将推出一项新的顶尖人才校招计划，拟授予尚未毕业的实习生公司期权。即便把范围放大到整个互联网行业，这也是一个很少见的激励政策，股权和期权激励的范围过去都被限定在正式员工。考虑到月之暗面迅速攀升的估值，这项计划对于月之暗面提前锁定AI 人才有很大帮助。

DeepSeek也类似。期权的价值需要市场化定价来估算，如果员工对手中的股权缺乏预期，那么他也很难靠期权去留住核心员工。因此引入一轮小额融资，既能保证Deepseek的自主权，还能给到核心员工一些明确的回报预期。

02 梁文锋不在乎赢

过去一年，AI行业的风向变得很快，但是DeepSeek很安静。

V3和 R1爆火以后，DeepSeek成为了国内增长最快的AI App。但前者并没有大力去做推广，也没有把目标放在行业最主流的方向。

从去年到今年，AI行业最受瞩目的趋势有两个：

一是多模态生成。无论是Google的NanoBanana，还是字节的Seedance2.0都引发很大关注。生成视频模型有着非常确定的产业化趋势，AI漫剧已经成为许多从业者乃至平台比如爱奇艺的押注方向。有从业者分享，AI漫剧的产能已经来到每月上千部的水平。

生成视频模型还和更前沿的世界模型有关。比如阿里发布Happy Oyster，强调可互动、可演绎、可探索的AI数字世界；腾讯发布并开源混元3D世界模型2.0，面向文字、图片、视频输入生成和模拟3D世界。

二是以coding 能力为基础的 Agentic 模型和应用。从Anthropic 和 OpenAI 的斗争，到OpenClaw 的爆火，再到智谱、MiniMax、Kimi踩中需求估值大涨，都和这股风向有关。

但DeepSeek显得非常淡定。

DeepSeek不是没做到多模态，它做过Janus-Pro，也做过DeepSeek-OCR，但更集中于自己路线的开发。

比如今年1月，DeepSeek团队连续发布了两篇由梁文锋署名的论文，mHC（流形约束超连接）及Engram（条件记忆），瞄准对大模型长序列处理的提升。这也是DeepSeek一以贯之的模型架构改进。

再比如去年9月，DeepSeek-V3.2引入了DSA（稀疏注意力）机制，它和 NSA（原生稀疏注意力）一样都是为了更经济的、不依赖大幅算力提升的前提下，能处理更长的上下文。

这种判断和创始人梁文锋有关。

在36氪的采访中，梁文锋认为中国AI和美国有一两年差距，但真实的gap是原创和模仿之差。因此DeepSeek重视的不仅仅是测试结果乃至模型效果本身，还有能被行业追随、复用的技术发现。

03 我们为什么期待DeepSeek？

DeepSeekR1某种程度上是中美AI发展的一个重要节点。在此之前，一个公认的观点是，中国AI至少落后美国2-3年，每个人都对此深信不疑。当高端算力卡被锁住以后，大家会认为中美AI的差距会越来越大，

DeepSeek不仅打破了这种叙事，也是和国产芯片适配的重要贡献者，试图打破高性能GPU 供给受限的现实。

去年8月，DeepSeek更新更新V3.1 后提及，DeepSeek 采用的 UE8M0 FP8——这是一种数据压缩格式——“是针对下一代国产芯片设计”。前文提到的用国产开源的 TileLang 替代 Triton 也是这类工作，能在基础层更有主动权。

去年9月，DeepSeek-V3.2更新，有开发者发现DeepSeek 把底层的算子库从主流的 CUDA 和 Triton 语言换成了 TileLang。后者是北京大学杨智团队发起的开源项目。

这意味着DeepSeek将会在技术底座全面“去美化”。

据《The Information》及多家科技媒体证实，DeepSeek在V4版本的开发过程中，打破了此前优先与英伟达、AMD合作的行业惯例，拒绝向这两家美国芯片巨头提供预发布版本的访问权限。取而代之的是华为。

如果V4在华为芯片上跑出有竞争力的性能，它将是全球第一个不依赖英伟达的前沿AI模型。

从更宏大的叙事来说，这意味着中国AI有希望发展出自己的生态，从而完全逃离来自美国的限制。这些让许多人有足够的理由，去确保当DeepSeekV4登场时，至少仍然是最好的模型之一。

开放融资这件事当然说明了DeepSeek不是一家能完全对抗商业引力的公司，它随后也一定会做出更多和同行并无二致的商业化举动，比如推出更多的Agent产品。但惊喜一定不是突如其来的，每一个惊喜背后一定是长期的技术积累和坚持。

就像梁文锋自己说的，我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。

参考来源：

1、全天候科技：DeepSeek不会向资本低头

2、晚点LatePost：晚点独家丨Kimi 计划提前 1 年授予 27 届顶尖人才期权

3、晚点LatePost：V4 发布前的 DeepSeek：特质、组织和梁文锋的独特目标揭秘DeepSeek：36氪：一个更极致的中国技术理想主义故事

4、界面新闻：AI投入大幅增加，字节跳动2025年净利润下滑超70%

5、锦缎：DeepSeek百亿美元估值融资传闻背后的四重逻辑判断

6、投资界：再等等梁文锋