AI 快用不起了。大模型机构密集发出“涨价信号”。
在国内,智谱 4 月 8 日随 GLM-5.1 新模型发布同时宣布涨价 10% ——这是它 2026 年内第三次涨价,CEO 张鹏的解释很直白:“公司存在算力约束和瓶颈。”一周后,大洋彼岸的 Anthropic 出手: Claude 企业版原本 0 /人/月的包月套餐,改成 座位费+按实际算力消耗另行计费,重度 Claude Code 用户的账单可能翻倍甚至三倍。
张鹏说的“算力约束”,不是算力不够,而是GPU 的架构撑不住 Agent 时代的推理。当 AI Agent 开始 24 小时不睡觉地跑,旧算力基础设施的瓶颈开始暴露。这个瓶颈不在算法,也不在算力规模,而是在更底层的芯片架构—— 2025 年底,英伟达以 200 亿美元拿下了美国公司 Groq 的技术授权和核心团队,在复杂的交易背后,他们瞄准的是一种叫LPU(Language Processing Unit)的 AI 推理新架构。
对技术路线的判断迅速成为行业共识。来看国内,2026 年 4 月,国内第一家 LPU 芯片创业公司元川微完成数亿元天使轮系列融资。创始人是有 22 年华为芯片经验的老兵杨滨。投资机构阵容豪华,包括东方嘉富、元禾原点、峰瑞资本等知名机构。其中,元禾原点——十年前的天使轮投出了寒武纪——这样阐释它的逻辑:“十年前,我们开启了对 AI 时代算力基础设施的体系化投资布局,今天选择投资元川微作为 Agent 时代推理芯片落子。”
十年前投寒武纪,十年后投元川微。两个截然不同的时代——但这不是一时兴起的赌注。
太长不看版(本文要回答的问题)
• 用不起 AI 、Token(词元)太贵的根源在芯片。 GPU 是吞吐量优先的设计,但大模型推理是逐 Token 自回归生成—— GPU 的并行优势发挥不出来, HBM 带宽成了物理瓶颈。
• 行业瞄准了一种叫LPU(Language Processing Unit)的新架构:抛弃 HBM,用片上大 SRAM(带宽约是 HBM 的 7 倍)+ 确定性数据流 + 静态调度,将推理速度做到 GPU 的 5~10 倍。
• 中国第一家 LPU 公司是元川微。创始人杨滨有22 年华为无线基带经验,2024 年夏天就判定 LPU 是推理的正确答案。2025 年9 月成立,2026 年 4 月完成数亿元天使轮融资。
• 元川微 LPU+ 是更适应中国大模型生态的推理芯片。 Groq 2016 年为 CNN 设计,而元川微 LPU+ 原生支持大语言模型、MoE 混合专家、多模态——这些都是 Groq 当年没遇到过的问题。
• Agent 时代的算力定价逻辑正在变——市场从买“峰值算力”(Tflops)转向买“完成任务的综合成本”(能力 × 时间 × QoS)。LPU 的架构优势,正在变成定价权。
要理解为什么 LPU 会在这个时点爆发,得从一个刚刚发生不到三周的故事说起。
2026 年 3 月底,Anthropic 不小心把 Claude Code 的源码漏在了 npm 包里——一个粗心的 “ .npmignore ”疏忽,让 51 万行源代码公开流出。整个开发者社区沸腾,Anthropic 紧急通过 DMCA 下架了数千个搬运仓库。
但有一个人做了件反直觉的事。Sigrid Jin——被《华尔街日报》报道的 Claude Code 全球头号 重度用户,一个韩裔加拿大开发者,曾在过去一年单枪匹马烧掉了 250 亿 Token(按 Claude API 定价折算超过百万美元)——他完全不碰泄露的源码,用自己调教一年多的 AI 代理框架 oh-my-codex,几小时内从零用 Python “净室重写”了一遍。他把成果发到 GitHub,取名 Claw Code,24 小时内星标破 10 万,成为 GitHub 历史上增长最快的开源项目。
事后他说:“这是用 250 亿个 Token 烧出来的直觉。”
“榜一大哥”当然是个极端个例。但当一个人的推理账单超过百万美元,当 Claw Code 这类 AI Agent 重度任务开始变成日常工具,一个系统性的问题就浮出了水面:AI 推理的底层成本结构,撑不住正在到来的 Agent 时代。
用 LPU 解决推理瓶颈这件事,其实两年前就有人看到了——只是当时几乎没人相信。
随着大模型能力的突破性进展,到了 2024 年,专用 AI 芯片赛道已经热闹了好几年—— Google 的 TPU 、各种 NPU 、Cerebras 的 wafer-scale 、Etched 的 ASIC ——没人知道哪条路线会赢。LPU 方案也是其中之一,它是美国公司 Groq 从 2016 年开始研发的,一种完全不同于 GPU / CPU 的非冯·诺依曼架构,用片上 SRAM 和确定性数据流彻底抛弃了 GPU 的内存层级。
2024 年 2 月,Groq 凭借一段 viral demo 短暂出圈——独立基准测试上达到 241 tokens /秒的输出速度,是第二名的两倍以上,但热度仅限技术圈。紧接着 3 月,黄仁勋在英伟达 GTC 上就公开回应 Groq 这类专用芯片:“有其适用场景,但将难以从软件领域的创新速度中获益”——英伟达当时对 LPU 的态度是明确的轻视。投资圈对 LPU 也没有达成共识:Groq 到 2024 年 8 月的 Series D,估值才 28 亿美元。
一年半后,英伟达以 200 亿美元购买它的技术和团队那一幕,在当时几乎不可想象。
就在这样的氛围里,2024 年夏天,杨滨凭借多年积累,在业内率先做出了自己的判断。他做了 22 年芯片,2012 年回国后带华为无线基带部门,把团队从 200 多人带到近千人,将华为在这个领域做到全球领先。彼时他和一群同事在反复推演一件事:如果推理的真正需求和训练完全不同,那么硬件就不应该“既做训练又做推理”。到 2024 年下半年,他们定下了技术方向:做自研的 LPU 。
但定下方向不等于立刻下场。2024 年下半年到 2025 年初,杨滨和团队有过一段难熬的“等、等、等”——产业共识还集中在训练、在“卷”大模型研发,训练霸主 GPU 难撼动,推理又尚未到转折点。方向看得清,但时机不到。
转折发生在 2025 年春节。那一周,DeepSeek R1 以“开源 + 低成本 + 高性能”横空出世——推理性能对标 OpenAI o1,而它的底座模型 V3 以 671B 总参数、每 token 仅激活 37B 的 MoE 架构,只用了约 600 万美元就完成训练。杨滨回忆:“激动得有点让自己觉得是不是在做梦,因此连夜看了 DeepSeek 的论文,才缓过来。”
他看到的是 AI 推理真正被打开的那一刻—— DeepSeek 证明了高性能推理可以低成本,而一旦推理成本降下来,Agent 时代的算力需求就会真正爆发。等待的焦虑消失了,元川微正式决定下场。
2025 年 9 月,杨滨创办了元川微。三个月后,英伟达宣布与 Groq 的复杂交易——他的判断被行业霸主天价盖章确认。又过了四个月,他们也获得了文章开头那轮数亿元融资。
杨滨和元川微押注“ LPU 是推理的正确答案”,在 2026 年春天,这个判断已经拿到了全球头部资本和英伟达的双重背书。那么,LPU 究竟凭什么比 GPU 快?
首先,GPU 的设计理念是吞吐量优先,擅长把一大块数据切成几千份同时计算。但大模型推理是逐 Token 自回归生成——模型要逐层计算每一个 Token ,每层都要完成注意力机制( Attention )和前馈神经网络( FFN )两步运算,其中注意力机制在寻找词的上下文联系,而 FFN 则是模型的“知识库”,记录着大模型里的参数权重,每一个 token 生成都要经过大模型的参数矩阵的运算。这个过程天然是串行的, GPU 的并行优势在这里发挥不出来。
这就导致内存带宽成了新瓶颈。推理需要频繁从外部 HBM 读取模型参数。每次读取都有不确定的延迟,且 HBM 带宽有限——即使相比传统 GPU 显存,HBM 已经有了数倍乃至数十倍的容量和速度,但仍然不够快。当模型有几百亿参数,每个 Token 都要反复读取时,等待时间远超计算时间。
更关键的是,Attention 和 FFN 对内存的需求完全不同。Attention 需要反复读取 KV 缓存,GPU 的大容量 HBM 可以派上用场。但 FFN 需要逐层高速翻阅权重矩阵—— HBM 的带宽成了瓶颈。这不是英伟达的工程能力问题,而是物理极限:HBM 可以做到 288GB ,但带宽只能到 22TB/s 。
在人类探索计算机架构的历史长河里,其实已经早已有了另一种更快速的存储器,在等待着被选中去挑战大模型的推理,这就是被称作“ SRAM (静态随机存取存储器)”的一类小容量、超高速存储器,它的典型容量虽然只有几十 KB 到几百 MB ,但可以做到上百 TB/s 带宽,被大量集成在各类处理器芯片中,作为距离计算核心最近的缓存,提高计算速度。
所以英伟达做了一个聪明的选择:不跟物理定律较劲,进行分工。
它把 FFN 计算交给 Groq LPU ——一种全 SRAM 架构的芯片,用 150TB/s的极致带宽进行处理;GPU 则专注做 Attention ,发挥 HBM 的大容量优势。两颗芯片在解码时交替配合,每层传递少量中间激活值,跑完所有层生成一个 Token 。这种架构叫 AFD(Attention-FFN Decoupling),是英伟达基于系统效率和商业策略做出的路线选择。
需要强调的是,LPU 架构本身完全具备端到端推理能力,并非只能做协处理器。Groq LPU 在独立部署时已经证明了端到端推理的商业价值——从云订阅到算力中心,它跑的是完整的模型推理任务。这也进一步印证了推理解决方案的多样化趋势—— LPU 既可以与 GPU 协同作战,也可以独立部署,最终的衡量标准只有一个:在具体场景下,Token 的综合成本是否有优势。
AFD 解码原理丨NVIDIA官网
这就是英伟达斥巨资获得 Groq 技术授权并引入其核心团队的底层逻辑,LPU 成为被算力巨头正式验证的下一代推理基础设施。
我们知道了用 SRAM 作为更高速的缓存可以提高 FFN 的推理效率,但 LPU 架构的复杂性远不止于“换个闪存芯片”这样简单。实际上,LPU 架构有三个核心 DNA ,只有同时具备它们,才是真正的 LPU 。
第一,片上大 SRAM 作为主存。传统 GPU 依赖外部 HBM ,LPU 将数百 MB 的 SRAM 直接集成在芯片上,作为模型参数权重的主存储。 SRAM 访问延迟纳秒级且完全可预测。例如 Groq 第三代 LPU 单芯片搭载 512MB SRAM ,带宽 150TB/s ,约是 HBM4 的 7 倍。
第二,确定性数据流。LPU 内部数据搬移采用 ASIC 化硬件流水,数据在芯片内如流水线般自动流转,每个时钟周期的数据路径在编译时即已确定。
第三,静态调度。这是最核心也最难实现的一点。传统芯片运行时需要动态决策,而 LPU 在编译阶段就完成全部资源分配和时序排定,运行时零动态开销——没有缓存未命中,没有调度延迟,没有仲裁等待。 Groq 明确将这种设计概括为“ static scheduling and deterministic execution ”。一句话理解:LPU 像帮你把整部电影剪辑好,按帧播放。
需要特别区分的是:LPU 并非纯 ASIC。 它只在数据搬移层面全部进行了 ASIC 化,算法处理层仍保留可编程性和指令集,支持模型演进迭代,是一种“可编程的 ASIC 化架构”。又比如市面上有些 NPU 芯片仅将数据流做了局部 ASIC 化就宣称是 LPU,但真正的 LPU 必须同时具备上述三个核心基因,缺一不可。
正是凭借这些架构优势,Groq LPU 在所参与的第一个公开基准测试 Anyscale 的 LLMPerf 中,就交出了一份亮眼的成绩单。
Groq LPU 在 Llama 2 70B 模型上取得了 185 tokens/s 的输出吞吐量,相比榜单上其他 GPU 方案实现了 3 到 18 倍的领先优势;同时首字响应时间 (TTFT) 稳定在 0.22 秒,且变化范围最小。这意味着 LPU 不仅在端到端推理速度上显著领先,更重要的是——每一次响应都同样快速、可预测。
70B参数模型下各推理服务商的输出吞吐量对比(tokens/s)
70B参数模型下各推理服务商的首字响应时间(TTFT)对比(秒)
对于实时 Agent 应用而言,延迟的确定性和可预测性比峰值性能更为关键——而 LPU 的静态调度与确定性数据流架构,确保了每一次交互都同样快速、稳定。特别是对于金融高频交易与风控、自动驾驶、交互式 AI Agent 与实时智能体等应用,LPU 的确定性执行与快速响应能力至关重要。
基于这一优势,Groq 一举进入全球算力基础设施的核心版图。
不过,Groq 的胜利,也是一场带有时代烙印的胜利。站在推理架构颠覆性变化的拐点上客观看—— Groq LPU 架构有其时代局限,而它的胜利,也正源于此。
为什么这么说? Groq LPU 设计于 2016 年,主要是针对 CNN 这类“计算密集型、内存访问规律”的模型优化的。而今天的大模型是“内存密集型、访问模式动态”的新物种。这也意味着,它在成为 GPU 的最佳搭档时可以实现极致的算力分工,但独立部署时却并不经济。
为 CNN 设计的 LPU 只是推理芯片的序章,真正为大模型而生的 LPU ,成了元川微等新一代 LPU 的突破点,在这场架构变革中,中国已经有人站上了起跑线。
算力格局的演变方向已经清晰:通用 GPU 不会消失,但在 Agent 时代需求最大的实时推理场景中,LPU 正在成为不可或缺的搭档。一个值得追问的问题是:英伟达花 200 亿美元拿下的技术,国内一线基金数亿元押注——LPU凭什么这么贵?
答案藏在两个词里:极难做,极稀缺。
先说极难做。三个 DNA 每个都是反常识的硬骨头:
• 大 SRAM 要求极致设计密度——同等算力下芯片面积必须压缩到 GPU 的 1/2~1/3 ,才能“省”出片上空间;
• 确定性数据流意味着数据搬移逻辑全部硬件固化,没有软件兜底的后路;
• 静态调度把全部复杂性推给编译器,必须在编译阶段排定每一拍时序,没有运行时纠错的机会。
元川微创始人兼 CEO 杨滨给果壳排了个序,难度从大到小看,是“编译器 > 确定性数据流 > 高密度 SRAM”。他补了一句:“Devils are always in detail ——我们经常说踩完了所有的坑,就是专家了。”
为什么是这个顺序?杨滨的解释是:“ LPU 架构是典型的'软件定义硬件'——数据流是第一公民,数据流的管理完全由编译工具完成。”
编译器最难,因为 GPU 有运行时兜底,LPU 没有。GPU 编译阶段有疏漏,硬件可以在执行时动态补救;LPU 把一切前置到编译期——编译器必须在编译阶段同时建模算法、硬件、数据流的协同,排定每一拍时钟周期里数据在芯片的位置、路径和时序。Groq 从 2016 年做 LPU 到 2024 年让编译器达到商用级别,整整八年。
确定性数据流的难处是“没有软件兜底”——数据搬移全部 ASIC 化,意味着数据在芯片里的物理路径焊死在硬件上。架构设计阶段必须把模型算法的数据流完全吃透,一处设计疏漏,就没法在后期修复。
高密度 SRAM 考验的是物理实现能力。杨滨给了一个反常识的比喻——“我们的 SRAM 是免费的。LPU 的算力密度是 GPU/NPU 的 2~3 倍,同等算力只要 1/2~1/3 的芯片面积,省下的位置正好用来放 SRAM。”这句话看似简单,背后是 PPA(性能/功耗/面积)三者同时做到极致——业内很少有团队能达到。
再看稀缺性。能做 LPU 的团队全球屈指可数。Groq 来自谷歌 TPU,元川微则拥有华为无线通信基带基因——数据流架构第一次大规模商用正是在无线通信基带处理领域,这其实与 LPU 在工程学上高度相通,二者在架构设计、互连、存储、编译器等领域的经验可以共享。
技术基因相通之外,元川微的“ +”代表的是针对 LLM/Agent 时代重新做的架构创新。LPU+ 与 Groq LPU 的底层基因一致——ASIC 化数据流、离线编译、确定性执行——但 Groq 2016 年设计 LPU 时 Transformer 还没出现,它主要针对的是 CNN(卷积神经网络),那时的模型对内存访问、带宽和数据流模式都和今天完全不同。元川微在这之上做了三层创新:
• 原生支持大语言模型:Groq 的 LLM 能力是后期打补丁适配的,LPU+ 从一开始就按 Transformer 的算法结构反推硬件;
• 架构层支持 MoE(混合专家模型):MoE 的路由特性对片上调度提出新要求,这是 Groq 原版架构没有原生考虑的;
• 多模态与长上下文优化:图像、语音、视频的数据搬移模式与纯文本不同,需要架构层面的解法。
杨滨对果壳说:“Groq 在 2016 年设计时完全没有遇到过这些问题——这些都是我们要解决的。”也正是这种极难与极稀缺,支撑了 LPU 的价值。而 LPU 能否从“技术稀缺品”变成“算力必需品”,商业化落地将是下一场大考。
Groq 已经为这条赛道画出了一张商业路线图:其 GroqCloud 平台已吸引超过 200 万注册开发者,采用类似 ChatGPT 的付费订阅模式。核心客户包括 Meta、中东某国家的推理算力中心,以及挪威一个部署数万张 LPU 卡的算力中心。2025 年营收约 5 亿美元。
英伟达的下场,进一步把 LPU 推向了算力基础设施的核心位置。GTC 2026 上,英伟达正式推出 Groq 3 LPU 和 LPX 机架,将其定位为 Vera Rubin GPU 的“推理协处理器”,通过 Dynamo 软件编排形成双引擎协同。英伟达官方给出的数据是:每兆瓦功耗的推理吞吐量最高可提升 35 倍,万亿参数模型的收益机会最高可提升 10 倍。
但有意思的是,杨滨对这套 AFD 协同方案的看法并不完全追随英伟达。他告诉果壳:“英伟达在 GTC 上展示的方案,我们判断是一个暂时方案,后续会继续演进。推理是一个应用驱动的市场,未来系统解决方案也会多种多样——最终的衡量标准是:一个场景下的 token 成本是否有优势。”
这种独立判断的底气,来自元川微自己押注的另一条路——产业股东即早期客户。
智微智能和星宸科技两家 A 股上市公司,既是元川微天使轮的投资方,也是其早期合作客户。华创证券研报显示,星宸科技在 2025 年参与元川微天使轮第一批融资后,近期追加投资 3000 万元,持股比例从 3.3% 提升至 6.6%,未来将与元川微共建端边侧 AI 整体解决方案能力,加速产业协同落地。财通证券在其 LPU 专题研报中,将智微智能和星宸科技列为 LPU 产业链核心受益标的。
为什么产业股东愿意又投钱又买货?杨滨的回答是:Agent 时代的算力定价逻辑正在变。
他说:“现在的商业模式卖的是'计算能力',但未来定价模式本质是完成一个任务的成本——算力的能力、算力的时间,还有算力的 QoS(服务质量)。对 Agent 来说,'时间就是效率'、'QoS 就是服务水准'。谁能把时延 + 确定性 + 成本做到最优,谁就拥有溢价能力。”
这是 LPU 相比 GPU 的根本差异点。GPU 卖的是峰值算力(Tflops),LPU 卖的是“完成一次 Agent 任务的综合成本”。当整个市场从“买马力”转向“买里程”,LPU 的架构优势就从技术指标变成了定价权。
目前,元川微已完成自研 LPU+ 架构的 FPGA 验证,所有性能指标均达到设计预期。下一步是推进第一代 LPU+ 推理芯片的研发——编译器将在芯片回片前通过仿真器提前验证和优化,以达到商用标准;同时积极拓展云厂商、算力中心等新客户。
从架构验证到产品落地,元川微正在加速跑完最关键的一程。
参考文献
[1]Claw Code Project https://claw-code.codes/
[2]The Trillion Dollar Race to Automate Our Entire Lives, the *Wall Street Journal* https://www.wsj.com/tech/ai/claude-code-cursor-codex-vibe-coding-52750531
[3]Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator for the NVIDIA Vera Rubin Platform https://developer.nvidia.com/blog/inside-nvidia-groq-3-lpx-the-low-latency-inference-accelerator-for-the-nvidia-vera-rubin-platform/
[4]Inference Speed Is the Key To Unleashing AI’s Potential, Groq https://cdn.sanity.io/files/chol0sk5/production/85f04a42fb0711b6009a024da43689667efadd9a.pdf
[5]元川微完成数亿元天使轮系列融资,自研首个国产LPU架构,领航 AI 实时推理 https://mp.weixin.qq.com/s/kuaAt8jrWsH52nWmalkcrA
作者:张慧娟
编辑:普通酱、姬十三