跳转到内容

Token Processor 调查报告

版本:v1.0 调查版 截稿:2026年5月10日 范围:聚焦”以Token为原语的专用智能加速器”,涵盖产品形态、架构路径、产业格局、风险与时间线


过去六个月发生了三件事,把Token Processor从”实验性概念”推到了”产业主战场”:

  1. 2025年12月24日,NVIDIA以约200亿美元收购Groq的IP和资产——AI硬件史上规模最大的一笔交易,7倍于Groq收购前估值。截至2026年4月,Groq 3 LPU处于早期访问预览阶段,需通过NVIDIA企业项目注册。
  2. 2026年3月16日 GTC 2026上,Groq 3 LPU正式发布,以SRAM替代HBM,实现150 TB/s内存带宽,约为Rubin GPU 22 TB/s的7倍。NVIDIA推出异构架构:Rubin GPU负责Prefill,Groq LPU负责Decode。
  3. 多家纯Token Processor厂商完成大额融资——Etched(5亿美元,50亿估值)、Taalas(1.69亿美元)、Positron(2.3亿美元)、SambaNova(3.5亿美元)、Cerebras准备2026年Q2 IPO目标266亿美元。

核心判断:Token Processor不是”GPU的小修正”,而是计算从通用张量到Token原语的范式迁移。决定胜负的不再是峰值FLOPS,而是单位Token的成本与延迟(Cost/Token、Time-to-First-Token、Tokens/Second/Watt)。


一、概念边界:什么算”Token Processor”

Section titled “一、概念边界:什么算”Token Processor””

调研中我把Token Processor定义为同时满足以下三条的加速器:

  1. 以Token为基本数据单元(而非通用张量),硬件架构围绕自回归生成或Transformer算子优化
  2. 打破冯·诺依曼架构的内存-计算分离——以片上SRAM、CIM、忆阻器或硬编码权重消除HBM搬运瓶颈
  3. 软件层极薄——编译器静态映射,运行时几乎不做调度决策(确定性执行)

按这个定义,严格的Token Processor目前包括:Groq LPU、Etched Sohu、Taalas HC1、IBM NorthPole、Tesla AI5(部分特征)、SambaNova SN系列、Cerebras WSE系列、Positron Atlas/Asimov、Tenstorrent Blackhole、d-Matrix。

不算的:NVIDIA Rubin GPU(仍是通用张量,但其LPX rack内嵌了Groq LPU,所以Rubin平台整体是混合架构),AMD MI400,Google TPU(TPU部分符合,但Google未公开足够细节)。


NVIDIA-Groq事件是整个领域的风向标。

  • 架构:将传统HBM替换为直接集成在芯片上的SRAM,内存带宽达到每秒150太字节。单芯片500 MB片上SRAM,带宽相当于H100 SXM(3.35 TB/s HBM3)的约45倍。
  • 定位:只做一件事——自回归Token生成。无法训练模型,无法以有竞争力的速度运行Prefill,无视觉/视频生成用途。
  • 执行模型:在LPU架构中,计算和数据移动以固定大小向量(320字节)为基本单元;每个LPU有96个互联链路、112 Gbps速率,聚合双向带宽约2.5 TB/s。
  • 部署单元:Groq 3 LPX平台是包含128个LPU的服务器机架(部分文档为256个,数据存在不一致)。
  • 产业意义:NVIDIA在GTC 2026推出Vera Rubin + LPX异构架构,为解码繁重的工作负载提供高达35倍每兆瓦推理吞吐量提升,但NVIDIA建议LPU仅占数据中心总容量约25%。
  • 时间线:Groq 3将于2026年下半年出货。

判断:NVIDIA把”Token”明确定为AI工厂的核心商品,LPU不是替代GPU,而是与GPU组成生产线。这是整个行业的标志性事件——它同时(a)验证了专用Token Processor的方向、(b)消灭了Groq作为独立挑战者的地位、(c)给所有其他玩家留下了”做NVIDIA买不动的那一类”的窗口。

最激进的”专用化优先”玩家之一。

  • 架构:将Transformer计算——多头注意力的QKV投影、softmax、输出投影、含GELU/SiLU激活的前馈网络、层归一化——构建为专用硬件块,而非可编程计算单元。数据流经固定的硬连线操作流水线,芯片不执行传统意义上的指令。
  • 工艺:基于TSMC 4nm工艺,144GB HBM3E,Reticle极限尺寸die(约800 mm²)。
  • 性能:8个Sohu芯片的服务器号称可替代约160片NVIDIA H100,在Llama 70B上实现约50万 tokens/秒。
  • 融资:Stripes和Peter Thiel领投5亿美元,总融资6.2亿美元,估值50亿美元。
  • 风险:截至2026年3月尚未向客户出货,距宣布超过20个月;无独立基准测试,所有性能宣称为自报;只能跑Transformer,若架构发生根本性变化(如SSM、混合架构),硬件即变成永久性资产负债。

判断:Sohu代表”transformer is the new x86”的极端押注。如果Transformer未来5-10年仍是主流,Sohu就是最强的Decode引擎之一;如果范式迁移,Sohu归零。

调研中最激进的设计,可能也是最危险的赌博。

  • 核心理念:不再让计算引擎可塑以便公司不断调整模型,而是把训练完成的AI推理权重直接编码到芯片的晶体管中。
  • 架构创新:使用mask ROM召回结构,将一个权重存储和与之相关的乘法全部用单个晶体管实现(即”四位存储+乘法,1个晶体管搞定”)。这从物理上消除了内存墙。
  • 性能:单颗HC1运行Llama 3.1 8B,每秒生成16,000-17,000个tokens;NVIDIA H100对单用户约150 tokens/秒。即约100倍单用户Throughput
  • 效率宣称:与传统芯片相比,效率(性能/瓦、性能/美元)提升1000倍(自报,未独立验证)。
  • 工艺:TSMC 6nm工艺(N6),die约815 mm²,约530亿晶体管。
  • 路线图:2026年夏季前将20亿参数Llama 3.1模型烧入HC芯片;年底用第二代HC2架构跨多卡运行前沿级LLM。
  • 融资:2026年初融资1.69亿美元,累计超2亿美元。创始人是Tenstorrent前创始人Ljubisa Bajic。
  • 致命约束:权重不可重写,芯片即模型;固件升级需要新芯片。GPT-4被GPT-5取代、Llama 2→3→3.1的迭代节奏,使硬编码模型的残值风险极高。

判断:Taalas把”软件无限廉价、硬件即护城河”推到极限——既然模型最终会稳定,不如直接把它做成基础材料。但这也是赌”模型稳定”的最大赌注。在汽车ECU、工业控制器、特定的离线推理产品上可能成立;在通用云端推理几乎不可能成立。

2.4 Tesla AI5 / Dojo 3(Musk的垂直整合)

Section titled “2.4 Tesla AI5 / Dojo 3(Musk的垂直整合)”
  • AI5进展:2026年4月15日Tesla taped out AI5。12个DRAM模块,16GB/模块,合计192GB LPDDR5X存储。
  • 性能定位:Musk称AI5单SoC约Hopper级,双SoC约Blackwell级(自报)。
  • 路线:9个月设计周期目标,AI6 Tape-out目标2026年12月,AI7已在规划中。
  • 量产:大批量生产预计2027年中期,由TSMC亚利桑那厂和Samsung德州厂双源供应。
  • Terafab:2026年3月Tesla和SpaceX宣布在Austin建设250亿美元的Terafab项目;4月Intel加入负责制造和封装。
  • Dojo 3:作为下一代训练超算,与AI5/AI6并行开发。

判断:Tesla路径与其他Token Processor厂商不同——它是应用驱动(FSD + Optimus + Robotaxi),不直接对外卖芯片。AI5部分符合Token Processor定义(自定义指令集、统一SRAM、编译器静态映射),但更准确的描述是”垂直整合的智能体计算平台”。Terafab是值得密切跟踪的变量——这是单一工业体系第一次试图把AI的整个供应链(设计-制造-封装-应用)收回手里。

2.5 NVIDIA Vera Rubin平台(GPU + LPU混合)

Section titled “2.5 NVIDIA Vera Rubin平台(GPU + LPU混合)”

虽然Rubin GPU本身不是Token Processor,但Vera Rubin整个平台是当前最大的混合架构尝试。

  • Rubin GPU:TSMC 3nm,多芯片模组设计,总晶体管3360亿,224个流式多处理器,第六代Tensor核支持FP4/FP6/FP8等。
  • 平台规模:Vera Rubin平台包含七个芯片、五种机架级系统;在机架级提供5倍推理性能、10倍每Token成本下降、10倍每瓦推理吞吐。
  • 混合分工:对万亿参数模型,NVIDIA参考分配为25%算力给LPX、75%给Rubin GPU,Groq 3 LPU运行前馈层、注意力留在Rubin。
  • 2026年GTC关键决策:2025年9月在AI Infra Summit宣布的Rubin CPX已从NVIDIA路线图移除,被Groq 3 LPX机架取代——这一替换很关键,等于NVIDIA放弃自研Decode专用GPU,直接采纳Groq方案。

判断:NVIDIA给出了未来3-5年最可能成为主流的范式——Prefill用GPU、Decode用LPU,通过Dynamo orchestration无缝切换。这种”分层异构”思路把不同生命周期、不同延迟特性的负载分给最适合的硬件,而非一刀切。

2.6 Cerebras WSE-3(晶圆级巨兽,准备IPO)

Section titled “2.6 Cerebras WSE-3(晶圆级巨兽,准备IPO)”
  • 形态:第三代晶圆级芯片(WSE-3),约57倍于NVIDIA H100,4万亿晶体管、90万计算核、44GB片上SRAM、21 PB/s带宽。
  • 定位变化:Cerebras已强力转向推理。
  • 重磅合同:2026年1月与OpenAI签署750兆瓦算力合同(到2028年),价值超过100亿美元。
  • IPO:2026年1月以230亿估值募集10亿美元,目标266亿美元市值的Q2 2026 IPO。
  • 架构限制:无片外内存接口,大模型需跨多颗WSE分区;架构定位强单用户TPS,可能限制多用户企业环境效率。

判断:Cerebras是Groq被NVIDIA收购后最大的独立Token Processor选手。OpenAI的合同基本锁定了其未来两年的现金流,但客户高度集中(2024年G42一家占87%营收)是结构性风险。

  • 新一代芯片:2026年2月24日发布SN50,宣称比上一代SN40L提供5倍每加速器算力。
  • 架构:SN40L为可重构数据流单元(RDU),三层内存层级。
  • 战略动向:2026年4月与Intel联合开发用于AI推理的异构系统蓝图,Intel还参与了SambaNova 3.5亿美元融资。

判断:SambaNova是”FPGA-like运行时重构”路径的代表。优势是单系统能跑大量不同模型,适合企业Agentic场景;劣势是软件栈复杂,生态不如NVIDIA。

2.8 Positron Atlas/Asimov(高内存推理)

Section titled “2.8 Positron Atlas/Asimov(高内存推理)”
  • 现产品:第一代Atlas由Intel在美国制造,声称达到NVIDIA H100 GPU三倍每瓦算力。
  • 下一代:Asimov支持每加速器2TB内存、每Titan系统8TB内存,机架级超过100TB;2026年10月tape-out,2027年初量产。
  • 融资:2026年2月完成2.3亿美元B轮,估值超10亿美元。
  • 客户:Cloudflare、Jump Trading等。

判断:Positron的差异化是极端的内存容量——把”长上下文+多智能体并发”作为核心场景。如果Asimov能在2027年初按时落地,会是少数同时具备容量和带宽优势的Token Processor。

2.9 Tenstorrent Blackhole(开源RISC-V路径)

Section titled “2.9 Tenstorrent Blackhole(开源RISC-V路径)”
  • 进展:Galaxy Blackhole进入量产,6nm Tensor处理器,GDDR6 RAM,Direct-Attach以太网,空冷。
  • 性能:DeepSeek模型每用户每秒308 tokens,目标到达500 TSU、6美元/百万输出tokens;视频生成创纪录(Prodia 2.4秒生成2.2秒视频)。

判断:Tenstorrent押注RISC-V + 开源软件栈,与NVIDIA正面竞争生态。技术上稳健,商业上依赖大客户能否以”开源安全感”为由跨过迁移成本。

  • 架构:取消片外内存,在芯片上交织计算与内存,对外表现为active memory chip。
  • 性能:在ResNet-50上,相比12nm GPU,实现25倍每瓦帧数能效、5倍每晶体管帧数空间效率、22倍延迟优势。
  • LLM能力:在16卡NorthPole设置上运行30亿参数Granite LLM,每张卡映射14个transformer层。

判断:NorthPole仍是研究原型,但理论意义大——它证明了完全消除冯·诺依曼瓶颈的设计可以做到工业级精度。IBM的下一步是更大规模的多卡系统。

  • 路线:押注数据中心客户会需要多种推理处理器,获胜系统将组合不同硅片并适配现有数据中心。
  • 观点:d-Matrix CEO称”NVIDIA的发布验证了SRAM架构对大规模推理的重要性,而d-Matrix在SRAM密度上推得最远”。
  • 进展:2025年11月融资2.75亿美元,收购了GigaIO数据中心业务。

2.12 Compute-in-Memory / 忆阻器(底层物理路径)

Section titled “2.12 Compute-in-Memory / 忆阻器(底层物理路径)”

学术界和早期产业化进展显著:

  • 基础:RRAM/忆阻器交叉阵列已实现30-150 fJ/MAC的MAC能效,完全单片RRAM-CMOS芯片可工作。
  • Transformer加速:2026年3月发表的工作提出考虑变异(variation-aware)的忆阻器模拟Vision Transformer加速器,使用2048级忆阻器精度。
  • 产业化路径:Mythic、IBM(NorthPole)、台积电的SLC-MLC混合ReRAM CIM等。报告了251 TOPS/W的能效。

判断:CIM是真正能实现10-1000倍能效跃迁的物理基础,但工艺良率、模拟噪声、生态都还在研究阶段。预计2028-2030年看到首批数据中心级商用。

2.13 Unconventional AI(更激进的路径)

Section titled “2.13 Unconventional AI(更激进的路径)”

值得单独提及——它代表”以上所有都不够激进”的派别:

  • 前Databricks AI高级副总裁Naveen Rao创立Unconventional AI,2026年初确认完成4.75亿美元种子轮,a16z和Lightspeed领投。
  • 他的观点:Groq、D-Matrix、Cerebras虽在当前市场定位良好,但仍在同一数字计算范式内优化;Unconventional AI追求的路径是构建利用硅本身物理行为的新硬件,并重新设计与之匹配的神经网络。
  • 他承认这一努力可能需要五年以上才能见效。

判断:这是Token Processor”下一代”的前哨。如果当前所有玩家做的是”软件→Token专用硬件”的迁移,Unconventional AI做的是”网络架构与物理器件协同设计”——更接近忆阻器+学习算法的联合优化。值得密切跟踪。


按上文分类,把2026年5月各路径的成熟度归纳:

路径代表成熟度商业进度
Token Streaming + 大SRAMGroq、Cerebras、d-Matrix、Positron已商用NVIDIA-Groq、OpenAI-Cerebras等大单已签
可重构数据流(FPGA-like)SambaNova、Tenstorrent已商用中等规模部署,与Intel/AMD合作
Compute-in-Memory(数字)IBM NorthPole研究原型多卡LLM Demo已实现,2027年系统级落地
CIM + 忆阻器(模拟)Mythic、学术界边缘/研究数据中心级未商用
硬编码权重(model-on-silicon)Taalas、(部分Etched)演示级2026年首批客户验证
垂直整合(自研全栈)Tesla AI5、Google TPU自用为主不直接对外销售
混合GPU + LPUNVIDIA Vera Rubin即将商用2026年下半年出货

调研多家公司后,七个共性清晰浮现:

几乎所有Token Processor明确放弃训练。原因:2023年推理占AI算力约三分之一,2025年增至一半,2026年将代表总AI算力支出的约三分之二。训练一次,推理数十亿次——这是个量级问题,不是偏好问题。

所有架构创新都在攻击同一个问题:权重必须搬运到计算单元。三种路径并存:把权重塞进片上SRAM(Groq/Cerebras)、用CIM在内存里直接算(IBM/Mythic)、把权重直接物理化(Taalas)。

GPU的核心灵活性——动态调度、缓存、分支预测——在自回归推理里都是噪音源。Token Processor普遍用编译器静态映射 + 确定性数据通路,把运行时不确定性降到接近零。

不再比较TFLOPS、TOPS、HBM容量。GPT-4级别推理在2022年底约20美元/百万tokens,目前约0.40美元/百万tokens——这是规模与专用化共同作用的结果,两年内成本下降50倍

5. Prefill/Decode 解耦成为标准架构

Section titled “5. Prefill/Decode 解耦成为标准架构”

NVIDIA的官方推荐(Rubin负责Prefill、LPU负责Decode)正在成为行业最佳实践。vLLM、SGLang、NVIDIA Dynamo均已支持解耦推理。这意味着未来数据中心将是异构的,而非单一加速器。

Token Processor普遍选择成熟工艺(TSMC 4nm、6nm、12nm),理由是良率、成本、可获得性。NorthPole即在12nm下击败先进工艺GPU。这是产业逻辑:推理芯片不需要追最先进节点。3nm被留给训练。

2025-2026的并购/融资规模($20B Groq、$5.5B Celestial AI、$10B+ OpenAI-Cerebras合同、$300B+ 2026年hyperscaler资本支出)说明:这是基础设施级别的押注,不是产品级别的竞争。业内分析师预测Intel可能收购SambaNova、AMD可能收购Cerebras。


任何投资或架构决策必须考虑这五个变量:

所有Token Processor都建立在”Transformer是稳定架构”的假设上。如果state-space models、混合架构、liquid neural networks或其他范式在2027-2029崛起,Sohu和Taalas首当其冲。Groq/Cerebras的SRAM架构相对灵活,但仍需重新优化编译器。

NVIDIA真正的壁垒不是GPU,是CUDA。Groq 3整合到NVIDIA NIM推理软件栈,设计上让LPU成为默认选择——这是NVIDIA在Token Processor时代试图复制CUDA锁定。其他玩家面对**“快40%但要换工具链”**的困境,落地时的实际摩擦远大于纸面性能。

HBM4? GDDR6? 大容量SRAM? LPDDR5X? 物理嵌入?每条路径都有结构性Trade-off:

  • HBM:容量大但带宽-成本-功耗都重
  • SRAM:延迟最低但容量限制大模型
  • 嵌入(Taalas):效率天花板最高但灵活性归零

NVIDIA已经收编Groq,下一步的猎物可能是:Etched、d-Matrix、SambaNova。任何独立Token Processor厂商都面临”要么被收购、要么被边缘化”的二元前景。这压缩了创业空间,但放大了已上车玩家(Cerebras、Tenstorrent)的估值。

Tesla AI6已因Samsung 2nm良率问题滑落约六个月。Terafab从宣布到出片至少3年。任何Token Processor的纸面性能实际可获得算力之间存在巨大的执行落差。


基于已公开的tape-out和量产时间:

时间事件
2026 Q2Cerebras IPO目标;NVIDIA Rubin GPU出货开始
2026 H2Groq 3 LPU/LPX机架广泛上市;Etched Sohu计划首批出货
2026 Q4Tesla AI6 tape-out目标;Positron Asimov tape-out;Taalas HC2前沿LLM部署
2027 H1Tesla AI5量产;Positron Asimov量产
2027 H2Rubin Ultra发布;Tesla AI6量产;首批Terafab产能
2028+大规模CIM商用;NVIDIA Feynman发布;轨道级Token Processor演示(SpaceXAI路径)

1. Token Processor已经从概念变成产业现实。 NVIDIA-Groq事件的意义不仅在于200亿美元的金额,更在于GPU霸主主动承认通用架构在Decode阶段输给了专用架构。这是产业拐点。

2. 最确定的赢家是Cerebras和NVIDIA(LPX)。 Cerebras靠OpenAI 100亿美元合同+IPO锁定地位;NVIDIA靠Groq IP+Rubin平台锁定异构架构标准。其他玩家都在争剩下的市场。

3. 最大的赌注在Taalas和Etched。 如果Transformer未来5-10年仍是主流且稳定,这两家定义下一代Token Processor的能效天花板;如果范式变,它们归零。这是高赔率/高风险的押注。

4. 真正的下一代尚未到来。 Unconventional AI、CIM忆阻器、模拟计算这些路径,代表的是2030年之后的Token Processor——届时可能根本不再叫”Processor”,而是叫”智能材料”。

5. Token经济学正在重塑数据中心。 当Cost/Token在两年内下降50倍,继续下降到接近零的边际成本时,AI能力将像电力一样成为公用事业——这才是Token Processor真正的产业意义。


参考路径:本报告基于2025年12月至2026年5月的公开报道、官方公告、技术论文、分析师评论。所有性能数据均为各公司自报或第三方测试,独立基准测试在多数情况下尚未发布——任何决策都应在产品实际可获得后再次验证。

下一步关注点:

  • AMD CDNA 5/MI400系列在Computex 2026的反应
  • Etched Sohu首次独立基准
  • Taalas HC2前沿模型实测
  • Unconventional AI的技术路径披露
  • Tesla Terafab的实际开工进度
  • 中国厂商(华为昇腾、寒武纪、Moore Threads)在Token Processor路径上的对应动作