
(本文作家为 硅基象限,钛媒体经授权发布)
文 | 硅基象限
不是替代,是重构,NPU让AI算力参加“乐高时期”。
昔日十年,AI算力的叙事险些被一家公司界说——NVIDIA(英伟达)。
从A100到H100,再到H200,GPU像一条不休膨胀的算力工业活水线,把深度学习从实验室推向大模子时期。
但一个被始终薄情的问题是:GPU最初并不是为AI而生,是为图形渲染而生。
这意味着它从一驱动等于“通用并行辩论架构”,而不是“AI原生架构”。
于是,一个更底层的趋势驱动出现:
当AI辩论领域指数级增永劫,GPU的角落恶果驱动下落。
产业驱动向另一个标的转型,从头贪图辩论范式,一种依靠专用辩论芯片贪图逻辑(ASIC)的算力芯片——NPU出身了!
好意思国本领4月22日,在Google Cloud Next行动上,谷歌推出两款第八代NPU芯片,TPU8t、TPU8i阔别用于AI肃肃和AI推理。TPU8t每瓦性能上比前代居品擢升124%,TPU8i擢升117% ,TPU8i的每好意思元性能擢升80%。业内批驳,“其如果对出门售,或将取代英伟达”。
云就业厂搞芯片,并非是谷歌的特有道路。
全球云就业阛阓的“大哥”亚马逊,在2018年发布首款用于推理的 NPU—Inferentia1,并在2023年推出了第二代Inferentia2,并在旧年底发布用于肃肃的NPU,Trainium3;排行第二的微软云也在2023年发布了首款云霄NPU(Maia 100),并在本岁首发布了Maia 200。
国内亦如斯。阿里在2019年发布首款NPU(含光800),专注云霄推理和视觉辩论;2018 年驱动百度发布基于ASIC逻辑的自研AI芯片昆仑1,并已迭代至昆仑芯3代。
2026年,算力芯片的大客户,字节首先也将对NPU下手。外媒败露字节首先已驱动与三星洽谈自研NPU芯片,代号SeedChip,专为AI推理任务贪图,瞻望2026年3月底前录用首批样品。
2026年的趋势是芯片不再是一整块,谷歌、字节、阿里们思在英伟达的平台上,“拼”入我方的专用模块。
云厂商自研NPU,或将改变AI本钱结构、能耗弧线,以至营业模式。
什么是 NPU?谷歌TPU、阿里含光800等履行是一种NPU花样。
NPU(Neural Processing Unit)芯片,英文奏凯翻译过来等于神经收罗处理芯片。
要调处NPU和GPU的别离,不错先从它们的底层逻辑驱动,NPU广义上属于专用处理芯片(ASIC),而GPU属于通用处理芯片。
芯片按贪图逻辑不错被分为三类,通用辩论芯片、FPGA(可重构硬件)和ASIC (专用处理芯片)。
第一是通用辩论芯片,诸如CPU和GPU,一条请示驱动成百上千线程并行施行,止境擅所长理大领域并行辩论,频频不改变硬件,而是通过软件(CUDA)改变“任务调治”。这等于为什么大众齐说英伟达其实是一家软件公司,GPU中枢特征是高度可编程、适配扫数辩论任务、架构复杂(需要许多缓存)。但代价是通用性越强,恶果越低。
第二类是 ASIC(专用定制芯片),它是为了某一个特定任务(比如识别图像、处理语音)而有意定制的,数据流固定、能效极高,是一种“把算法固化进硅片”的贪图体式。漏洞是一朝电路压印在硅片上,功能就无法转换,不够天真。ASIC的履行是把AI辩论从“软件问题”酿成“物理问题”,但它也意味着天真性最低、更新周期长。
第三类是FPGA(可重构硬件),其不错通过“从头布线” 改变芯片硬件布局和改变软件代码,来改变芯片功能,像一套“乐高积木”,它介于通用和专用之间,常用于算法迭代快的原型建造或边缘辩论。
GPU功能迢遥,不错并行作念许多事,若是把这些智商齐用上,不错无比迢遥,然而单价更高,开云sports也更费电,而 NPU只作念一件事或一类事,功能单一,然而单价低也更省电。
不卖芯片,只作念更具性价比的云云就业商并不卖芯片,而是思要提供更具性价比的算力。
在2015年,谷歌就驱动磋议NPU,其时,谷歌发现一个问题:其数据中心中,神经收罗推理需求暴涨,但GPU恶果不及。
于是,谷歌里面启动了TPU面目。2015年第一代仅用于数据推理的TPU出身,2018年对外通达Google Cloud TPU,2020–2024年驱动参加“肃肃+推理一体化”阶段。
2026年,跟着TPU 8发布,谷歌初度明确分红两条道路:用于肃肃的TPU 8t和用于推理的TPU 8i,这背后反应的是一个更大的趋势:AI算力的重点,正在从肃肃转向推理。
行业机构瞻望,到2030年,75%-80%的AI算力将用于推理。这意味着GPT肃肃一次,推理运行数亿次。因此,谁能把 1 分钱的推理本钱压到 0.1 分,谁等于 畴昔的算力王者。
谷歌的两款芯片阔别由两个勾通方贪图,TPU8t由博通贪图, TPU8i由联发科贪图,两颗齐或将基于台积电2nm工艺,瞻望2027年底量产。TPU 8最中枢变化在于试图管制“内存墙”问题,通过更高带宽HBM、更密集的片间互联。
据悉,这次TPU8对比上一代Ironwood居品,TPU 8i 推理芯片HBM容量从216GB增到288GB,带宽从6528提到8601GB/s,片上 SRAM擢升三倍达384M。集群领域从数万颗扩到13.4万颗,最多可连100万颗。
NPU并不是谷歌独角戏,亚马逊、微软等齐有NPU居品,而国内华为昇腾(Ascend)、寒武纪、地平线等也有肖似居品发布。
以前云厂商买英伟达的“全家桶”,现时他们思买英伟达的“地基”,我方盖“屋子”。
掌合手算力时期主动权TPU 8系列发布背后,是一个止境显著的政策:去英伟达化。
如果TPU得胜,AI算力将从“GPU支配”酿成“多架构竞争”。
但取代“英伟达“,却并终止易。
最紧要的问题是生态,英伟达的CUDA仍然是行业圭表,CUDA 有 400 万建造者。另一方面,TPU功能太过单一,GPU不错用于AI肃肃和推理、图形处理和渲染,然而TPU的功能单一。
业内东谈主士广泛觉得,NPU的真理不是“替代GPU”,而是从头界说AI算力结构。畴昔可能出现,GPU手脚通用算力底座、TPU/NPU手脚AI专用加快层。
英伟达也看到了这个趋势,在2025年底,英伟达斥资 200 亿好意思元对 Groq 进行收购,Groq研发的 LPU (Language Processing Unit) ,在运行大模子(LLM)时,其速率是传统 GPU 的 10 倍以上。
这就像是昔日十年,大多手机厂商的竞争。当手机里最紧要的Soc芯片照旧被高通、联发科支配,具备迢遥的护城河,自研Soc芯片需要付出很大的本钱且濒临高风险。
那么,思要有特有上风、在阛阓上更具竞争力,大大批手机企业不会聘任自研Soc芯片,而是针对Soc芯片的局部功能作念优化。
此前,三星、vivo、OPPO等手机厂商齐聘任自研用于擢升拍照智商的NPU芯片,杀青各异化,比如vivo蓝图影像芯片、OPPO马里亚纳 MariSilicon芯片。
云厂商的算力竞争也接近尖锐化,越来越多用于肃肃和推理的NPU将会出现,并不休擢升智商。
畴昔的确的算力产业分水岭将是:谁能把AI推理本钱压到极致开云体育,谁就掌合手下一代算力时期主动权。
宝马会(BMW Club)官网app下载