近日,谷歌母公司 Alphabet(NASDAQ:GOOGL)股价连续多日强势上涨,市值逼近 4 万亿美元,创下历史新高。截至 24 日收盘,Alphabet 市值约为 3.84 万亿美元,位列全球第三,仅次于英伟达和苹果。
这股推动 Alphabet 市值创新高的动力,不仅源于巴菲特旗下公司破圈大举买入谷歌所带来的市场信心,更来自谷歌TPU业务今年以来接连获得的全球关键客户背书:10 月 24 日 Anthropic 与谷歌共同宣布,双方达成价值数百亿美元、规模达百万片的 TPU 采购协议;11 月 23 日,马斯克披露特斯拉已在车辆控制系统与数据中心大规模部署自研 AI 芯片,数量达数百万颗;11 月 25 日 The Information 报道称,Meta 正计划于 2027 年将谷歌 TPU 部署至自有数据中心,并最早自明年起租用谷歌云 TPU 算力;而近期口碑爆棚的 Gemini 3 正是谷歌用深耕 10 年的自研 TPU 芯片训练的成果。
这些看似独立的动向,共同指向一个清晰的行业转折点:AI 算力市场正加速摆脱对英伟达 GPU 的单一依赖,寻求基础设施多元化,拥抱以 TPU 为代表的 AI 专用芯片的新架构方向。
Meta 加持:谷歌 TPU 从云服务到本地部署的战略升级
TPU 是谷歌专为机器学习定制的 AI 加速芯片,在性能、能效比和成本方面为 AI 计算提供了新的选择。与英伟达的通用 GPU 相比,TPU 采用脉动阵列等简化控制逻辑的设计,在执行大规模的矩阵乘加等神经网络核心运算时,能够实现极高的能效比和吞吐量。
多年来,谷歌始终将 TPU 严格限制于自家云平台(Google Cloud),通过出租接入权限的方式,向需要大规模 AI 训练和部署的企业提供算力。谷歌本次计划放开在客户本地部署,是其首次以英伟达替代方案的方式进入市场,标志着其战略的重大转变。
Meta 与谷歌的这笔潜在交易可能是谷歌十年 TPU 投入的一次关键性背书。按照讨论中的方案,Meta 将把谷歌的 TPU 部署到其自有数据中心,并最快从明年起租用 Google Cloud 的 TPU 算力,凸显了 Meta 构建和运行人工智能模型所需的高性能计算能力需求。
随着模型参数规模从百亿向万亿迈进,Meta 面临的算力成本压力呈指数级增长。据公开计划,Meta 正在大幅增加其在 AI 基础设施上的投入,Meta 今年在 AI 基础设施方面的支出将高达 720 亿美元,以满足人工智能研发及业务运营的需求。当前,众多深度思考推理模型,多采用 MoE(混合专家)架构。这类架构虽激活参数量相对较少,但总参数量巨大,对大规模并行处理和高效内存访问需求迫切,单个芯片难以满足其计算需求。TPU v7 正是基于此设计,在执行大规模张量操作时,最大程度减少芯片上的数据移动和延迟。对于 Meta 这样每天需要处理数百万亿个 AI 模型的任务和操作的企业,TPU 在总拥有成本上的优势成为关键考量因素。
本次潜在合作可能会超越传统的供应商-客户关系。通过将 TPU 引入自有数据中心,Meta 实质上是在构建一个异构算力架构,为未来接入更多专用芯片奠定基础。同时,这一合作也将加速 TPU 生态的完善,推动其成为行业事实标准之一。对于年投入数百亿美元建设 AI 基础设施的 Meta 而言,与谷歌的深度合作不仅关乎成本节约,更关系到其在下一代 AI 竞争中的战略地位。
TPU VS. GPU,为 AI 大模型而生的天然优势架构
GPU 最初设计用于图形处理,尤其是实时渲染和图像处理,因此对其中体面结构的矩阵和向量运算做了专门优化,后来逐渐发展成为通用计算设备(GPGPU)。GPU 具有大量结构较为简单的并行处理单元,适合处理高度并行的任务,如图形渲染和科学计算,因此被广泛应用于计算机图形学、游戏开发、视频编码/解码、深度学习训练和推理。
TPU 是谷歌专为加速机器学习和深度学习任务而设计的专用芯片,特别是针对深度学习模型的训练和推理。TPU 针对张量运算进行了高度优化,单个的脉动阵列架构吞吐量和处理效率相较 GPU 有了更大提升,特别适合于处理矩阵乘法等常见于神经网络的操作,主要用于机器学习和深度学习模型的训练和推理,特别是使用 TensorFlow 框架的任务。
TPU 以强大的并行处理能力实现了模型训练速度和精度的双重提升,可以说是比 GPU 更适合进行大量部署或使用的深度学习计算单元:
・多维度的计算单元提高计算效率:相较于 CPU 中的标量计算单元和 GPU 中的矢量计算单元,TPU 使用二维乃至更高维度的计算单元完成计算任务,将卷积运算循环展开的方式实现最大限度的数据复用,降低数据传输成本,提升加速效率;
・更省时的数据传输和高效率的控制单元:冯诺依曼架构带来的存储墙问题在深度学习任务当中尤为突出,而 TPU 采用更为激进的策略设计数据传输,且控制单元更小,给片上存储器和运算单元留下了更大的空间;
・设计面向 AI 的加速,强化 AI/ML 计算能力:定位准确,架构简单,单线程控制,定制指令集,TPU 架构在深度学习运算方面效率极高,且易于扩展,更适合超大规模的 AI 训练计算。
TPU 为代表的新架构冲击英伟达 GPU 主导的 AI 算力市场
当前,Meta 的选择折射出众多整个行业的战略转向――AI算力基础设施的构建已不再局限于通用 GPU 的堆砌,正向更具能效优势的 TPU 或者类 TPU 等定制化芯片深入。
今年 10 月 24 日,谷歌与 Anthropic 共同发布声明,宣布谷歌将向 Anthropic 供应至多 100 万块专用 AI 芯片 TPU 以及附加的谷歌云服务,这笔交易价值数百亿美元;谷歌在声明中称,这是 Anthropic 迄今为止规模最大的 TPU 扩容计划。至此,Anthropic 已与谷歌、亚马逊与英伟达三大芯片提供商达成合作。
11 月 23 日,特斯拉首席执行官马斯克通过社交平台发布长文,特斯拉已组建一支全球顶尖的芯片研发团队,特斯拉已具备从芯片设计到量产的全链条能力,支撑起 FSD 自动驾驶、Dojo 超级计算机等核心业务。据马斯克介绍,特斯拉已在车辆控制系统与数据中心大规模部署自研 AI 芯片,数量达数百万颗。特斯拉当前车载芯片为 AI4(原HW4),其下一代产品 AI5 已完成关键设计,即将进入流片阶段,而第六代芯片 AI6 的研发工作也已正式启动。公司计划以“一年一代”的节奏推进芯片迭代。
不止如此,自 2019 年始,许多科技巨头已经开始探索非GPU算力解决方案:
・早在 2019 年,英特尔就收购了来自以色列的 AI 芯片制造商 Habana Labs,并在 2024 年 4 月推出了专攻深度学习神经网络推理的类 TPU 芯片 Gaudi 3;预计2025 年初,IBM Cloud 将率先部署英特尔 Gaudi 3 AI 加速器;
・2023 年 11 月,微软在其全球技术大会 Ignite 上宣布推出专为 Azure 云服务和 AI 工作负载设计的 ASIC 芯片 Maia 100,预计 2026 年正式发布;
・2023 年 11 月底,AWS 在其“AWS re:Invent 2023”大会发布了为生成式 AI 和机器学习训练设计的云端 AI 算力芯片 Trainium 2;2024 年底,AWS 与 Anthropic 官宣共同打造名为 Project Rainier 的 EC2 UltraCluster,将使用数十万片 Trainium2 芯片;
・2024 年 7 月 苹果公司使用谷歌 TPU 训练其人工智能系统“苹果智能”(Apple Intelligence)的 AI 模型 AFM,通过 2048 片 TPUv5p 芯片来训练拥有 27.3 亿参数的设备端模型 AFM-on-device ,以及 8192 片 TPUv4 芯片来训练其为私有云计算环境量身定制的大型服务器端模型 AFM-server。
・2025 年 6月,据路透社报道,作为英伟达 GPU 长期以来的最大采购商之一的 OpenAI 已开始租用谷歌的 TPU 为其 ChatGPT 及其他 AI 产品提供算力支持。
・ ・・・・・・
国内唯一全自研、已量产 TPU 芯片的公司
核心创始团队组建于 2018 年,作为国内唯一一家掌握 TPU 架构 AI 专用芯片核心技术并实现全自研 TPU 芯片量产的公司,中昊芯英的创始人及 CEO 杨龚轶凡曾作为谷歌 TPU 芯片核心研发者,深度参与过 TPU v2/3/4 的设计与研发工作。当前,OpenAI 大规模租用 TPU 算力、Meta 广泛采购部署 TPU 芯片,特斯拉为特定场景研发专用 AI 芯片,共同标志着为 AI 负载优化的专用计算架构已成为行业演进的关键路径,也从产业层面验证了 TPU 技术方向的可行性与前瞻性。
TPU 为 AI 大模型而生的天然优势架构,使其在面向 AI 计算场景时,在同等生产制程下相较于 GPU 可以拥有 3-5 倍的性能提升。以中昊芯英历时近五年全自研的国内首枚已量产 TPU AI 芯片“刹那?”为例,“刹那?”在处理大规模 AI 模型运算时与海外知名 GPU 芯片相比,计算性能可以超越其近 1.5 倍,在完成相同计算任务量时的能耗降低 30%,将价格、算力和能耗综合测算,“刹那?”的单位算力成本仅为其 42%。
TPU 所引领的架构革新,正在重塑全球 AI 算力的竞争格局。在模型复杂度与算力成本双重攀升的背景下,以 TPU 为代表的专用芯片凭借其在能效、集群性能与总拥有成本上的综合优势,正逐步成为大规模 AI 基础设施的可靠选择。正是这些多元技术路径的探索,最终推动算力效率持续突破,进而为下一代 AI 模型的宏大未来构建起坚实而高效的算力基础。专注于 TPU 技术路线的中昊芯英为本土 AI 产业市场提供一个经过实践检验的高效算力选项。
(:贺