大厂如何从“训练优先”转向“推理优化”?
随着 AI 模型(特别是大语言模型 LLM 和端到端神经网络)的规模持续增长,推理阶段的 计算需求、成本和能耗问题 逐步显现,因此大厂正在调整 AI 计算架构,逐渐向推理优化方向发展。他们主要采取 两条路径:
- 继续采购 NVIDIA 高效推理 GPU(如 H100/H200/B200)
- 研发自家定制 ASIC(专用推理芯片)降低长期推理成本
1. 继续使用 NVIDIA GPU(短期主流方案)
尽管大厂希望降低对 NVIDIA 的依赖,但在 短期内(1-2年内),他们仍然大量采购 NVIDIA 高性能 GPU 来支持推理计算。为何继续用 NVIDIA?
- 最成熟的 AI 计算生态:CUDA + TensorRT + Transformer Engine,开发者习惯于 NVIDIA 平台。
- H100 / H200 / B200 具备高效推理能力:支持 FP8、INT8 等低精度计算,显著降低推理成本。
- NVLink + NVSwitch 使得 NVIDIA AI 超算集群仍然是 最高效的选择。
大厂的 NVIDIA GPU 采购情况
- Meta:正在采购 H100 及 H200,主要用于 Llama 3、AI 广告推荐、Reels 等推理任务。
- Microsoft:Azure 云提供 H100/H200 作为推理主力,并与 NVIDIA 合作构建 AI 云计算服务。
- Tesla:目前仍依赖 NVIDIA H100 进行 FSD V12 的推理训练,但 Dojo 未来会承担部分推理工作。
2. 自研 ASIC 专用推理芯片(长期降本趋势)
虽然 NVIDIA GPU 目前仍是主流,但大厂都在加速研发 自家的 ASIC(Application-Specific Integrated Circuit)推理芯片,以降低推理成本和功耗。自研 ASIC 推理芯片的优势
- 极端优化的计算效率:相比通用 GPU,ASIC 仅为特定 AI 任务优化,能效更高。
- 显著降低推理功耗:相比 GPU,ASIC 推理芯片功耗通常降低 2-5 倍,适合大规模推理部署。
- 长期减少对 NVIDIA 依赖:避免被 GPU 价格波动影响,控制 AI 计算的 CAPEX 和 OPEX。
大厂的自研 ASIC 进展
公司 | 自研推理芯片 | 主要用途 | 现状 |
---|---|---|---|
TPU v5 | LLM 推理(Gemini) | 已大规模部署于 Google Cloud | |
Amazon | AWS Inferentia 2 | AWS AI 云服务 | AWS 内部推理成本比 GPU 低 40% |
Meta | MTIA(Meta Training Inference Accelerator) | AI 推理(推荐系统 Llama) | 预计 2025 年开始大规模部署 |
Microsoft | Azure Cobalt | 云端 LLM 推理 | 2024 年测试阶段,配合 NVIDIA GPU |
Tesla | Dojo D1 | 自动驾驶 AI 推理 | 主要用于 FSD 推理,仍需 NVIDIA GPU 作为补充 |
Apple | M3 神经引擎 | 端侧 AI 推理 | 适合低功耗 AI 计算,无法挑战数据中心 |
3. 未来 AI 推理市场趋势
-
短期内(2024-2025):NVIDIA GPU 仍是推理主力
- H100 / H200 / B200 继续占据市场,CUDA 生态强大,大厂无法完全绕开。
- Azure、AWS、Google Cloud 仍然采购 NVIDIA GPU 作为云推理方案。
-
中期(2025-2027):ASIC 渗透率上升
- Meta、Microsoft、Tesla、Amazon 的自研推理 ASIC 开始大规模部署。
- NVIDIA 可能会通过软件(TensorRT、Transformer Engine)优化推理成本,以应对 ASIC 竞争。
-
长期(2027+):推理芯片市场碎片化
- 大厂会采用“ASIC + GPU 混合计算”架构:
- 训练用 NVIDIA + 自研 ASIC
- 推理主要用 ASIC,GPU 仅作补充
- 专用 AI 服务器架构可能重构,减少对 NVIDIA NVLink、CUDA 的依赖。
- 大厂会采用“ASIC + GPU 混合计算”架构:
最终结论
- 目前 大厂仍然需要 NVIDIA 的 GPU(H100/H200) 作为主要推理算力来源,但它们正在积极研发 自家 ASIC 来减少长期依赖。
- 未来 3-5 年,AI 推理市场会从“以 NVIDIA 为主”过渡到“GPU + ASIC 混合架构”。
- NVIDIA 并不会被 ASIC 取代,但它会面临更激烈的竞争,特别是在推理端的成本控制上。