大厂如何从“训练优先”转向“推理优化”?ChatGPT answer

大厂如何从“训练优先”转向“推理优化”?

随着 AI 模型(特别是大语言模型 LLM 和端到端神经网络)的规模持续增长,推理阶段的 计算需求、成本和能耗问题 逐步显现,因此大厂正在调整 AI 计算架构,逐渐向推理优化方向发展。

他们主要采取 两条路径

  1. 继续采购 NVIDIA 高效推理 GPU(如 H100/H200/B200)
  2. 研发自家定制 ASIC(专用推理芯片)降低长期推理成本

1. 继续使用 NVIDIA GPU(短期主流方案)

尽管大厂希望降低对 NVIDIA 的依赖,但在 短期内(1-2年内),他们仍然大量采购 NVIDIA 高性能 GPU 来支持推理计算。

为何继续用 NVIDIA?

  • 最成熟的 AI 计算生态:CUDA + TensorRT + Transformer Engine,开发者习惯于 NVIDIA 平台。
  • H100 / H200 / B200 具备高效推理能力:支持 FP8、INT8 等低精度计算,显著降低推理成本。
  • NVLink + NVSwitch 使得 NVIDIA AI 超算集群仍然是 最高效的选择

大厂的 NVIDIA GPU 采购情况

  • Meta:正在采购 H100H200,主要用于 Llama 3、AI 广告推荐、Reels 等推理任务。
  • Microsoft:Azure 云提供 H100/H200 作为推理主力,并与 NVIDIA 合作构建 AI 云计算服务。
  • Tesla:目前仍依赖 NVIDIA H100 进行 FSD V12 的推理训练,但 Dojo 未来会承担部分推理工作。

2. 自研 ASIC 专用推理芯片(长期降本趋势)

虽然 NVIDIA GPU 目前仍是主流,但大厂都在加速研发 自家的 ASIC(Application-Specific Integrated Circuit)推理芯片,以降低推理成本和功耗。

自研 ASIC 推理芯片的优势

  • 极端优化的计算效率:相比通用 GPU,ASIC 仅为特定 AI 任务优化,能效更高。
  • 显著降低推理功耗:相比 GPU,ASIC 推理芯片功耗通常降低 2-5 倍,适合大规模推理部署。
  • 长期减少对 NVIDIA 依赖:避免被 GPU 价格波动影响,控制 AI 计算的 CAPEX 和 OPEX。

大厂的自研 ASIC 进展

公司 自研推理芯片 主要用途 现状
Google TPU v5 LLM 推理(Gemini) 已大规模部署于 Google Cloud
Amazon AWS Inferentia 2 AWS AI 云服务 AWS 内部推理成本比 GPU 低 40%
Meta MTIA(Meta Training Inference Accelerator) AI 推理(推荐系统 Llama) 预计 2025 年开始大规模部署
Microsoft Azure Cobalt 云端 LLM 推理 2024 年测试阶段,配合 NVIDIA GPU
Tesla Dojo D1 自动驾驶 AI 推理 主要用于 FSD 推理,仍需 NVIDIA GPU 作为补充
Apple M3 神经引擎 端侧 AI 推理 适合低功耗 AI 计算,无法挑战数据中心

3. 未来 AI 推理市场趋势

  1. 短期内(2024-2025):NVIDIA GPU 仍是推理主力

    • H100 / H200 / B200 继续占据市场,CUDA 生态强大,大厂无法完全绕开。
    • Azure、AWS、Google Cloud 仍然采购 NVIDIA GPU 作为云推理方案。
  2. 中期(2025-2027):ASIC 渗透率上升

    • Meta、Microsoft、Tesla、Amazon 的自研推理 ASIC 开始大规模部署。
    • NVIDIA 可能会通过软件(TensorRT、Transformer Engine)优化推理成本,以应对 ASIC 竞争。
  3. 长期(2027+):推理芯片市场碎片化

    • 大厂会采用“ASIC + GPU 混合计算”架构:
      • 训练用 NVIDIA + 自研 ASIC
      • 推理主要用 ASIC,GPU 仅作补充
    • 专用 AI 服务器架构可能重构,减少对 NVIDIA NVLink、CUDA 的依赖。

最终结论

  • 目前 大厂仍然需要 NVIDIA 的 GPU(H100/H200) 作为主要推理算力来源,但它们正在积极研发 自家 ASIC 来减少长期依赖。
  • 未来 3-5 年,AI 推理市场会从“以 NVIDIA 为主”过渡到“GPU + ASIC 混合架构”
  • NVIDIA 并不会被 ASIC 取代,但它会面临更激烈的竞争,特别是在推理端的成本控制上。
短期:NVIDIA 继续统治 中期:ASIC 逐步崛起 长期:推理架构进入“GPU + ASIC”共存时代

登录后才可评论.