B站传送:【NVIDIA CEO黄仁勋最新十月长访@ BG2投资播客 2024.10.14【中英精校】-哔哩哔哩】
AI个人助理的未来触手可及
访谈一开始,主持人提出了一个令人振奋的愿景:拥有一个口袋里的私人AI助理,了解我们的一切,具备完美的记忆,能够与我们沟通,帮忙处理日常事务。对此,黄仁勋充满信心地表示,这样的助理将在不久的将来以某种形式出现在我们身边,而且会随着时间的推移变得越来越完美。
黄仁勋的乐观态度反映了AI技术的迅猛发展。随着深度学习和自然语言处理的不断突破,AI个人助理的实现已不再是遥远的梦想,而是即将到来的现实。这将深刻改变人类的生活方式和工作模式。
重新发明计算:Computing的革命性变化
黄仁勋强调,我们正在重新发明计算。他指出,NVIDIA在过去十年中将计算的边际成本降低了10万倍,远超摩尔定律带来的百倍增长。这一成果源于加速计算的引入,以及在GPU架构、数值精度、张量核心等方面的创新。
他进一步解释,传统的CPU架构已无法满足AI时代的计算需求。通过将CPU上效率不高的任务转移到GPU上,加速计算成为可能。同时,软件、算法和硬件的同步创新,使得整个技术堆栈都在高速发展。
这一观点揭示了NVIDIA在AI时代的战略优势。通过硬件和软件的深度融合,以及对整个计算架构的重新设计,NVIDIA确立了其在AI计算领域的领先地位。这种革命性变化不仅提升了计算性能,也为AI的快速发展奠定了基础。
深厚的护城河:从GPU到完整生态系统
在谈及NVIDIA的市场护城河时,黄仁勋指出,NVIDIA的优势不仅在于硬件性能,更在于其构建的完整技术堆栈,尤其是软件和库的支持。他强调,加速计算的成功离不开CUDA等领域特定库的贡献。这些库使得开发者能够高效利用GPU的性能,实现AI模型的快速训练和推理。
NVIDIA通过构建软硬件一体化的生态系统,形成了难以逾越的竞争壁垒。对开发者友好的平台和工具,加上持续的技术创新,使得NVIDIA在AI领域保持领先。
推理的重要性:AI应用的未来
随着AI模型的发展,黄仁勋强调了推理(Inference)的重要性。他认为,推理本质上是大规模的训练,只有在推理阶段表现出色,AI模型才能真正为用户带来价值。NVIDIA在推理方面的技术积累和架构设计,使其能够高效支持复杂的推理任务。
推理阶段的性能直接关系到用户体验和AI应用的实用性。NVIDIA在推理领域的优势,进一步巩固了其在AI全产业链的主导地位。
面对竞争:坚持独特使命
对于市场上定制ASIC的竞争,黄仁勋坦言NVIDIA的目标与众不同。他表示,NVIDIA专注于构建适用于AI、生成式AI和代理AI的新计算平台,重塑整个计算堆栈。他强调,公司唯一的目标是构建一个无处不在的平台架构,而不是从他人手中夺取市场份额。
这种战略定位彰显了NVIDIA的自信和远见。通过专注于自身的独特使命,NVIDIA致力于持续创新,引领AI时代的发展方向。竞争者的存在反而激发了NVIDIA不断前进的动力。
需求与挑战:AI计算的规模化
谈及未来的需求,黄仁勋预测,全球将需要数百万个GPU来支持AI计算。他以Elon Musk的X公司在19天内建成10万GPU的超级计算机为例,展示了AI计算需求的爆炸式增长。他认为,分布式计算和新算法的发明将使得大规模AI计算成为可能。
这反映了AI产业的巨大潜力和面临的挑战。如何满足如此庞大的计算需求,既是技术问题,也是产业机遇。NVIDIA在计算加速和架构优化方面的优势,使其有能力引领这一波浪潮。
AI对社会和生产力的影响,AI安全
黄仁勋深信,AI不会取代人类,而是会改变每一项工作。他预见未来的企业将由生物员工和数以百万计的AI助手组成,生产力将实现质的飞跃。他强调,AI将帮助人们实现自动化,激发创造力,并推动经济增长。
在谈到AI安全时,黄仁勋强调了行业自律的重要性。他指出,构建安全的AI需要技术研发、最佳实践和适度的监管。此外,他认为开源模型对于AI的发展至关重要,开放与闭源应相辅相成,共同推动技术进步。
这一观点描绘了AI与人类共生的未来图景。AI作为工具和伙伴,将解放人类的潜能,促进社会的进步。同时,也提出了对于教育、就业和伦理的思考。AI的安全和伦理是不可回避的问题。通过行业合作和透明度的提升,可以有效预防潜在风险。开源精神的坚持,将有助于激发创新,促进AI在各领域的公平应用。
--天空之城书面全文版2万字--
(前言)黄仁勋:
他们取得的成就是独一无二的,这是前所未有的。从另一个角度看,100,000 个 GPU 绝对可以称为地球上最快的超级计算机。这是一个超级计算机集群。通常,建造这样一台超级计算机需要三年的规划时间,设备交付后还需要一年的时间才能完全运作。而我们,仅用了19天。
主持人:Jensen,你的眼镜不错。
黄仁勋:嘿,是的,你的也不错。
主持人:和你在一起真好。
黄仁勋:我也戴着类似的眼镜。
主持人:好吧,它们并不丑,还算不错。更喜欢红色的吗?
黄仁勋:只有你的家人会喜欢的东西。
主持人:今天是10月4日星期五,我们在Nvidia总部。
黄仁勋:欢迎!
主持人:
谢谢。周一我们将举行年度投资者会议,我们将在会上讨论人工智能的所有影响,以及我们扩展智能的速度。我真的想不出比你更适合开始会议的人了。我很感激。作为股东和思想伙伴,我们来回交流想法,你真的让我们变得更聪明。我们非常珍视这段友谊,感谢你的到来。
黄仁勋:很高兴来到这里。
主持人:
今年的主题是将智能扩展到AGI。令人难以置信的是,两年前我们做这件事时,人工智能正处于一个重要时期,而那还是ChatGPT问世的两个月前。想想所有这些变化。所以我想,我们可以从一个思想实验和预测开始。
如果我把AGI想象成我口袋里的私人助理,那将是多么美妙。是的,它了解我的一切,对我有完美的记忆,它可以与我沟通,帮我预订酒店或预约医生。当你看到当今世界的变化速度时,你认为我们什么时候才能拥有这样的个人助理?
黄仁勋:
很快,以某种形式,是的。很快就会以某种形式出现,而且随着时间的推移,这个助手会越来越好。这就是我们所知的技术之美。所以我认为一开始它会非常有用,但并不完美。然后它会随着时间的推移变得越来越完美,就像所有的技术一样。
主持人:
当我们观察变化的速度时,我想起埃隆曾说过,唯一真正重要的是变化的速度。我们确实感受到变化的速度已经显著加快。这是我们在这些问题上见过的最快速度,因为我们和你一样,在AI领域已经耕耘了十年。这是您职业生涯中见过的最快速度吗?
黄仁勋:
这是因为我们重新发明了计算。我们在10年内将计算的边际成本降低了100,000倍,而摩尔定律的增长约为100倍。我们通过多种方式达成这一目标,包括将CPU上效率不高的工作放在GPU上完成,引入加速计算,发明新的数值精度,以及通过新的架构、张量核心来实现。
系统构建的基础包括使用NVLink增加超快的内存、HBM,并通过NVLink和InfiniBand扩展整个堆栈。这些创新导致了类似超摩尔定律的增长速度。我们从人工编程转向机器学习,机器学习能够快速学习。我们重新分配计算方式,实现了多种并行性,如张量并行性和管道并行性,并在此基础上发明新算法和新训练方法。这些创新不断叠加。
回顾摩尔定律的发展,软件通常是静态的,是预编译和包装后出售的,而硬件则以摩尔定律的速度发展。现在,整个科技堆栈都在同步增长和创新。因此,我们突然看到系统的扩展。以前,我们讨论预训练模型的扩展,以及如何将模型大小和数据大小翻倍,使得所需计算能力每年增加四倍。这是一个重大变化。如今,我们也看到了后训练和推理阶段的扩展。预训练再也不被视为艰难,推理也变得复杂。认为人类所有思维都是一次性想法是荒谬的,因此需要快速思考、慢速思考、推理、反思、迭代和模拟的能力。
主持人:
我认为,到目前为止,关于NVIDIA最容易被误解的一点是它真正的护城河有多深。许多人可能认为只要有人发明了一种新的更好的芯片,他们就能够胜出。在过去十年中,你一直致力于构建从 GPU 到 CPU 再到网络的完整技术堆栈,尤其在软件和库方面,使应用程序能够在 NVIDIA 上成功运行。
当你思考 NVIDIA 当今的市场护城河时,你认为相比三四年前,它是变得更大还是更小了?
黄仁勋:
我非常欣赏你对计算技术发展变化的认知。许多人认为设计一个更好的芯片就是增加更多的触发器、位和字节,但这实际上是一种过时的思维。长久以来,我们的理解是,软件只是运行在 Windows 上的某个应用程序,而且是静态的。过去,人们认为提高系统性能的最佳途径是制造更快的芯片,但我们已经认识到机器学习并非由人类编程,它不仅仅是软件,它涉及整个数据处理过程。
对我们而言,机器学习的关键在于“飞轮效应”。那么,如何启用这个飞轮,同时让数据科学家和研究人员在其中高效工作呢?这个飞轮自一开始就运转不息。很多人甚至未曾意识到,教会人工智能需要先利用人工智能去整理数据,而人工智能本身极为复杂且在不断进步。
主持人:
它是否也在加速发展?而这种发展,是所有系统相结合的结果。
黄仁勋:
是的 ,由于智能化的数据整理技术,我们现有合成数据生成及多种数据处理、呈现方式。因此,高效的数据处理在训练之前就已经开始。人们可能认为 PyTorch 是新时代的起点,但在 PyTorch 出现之前和之后都有大量工作要完成。要专注于飞轮的整体,这是你应该考虑的重点。如何设计计算系统和架构,以利用飞轮并实现最高效运作呢?这并不是应用程序的一部分,也不只是训练。这只是一个过程中的一步。飞轮上的每一步都很艰难。因此,首先要做的不是考虑如何加快 Excel 或 Doom 的运行速度,那都是过去的事情。现在需要思考的是,如何让飞轮运转得更快。这个飞轮由许多不同的步骤组成。
正如大家所知,机器学习并不容易。OpenAI、X、Gemini 和 DeepMind 团队所做的工作都是复杂的。所以,我们决定关注真正值得思考的问题:整个过程如何加速。加速每一部分是目标,而遵循阿姆达尔定律至关重要。阿姆达尔定律指出,如果某个步骤占用30%的时间,即使加速三倍,整体过程的提升也有限。所以,创建一个可以加速每一步的系统是关键,只有这样才能实质性地改善周期时间。
飞轮和学习率是导致指数级增长的原因。我们对公司及其实际工作的理解最终会体现在产品中。我们的目标是在整个周期中加速飞轮的运转。当前的主要关注点是视频领域,很多人专注于物理人工智能和视频处理。想象一下每秒都有 TB 级数据进入系统,这需要一个能吸收所有数据的管道来首先为训练做好准备。
整个过程都是通过 CUDA 加速的。
主持人:
今天,人们大多只考虑文本模型,但未来的视频模型以及一些文本模型,例如 O1,将能够在我们到达目标前真正处理大量数据。
黄仁勋:
语言模型将无所不包,训练这些大型语言模型需要业界巨大的技术努力。现在,我们在每一步中都使用大型语言模型,这非常了不起。
主持人:
虽然不想简化这个过程,但常常会听到投资者问,定制 ASIC 的问题呢?是的,但他们的竞争模式将因此受到打击。
我听到您说,在组合系统中,优势会随着时间的推移而增长。所以,我们的优势比三四年前更大,因为我们正在改进每个组件,这是组合的效果。
当你考虑,例如,作为一个商业案例研究,英特尔,它拥有主导模式,在堆栈中占据主导地位。
黄仁勋:
他们之所以与众不同,是因为可能是第一家在制造、工艺工程、制造以及制造之上的芯片制造方面都非常出色的公司。他们在 x86 架构中设计芯片、构建芯片,并制造出越来越快的 x86 芯片,这就是他们的聪明之处。他们将其与制造融合在一起。
我们公司在这方面略有不同,我们认识到随并行处理并不要求每个晶体管都表现出色,而串行处理要求每个晶体管都性能卓越。并行处理需要大量的晶体管才能更具成本效益。我宁愿晶体管数量多10倍、速度慢20%,也不愿晶体管数量少10倍、速度快20%。这有道理吗?它们是相反的。
因此,单线程性能、单线程处理和并行处理非常不同。我们观察到,事实上,我们的世界并不是越往下越好。我们希望变得非常好,尽可能好,但我们的世界实际上是越往上越好。并行计算、并行处理很难,因为每个算法都需要一种不同的方式重构和重新设计架构算法。
人们没有意识到的是,你可以拥有三个不同的ISA(指令集架构)、CPU ISA。它们都有自己的C编译器,你可以使用软件并编译到该ISA。这在加速计算中是不可能的,这在并行计算中是不可能的。提出架构的公司必须提出自己的OpenGL。
因此,我们凭借名为CUDNN的领域特定库彻底改变了深度学习。如果没有CUDNN,就没有人会谈论它,因为它是PyTorch和TensorFlow下面的一层,在过去,它是CAFE和Theano,现在是Triton。有很多不同的框架。因此,特定领域的库CUDNN、特定领域的库Optics,我们有特定领域的库CuQuantum、Rapids,领域列表继续增加。
主持人:
行业特定的算法位于所有人都关注的 PyTorch 层之下。正如我常听到的...
黄仁勋:
如果没有发明 LLM,那么上面的任何应用程序都无法运行。NVIDIA 之所以出色,正是因为我们在数学和算法方面的优势。在科学和底层架构的结合上,我们同样非常擅长。
主持人:
现在,所有注意力终于集中在推理上。我记得,两年前,布拉德和我与你共进晚餐,曾问了一个问题:你认为在推理方面的护城河会像在训练方面一样强大吗?
黄仁勋:我确信它会更大。
主持人:你刚才提到了很多元素,比如可组合性等。对于客户来说,在两者之间保持灵活性是非常重要的。既然我们处于推理时代,你能否谈谈相关内容?
黄仁勋:
推理本质上就是大规模训练。因此,如果你训练得好,很可能推理也会很好。如果你在这个架构上构建它,即使没有特别的考虑,它也会在这个架构上运行。虽然可以针对其他架构进行优化,但由于已经在 NVIDIA 上构建,它至少会在 NVIDIA 上运行。
另一个方面是资本投资。当你训练新模型时,自然希望使用最新的设备,这就留下了你昨天使用的设备,而这些设备非常适合推理。与 CUDA 兼容的新基础设施背后,有一系列免费设备和基础设施。我们严格确保兼容性,以便现有系统保持卓越。
同时,我们投入大量精力重新发明新算法,以确保 Hopper 架构比购买时更好。我们的基础设施因此持续高效。改进的新算法和新架构提升了每一个已安装的基础,包括 Hopper、Ampere,甚至 Volta。Sam 刚刚告诉我,他们最近才停用了 OpenAI 的 Volta 基础设施。因此,我认为我们已经为安装基础打下了痕迹。就像所有计算一样,安装基础非常重要。NVIDIA 的技术存在于每一个云,并一直延伸到边缘设备。因此,在云端创建的 Vela 视觉语言模型无需修改即可在机器人的边缘完美运行,并且完全兼容 CUDA。
我认为架构兼容性对于大型系统来说至关重要,无论是 iPhone 还是其他设备。我相信安装基础对于推理过程非常重要。然而,真正让我们受益的是,当我们训练这些大型语言模型及其新架构时,我们能思考如何在未来的某个时机创建在推理方面表现出色的架构。
因此,我们一直在研究推理模型的迭代模型,以及怎样为用户的个人代理创建互动性强的推理体验。您不希望在说完话之后还要等待片刻才能得到响应,您希望它能快速与您互动。那么,我们如何创建这样的系统呢?最终的成果就是 NVLink。
NVLink 让我们能够利用这些非常适合训练的系统,而在您完成训练后,推理性能也能达到非常出色的水平。因此,优化到第一个标记的时间非常重要。实际上,这一过程非常困难,因为到第一个标记的时间需要大量带宽。如果您的上下文也很丰富,那么您会需要大量的触发器。因此,您需要无限量的带宽和触发器才能实现几毫秒的响应时间。
我们为此发明了 Grace Blackwell NVLink。
主持人:
由于时间关系,这里还有更多问题。
黄仁勋:听着。让我们一直做下去,直到做对为止。
主持人:
我喜欢这种做法。现在我们不必担心时间了。
本周早些时候我和安迪·贾西碰面,他提到我们即将推出 Tranium 和 Inferencia。我认为大多数人可能觉得这对 NVIDIA 是个问题。但他接着说,NVIDIA 是我们的重要合作伙伴,并将继续是我们的重要合作伙伴。据我所知,未来世界将依靠 NVIDIA 的技术运行。
因此,当您考虑构建定制的 ASIC 时,它们将用于特定应用,比如 Meta 的推理加速器、亚马逊的 Tranium 或者谷歌的 TPU。关于供应短缺的问题,我们需要思考这些新的技术动态是否会改变现状,或者它们是否只是对现有系统的一种补充。
黄仁勋:
我们现在正在做的是不同的事情,具体来说,NVIDIA 正在为一个全新的世界构建计算平台,这个世界包括机器学习、生成 AI 和代理 AI 等。
经过 60 年的计算,我们深刻地重塑了整个计算堆栈。无论是从编程到机器学习,还是从 CPU 向 GPU 的转变,以及从传统软件到人工智能的演变,应用程序的形式都在改变。因此,计算堆栈和技术堆栈的各个方面都发生了剧变。
我们的目标是创建一个可以随时随地使用的计算平台,这正是我们工作复杂性的源泉。我们正在构建整个人工智能基础设施,并将其视作一台完整的计算机。我曾说过,现在的数据中心是计算的单位。当我想到一台计算机时,关注的不仅是芯片,而是整个系统:所有的软件、编排和内部的机器,构成了我的计算机。
我们每年都在努力创造一台新的计算机,其性能提升两到三倍,成本降低两到三倍,能源效率提高两到三倍。这种进步令人难以置信。因此,我们建议客户逐年分批购买新设备,以维持在成本上的平均水平,这样做的好处是在架构上保持兼容性。
目前,以我们这样的改进速度来构建单独的系统是非常困难的,而且双重困难之处在于,我们不仅仅将这些创新作为基础设施或服务出售,而是将它们全部分解并集成到多个平台中,比如 GCP、AWS、Azure 和其他服务中。这种做法确实是有意义的。每个人的集成都各不相同。我们必须将所有的架构库、算法和框架集成到他们的系统中,包括我们的安全系统和网络。我们基本上每年都进行十次这样的集成。
这就是奇迹。这种每年的尝试让我感到疯狂,想想这件事我就快要疯了。
主持人:
那么,是什么驱使你每年这样做呢?
克拉克刚刚从台北、韩国和日本回来,与你们所有的供应伙伴会面,你们与他们有长达十年的关系。这些关系对于构建竞争护城河的组合数学有多重要?
黄仁勋:
当你系统地分解时,越是分解,大家就越惊讶于整个电子生态系统如何致力于与我们合作,以构建一个集成到所有不同生态系统中的计算机立方体,并实现无缝协调。我们向后传播了 API、方法、业务流程和设计规则,同时向前传播方法、架构和 API,这些已经固化并随着我们的发展而不断演变。
这些 API 必须结合在一起,最后,台湾和世界各地制造的所有东西都会在 Azure 数据中心结合在一起。
主持人:
人们只需调用 OpenAI API,它就可以工作。
黄仁勋:
没错。这是一个完整的链条,是我们发明的庞大计算基础设施。整个地球都在与我们合作,它已经融入每一个地方。
该系统可以通过戴尔和 HPE 销售,托管在云端,并一直接近边缘。现在,人们在机器人系统和自动驾驶汽车中使用它,它们在架构上都是兼容的。相当疯狂。
克拉克,我不想让你觉得我没有回答这个问题。事实上,我回答了。关于ASIC的部分,我指的是我们正在做一些不同的事情。作为公司,我们希望了解具体情况,并且我对公司和生态系统周围的一切都了如指掌。我清楚其他人在做什么,有时这对我们有利,有时则不然。我非常清楚这一点,但这并没有改变公司的目标。公司的唯一目标是构建一个能够无处不在的平台架构。
NVIDIA的定位是做市商,而非从任何人那里夺取市场份额。如果你查看我们的幻灯片,会发现我们从不谈论市场份额。内部讨论的都是我们如何创造下一个事物?下一个可以在飞轮中解决的问题是什么?如何更好地为人们服务?如何将过去可能需要一年的飞轮缩短到一个月?在考虑这些不同事情的同时,我们确信我们的使命非常独特。唯一的问题是这项使命是否必要。
所有伟大的公司都应该以使命为核心,关键在于你在做什么,以及这是否必要、是否有价值、是否具有影响力和帮助他人。我相信你作为一家生成式人工智能初创公司的开发人员,正在决定如何成为一家公司。你不必立即选择支持哪家ASIC,选择Akuta意味着你可以随时改变主意,而我们是通往人工智能世界的入口。一旦你决定加入我们的平台,其他决定可以推迟。在与所有GCP、Azure合作时,我们也提前几年向他们展示我们的路线图,他们从未向我们展示他们的ASIC路线图,但这从未冒犯过我们。如果您有一个唯一且有意义的目标,并且您的使命对您和他人都很珍贵,那么您就可以保持透明。我在 GTC 上的路线图是公开的,而在 Azure、AWS 等方面的合作伙伴看到的路线图则更加深入。我们在这些平台上的工作没有问题,即使他们也在制造自己的 A6。
主持人:
我认为,当人们关注业务时,会说最近对 Blackwell 的需求是疯狂的。在工作中,最困难的部分之一是在无法提供足够的计算资源时对人们说“不”,这会带来情感上的负担。然而,批评者认为这只是暂时现象,就像 2000 年的思科一样,认为我们在过度建设光纤,预示着繁荣与萧条并存。
令我想起了 2023 年初的一次晚宴。在 1 月 23 日的晚宴上,NVIDIA 预测 2023 年的收入将达到 260 亿美元,然而最终收入为 600 亿美元。
黄仁勋:
诚实地说,这是历史上最大的预测失败之一,我们是否至少可以承认这一点?这是我的看法。
主持人:
在 2022 年 11 月,我们非常兴奋,因为 Inflection.AI 的 Mustafa 和 Character.AI 的 Noah 等人来访,讨论对他们公司的投资。他们提到,如果不能投资他们的公司,那就投资 NVIDIA 吧,因为全球都在使用 NVIDIA 芯片来开发可能改变世界的应用程序。当然,寒武纪时刻出现在 ChatGPT 上。然而,那时的 25 位分析师过于专注于加密货币赢家,以至于无法察觉世界上的变化。最终,事情变得更大了。
您以简单的语言描述了对 Blackwell 的需求极其旺盛,并认为这种情况将持续下去。当然,未来是未知的。那么,为什么批评者会错误地预判这不会是像思科 2000 年那样的过度建设呢?
黄仁勋:
思考未来的最佳方式是从第一原则出发进行推理。那么,我们正在做的事情的第一原则是什么?首先,我们在做什么?答案是,我们正在重新发明计算。我们刚才提到,未来的计算方式将高度依赖于机器学习。几乎我们所做的一切,每一个应用程序,如Word、Excel、PowerPoint、Photoshop、Premiere、AutoCAD等,都会高度机器学习化。不论你现在使用的应用程序多么手工化,我可以保证,未来它也将转向机器学习化。
所有这些工具的重要性在于,你将拥有机器和智能代理来帮助你使用它们。我们的计算方式已经被重新发明,不会回头。整个计算技术堆栈已经被改造。因此,我们预见软件的开发、内容和使用方式将会有所不同。这是我们当前的基本事实。
接下来我们要思考的是,会发生什么变化?回顾过去,我们曾经有价值一万亿美元的计算机系统。当时我们可能会思考,这些系统是否是我们需要的?放到未来的背景下,答案显然是否定的。我们过去的数据中心拥有大量的CPU,我们知道它们的能力和限制。现在,我们需要将这些价值一万亿美元的数据中心进行现代化改革,这是合理和明智的步骤。
在与那些需要进行现代化改革的人进行对话时,他们正在使用GPU进行这一转变。那么,如果你有500亿美元的资本支出选择,你会选择选项A或B?是为未来构建资本支出,还是像过去一样?现在,过去的资本支出已经摆在那里,摩尔定律几乎走到了尽头。因此,我们需要拿出500亿美元,投入到生成式人工智能中,这会使你的公司更具竞争力。我会投入500亿美元的全部,因为我已经有了四年的基础设施,这是过去的投资。现在,我是从第一原理思考出发来推理,这是他们正在做的事情。聪明人做聪明事。接下来,我们有价值一万亿美元的产能可以建设,以及价值数万亿美元的基础设施。投入1500亿美元怎么样?对。我们在未来四、五年内有价值一万亿美元的基础设施要建设。
我们注意到的第二件事是,软件的编写和使用方式都在变化。未来,我们将有代理,还有数字员工。在收件箱里你会看到这些小点和小脸,未来会出现人工智能的小图标。我不再用C++来编程计算机,而是用提示来编程AI。
这与我日常的沟通方式没什么不同。今天早上,我写了很多电子邮件,提示我的团队。我要描述背景、基本限制和任务,并充分指导他们,以便了解我的需求,尽可能清楚地沟通预期结果。同时,我留出了足够的模糊空间和创意空间,让他们能够带给我惊喜。这和我提示人工智能的方式没有什么不同。
在我们要现代化的IT基础设施之上,将会有一个新的基础设施,即操作这些数字人类的人工智能工厂。它们将全天候运行,我们将为全球各地的公司提供它们。这些人工智能将存在于工厂和自主系统中。因此,世界需要创建一整层计算结构,我称之为人工智能工厂,而这些在今天是不存在的。问题是,它有多大?目前还不知道,可能有几万亿美元。虽然还没有明确答案,但令人振奋的是,我们现在建造的新数据中心的现代化架构与人工智能工厂的架构相同,这是一件好事。
主持人:
你已经说清楚了。你必须更新大约一万亿的旧技术,同时至少有一万亿的新人工智能工作负载即将来临。
大致来说,今年你的收入将达到1250亿美元。有人曾经说过,公司的价值永远不会超过10亿美元。Tam,今天你坐在这里,如果你的市值是数万亿美元中的1250亿美元,那么未来的收入有什么理由不达到现在的两倍或三倍呢?有什么原因让你的收入达不到这个水平吗?
黄仁勋:
如你所知,公司规模受限于市场的大小,就像金鱼只能长到鱼塘的大小。那么,我们的市场是什么?这需要很多想象力。这就是做市商需要考虑未来并创造新市场的原因。回顾过去并试图扩大市场份额是很困难的,因为市场份额的占有者只能做到这么大。然而,做市商的规模可以相当大。
我认为我们的好运在于,从公司成立之初,我们就必须创造一个市场来发展。当时,我们正处于创造3D游戏PC市场的起步阶段。我们基本上发明了这个市场、生态系统以及显卡的整个生态。为一个新的市场进行发明以便更好地服务,这对我们来说非常自然。
主持人:
与创造新市场的人对话后,我们稍微转向模型和OpenAI。正如你所知,OpenAI本周以1500亿美元的估值筹集了65亿美元。我们都参与了其中,真的为他们感到高兴。他们的立场非常出色,团队也表现得很好。据报道,他们今年的收入或营业收入将达到约50亿美元,明年可能会达到100亿美元。如果你观察他们现在的业务,其收入大约是谷歌首次公开募股时的两倍。他们每周平均有2.5亿用户,我们估计这也是谷歌首次公开募股时的两倍。
如果你考虑业务的倍数,并相信明年会达到100亿美元,那么大约是预期收入的15倍,类似于谷歌和Meta首次公开募股时的倍数。想象一下,一家22个月前收入为零、每周平均用户为零的公司。Brad对历史了如指掌。
请与我们谈谈OpenAI作为合作伙伴对你的重要性,以及OpenAI作为推动公众对人工智能认识和使用的重要力量。
黄仁勋:
这是我们这个时代最重要的公司之一,是一家追求AGI愿景的纯人工智能公司。无论其定义是什么,我并不认为定义和时机完全重要。我知道,随着时间推移,人工智能将拥有一个能力路线图,而这个路线图会非常壮观。在此过程中,早在它达到任何人的AGI定义之前,我们就会充分利用它。
现在,我们与数字生物学家、气候技术研究人员、材料研究人员、物理科学家、天体物理学家、量子化学家,以及视频游戏设计师、制造工程师、机器人专家等各行业的重要人物交谈,询问人工智能是否彻底改变了他们的工作方式。然后从中获取这些数据点,回过头来问自己,你想保持多大的怀疑态度?因为他们谈论的不是人工智能有朝一日的概念性好处,而是现在就正在使用人工智能。
无论是农业技术、材料技术还是气候技术,你选择你的技术领域,选择你的科学领域,人工智能正在帮助他们推进工作。在每一个行业、每一个公司、每一所大学,人工智能正在以某种方式改变商业。这真是难以置信,不是吗?我们知道这一点。这种变化是如此真实,仿佛今天就正在发生。因此,我认为ChatGPT的引入标志着人工智能的觉醒,这是难以置信的。我欣赏他们的速度以及推动这一领域发展的独特目标,这非常重要。
主持人:
他们建立了一个经济引擎,可以为下一代模型的前沿发展提供资金。
我认为硅谷的很多人都开始一致认为,整个模型层正在走向商品化。Lama让很多人能够以非常低的成本建立模型。在早期,我们有很多模范公司,如Character、Inflection、Cohere和Mistral。很多人质疑这些公司是否能在经济引擎上达到逃逸速度,从而继续为下一代提供资金。我个人认为,这就是我们看到整合的原因。Open AI显然已经达到了逃逸速度,他们可以为自己的未来提供资金。我不清楚其他许多公司是否能做到这一点。
这是对模型层现状的一个公平评估吗?就像在许多其他市场中一样,我们将整合提供给那些负担得起并且拥有经济引擎和应用程序的市场领导者,让他们能够继续投资?
黄仁勋:
首先,我们要明白,模型和人工智能之间有根本的区别。模型是人工智能的基本要素,它是必要的,但不是充分的。人工智能具备一种能力,但问题是它用于什么目的。举例来说,自动驾驶汽车的人工智能与人类或机器人的人工智能相关,但却并不相同,这与聊天机器人的人工智能相关但也不尽相同。因此,我们必须了解堆栈的分类。
在堆栈的每一层都有机会,但不是每一层都为每个人提供无限的机会。现在,我要说的重点是可以将“模型”这个词替换为“GPU”。这实际上是我们公司32年前的一项重要观察。GPU、图形芯片或GPU与加速计算之间存在着根本的区别。加速计算与我们在AI基础设施方面所做的工作不同。两者有关联,但并不完全相同,它们是相互叠加的。在每一层的抽象中都需要不同的基本技能。擅长构建GPU的人未必知道如何成为一家加速计算公司,尽管有很多人都在构建GPU。我们发明了GPU,但我们不是唯一一家制造GPU的公司。虽然GPU无处不在,但它们并不是用于加速计算的公司。许多人使用它们来进行应用程序加速,但这与加速计算公司不同。因此,非常专业的AI应用程序可能会非常成功,这就是MTIA。但它可能不是那种拥有广泛影响力和广泛能力的公司。你必须决定你想去哪里。所有这些不同的领域可能都有机会,但就像建立公司一样,你必须注意生态系统的转变以及随着时间的推移哪些东西会被商品化。你需要认识到什么是功能、什么是产品、什么是公司。
主持人:
当然,有新的市场进入者拥有资金、智慧和野心。例如,x.ai就是这样的一个公司。有报道称,我和Larry以及Elon共进晚餐,他们说服我提供100,000辆H100。他们在孟菲斯建造了一个大型超级集群。首先,因果关系是存在的。你认为他们建立超级集群的能力如何?
有传言说他们想要另外100,000台H200,以扩大超级集群的规模。首先让我们谈谈x和他们的抱负以及取得的成就。我们是否已经到了200,000和300,000 GPU集群的时代?
黄仁勋:
答案是肯定的。我们应当承认从概念产生,到为NVIDIA准备好设备的数据中心,再到启动、连接并进行首次训练,这之间取得的成就是不容小觑的。短时间内建造了一个巨大的工厂,采用液体冷却、通电和许可,这是非常了不起的。据我所知,世界上只有一个人能做到这一点,那就是Elon。他对工程、建筑、大型系统和资源调配的理解是独一无二的,令人难以置信。然后,当然,他的工程团队也很出色。软件团队、网络团队和基础设施团队都非常优秀。埃隆对此深有体会。
从我们决定出发的那一刻起,我们与工程团队、网络团队、基础设施和计算团队、软件团队一起进行了规划,提前做好所有准备,包括所有基础设施、所有物流以及当天运来的大量技术和设备。NVIDIA 的基础设施和计算基础设施以及所有这些技术都参与了训练。
用时19天。毫无疑问,没有人有充足的休息。但首先,19天是不可思议的。从另一个角度看,你知道19天是多少天吗?这只是几个星期。没错。如果你亲眼目睹,你会发现使用的技术数量令人惊叹。所有的布线和网络架构,NVIDIA 设备的网络与超大规模数据中心的网络非常不同。
指令集架构)、CPU ISA。它们都有自己的C编译器,你可以使用软件并编译到该ISA。这在加速计算中是不可能的,这在并行计算中是不可能的。提出架构的公司必须提出自己的OpenGL。
因此,我们凭借名为CUDNN的领域特定库彻底改变了深度学习。如果没有CUDNN,就没有人会谈论它,因为它是PyTorch和TensorFlow下面的一层,在过去,它是CAFE和Theano,现在是Triton。有很多不同的框架。因此,特定领域的库CUDNN、特定领域的库Optics,我们有特定领域的库CuQuantum、Rapids,领域列表继续增加。
主持人:
行业特定的算法位于所有人都关注的 PyTorch 层之下。正如我常听到的...
黄仁勋:
如果没有发明 LLM,那么上面的任何应用程序都无法运行。NVIDIA 之所以出色,正是因为我们在数学和算法方面的优势。在科学和底层架构的结合上,我们同样非常擅长。
主持人:
现在,所有注意力终于集中在推理上。我记得,两年前,布拉德和我与你共进晚餐,曾问了一个问题:你认为在推理方面的护城河会像在训练方面一样强大吗?
黄仁勋:我确信它会更大。
主持人:你刚才提到了很多元素,比如可组合性等。对于客户来说,在两者之间保持灵活性是非常重要的。既然我们处于推理时代,你能否谈谈相关内容?
黄仁勋:
推理本质上就是大规模训练。因此,如果你训练得好,很可能推理也会很好。如果你在这个架构上构建它,即使没有特别的考虑,它也会在这个架构上运行。虽然可以针对其他架构进行优化,但由于已经在 NVIDIA 上构建,它至少会在 NVIDIA 上运行。
另一个方面是资本投资。当你训练新模型时,自然希望使用最新的设备,这就留下了你昨天使用的设备,而这些设备非常适合推理。与 CUDA 兼容的新基础设施背后,有一系列免费设备和基础设施。我们严格确保兼容性,以便现有系统保持卓越。
同时,我们投入大量精力重新发明新算法,以确保 Hopper 架构比购买时更好。我们的基础设施因此持续高效。改进的新算法和新架构提升了每一个已安装的基础,包括 Hopper、Ampere,甚至 Volta。Sam 刚刚告诉我,他们最近才停用了 OpenAI 的 Volta 基础设施。因此,我认为我们已经为安装基础打下了痕迹。就像所有计算一样,安装基础非常重要。NVIDIA 的技术存在于每一个云,并一直延伸到边缘设备。因此,在云端创建的 Vela 视觉语言模型无需修改即可在机器人的边缘完美运行,并且完全兼容 CUDA。
我认为架构兼容性对于大型系统来说至关重要,无论是 iPhone 还是其他设备。我相信安装基础对于推理过程非常重要。然而,真正让我们受益的是,当我们训练这些大型语言模型及其新架构时,我们能思考如何在未来的某个时机创建在推理方面表现出色的架构。
因此,我们一直在研究推理模型的迭代模型,以及怎样为用户的个人代理创建互动性强的推理体验。您不希望在说完话之后还要等待片刻才能得到响应,您希望它能快速与您互动。那么,我们如何创建这样的系统呢?最终的成果就是 NVLink。
NVLink 让我们能够利用这些非常适合训练的系统,而在您完成训练后,推理性能也能达到非常出色的水平。因此,优化到第一个标记的时间非常重要。实际上,这一过程非常困难,因为到第一个标记的时间需要大量带宽。如果您的上下文也很丰富,那么您会需要大量的触发器。因此,您需要无限量的带宽和触发器才能实现几毫秒的响应时间。
我们为此发明了 Grace Blackwell NVLink。
主持人:
由于时间关系,这里还有更多问题。
黄仁勋:听着。让我们一直做下去,直到做对为止。
主持人:
我喜欢这种做法。现在我们不必担心时间了。
本周早些时候我和安迪·贾西碰面,他提到我们即将推出 Tranium 和 Inferencia。我认为大多数人可能觉得这对 NVIDIA 是个问题。但他接着说,NVIDIA 是我们的重要合作伙伴,并将继续是我们的重要合作伙伴。据我所知,未来世界将依靠 NVIDIA 的技术运行。
因此,当您考虑构建定制的 ASIC 时,它们将用于特定应用,比如 Meta 的推理加速器、亚马逊的 Tranium 或者谷歌的 TPU。关于供应短缺的问题,我们需要思考这些新的技术动态是否会改变现状,或者它们是否只是对现有系统的一种补充。
黄仁勋:
我们现在正在做的是不同的事情,具体来说,NVIDIA 正在为一个全新的世界构建计算平台,这个世界包括机器学习、生成 AI 和代理 AI 等。
经过 60 年的计算,我们深刻地重塑了整个计算堆栈。无论是从编程到机器学习,还是从 CPU 向 GPU 的转变,以及从传统软件到人工智能的演变,应用程序的形式都在改变。因此,计算堆栈和技术堆栈的各个方面都发生了剧变。
我们的目标是创建一个可以随时随地使用的计算平台,这正是我们工作复杂性的源泉。我们正在构建整个人工智能基础设施,并将其视作一台完整的计算机。我曾说过,现在的数据中心是计算的单位。当我想到一台计算机时,关注的不仅是芯片,而是整个系统:所有的软件、编排和内部的机器,构成了我的计算机。
我们每年都在努力创造一台新的计算机,其性能提升两到三倍,成本降低两到三倍,能源效率提高两到三倍。这种进步令人难以置信。因此,我们建议客户逐年分批购买新设备,以维持在成本上的平均水平,这样做的好处是在架构上保持兼容性。
目前,以我们这样的改进速度来构建单独的系统是非常困难的,而且双重困难之处在于,我们不仅仅将这些创新作为基础设施或服务出售,而是将它们全部分解并集成到多个平台中,比如 GCP、AWS、Azure 和其他服务中。这种做法确实是有意义的。每个人的集成都各不相同。我们必须将所有的架构库、算法和框架集成到他们的系统中,包括我们的安全系统和网络。我们基本上每年都进行十次这样的集成。
这就是奇迹。这种每年的尝试让我感到疯狂,想想这件事我就快要疯了。
主持人:
那么,是什么驱使你每年这样做呢?
克拉克刚刚从台北、韩国和日本回来,与你们所有的供应伙伴会面,你们与他们有长达十年的关系。这些关系对于构建竞争护城河的组合数学有多重要?
黄仁勋:
当你系统地分解时,越是分解,大家就越惊讶于整个电子生态系统如何致力于与我们合作,以构建一个集成到所有不同生态系统中的计算机立方体,并实现无缝协调。我们向后传播了 API、方法、业务流程和设计规则,同时向前传播方法、架构和 API,这些已经固化并随着我们的发展而不断演变。
这些 API 必须结合在一起,最后,台湾和世界各地制造的所有东西都会在 Azure 数据中心结合在一起。
主持人:
人们只需调用 OpenAI API,它就可以工作。
黄仁勋:
没错。这是一个完整的链条,是我们发明的庞大计算基础设施。整个地球都在与我们合作,它已经融入每一个地方。
该系统可以通过戴尔和 HPE 销售,托管在云端,并一直接近边缘。现在,人们在机器人系统和自动驾驶汽车中使用它,它们在架构上都是兼容的。相当疯狂。
克拉克,我不想让你觉得我没有回答这个问题。事实上,我回答了。关于ASIC的部分,我指的是我们正在做一些不同的事情。作为公司,我们希望了解具体情况,并且我对公司和生态系统周围的一切都了如指掌。我清楚其他人在做什么,有时这对我们有利,有时则不然。我非常清楚这一点,但这并没有改变公司的目标。公司的唯一目标是构建一个能够无处不在的平台架构。
NVIDIA的定位是做市商,而非从任何人那里夺取市场份额。如果你查看我们的幻灯片,会发现我们从不谈论市场份额。内部讨论的都是我们如何创造下一个事物?下一个可以在飞轮中解决的问题是什么?如何更好地为人们服务?如何将过去可能需要一年的飞轮缩短到一个月?在考虑这些不同事情的同时,我们确信我们的使命非常独特。唯一的问题是这项使命是否必要。
所有伟大的公司都应该以使命为核心,关键在于你在做什么,以及这是否必要、是否有价值、是否具有影响力和帮助他人。我相信你作为一家生成式人工智能初创公司的开发人员,正在决定如何成为一家公司。你不必立即选择支持哪家ASIC,选择Akuta意味着你可以随时改变主意,而我们是通往人工智能世界的入口。一旦你决定加入我们的平台,其他决定可以推迟。在与所有GCP、Azure合作时,我们也提前几年向他们展示我们的路线图,他们从未向我们展示他们的ASIC路线图,但这从未冒犯过我们。如果您有一个唯一且有意义的目标,并且您的使命对您和他人都很珍贵,那么您就可以保持透明。我在 GTC 上的路线图是公开的,而在 Azure、AWS 等方面的合作伙伴看到的路线图则更加深入。我们在这些平台上的工作没有问题,即使他们也在制造自己的 A6。
主持人:
我认为,当人们关注业务时,会说最近对 Blackwell 的需求是疯狂的。在工作中,最困难的部分之一是在无法提供足够的计算资源时对人们说“不”,这会带来情感上的负担。然而,批评者认为这只是暂时现象,就像 2000 年的思科一样,认为我们在过度建设光纤,预示着繁荣与萧条并存。
令我想起了 2023 年初的一次晚宴。在 1 月 23 日的晚宴上,NVIDIA 预测 2023 年的收入将达到 260 亿美元,然而最终收入为 600 亿美元。
黄仁勋:
诚实地说,这是历史上最大的预测失败之一,我们是否至少可以承认这一点?这是我的看法。
主持人:
在 2022 年 11 月,我们非常兴奋,因为 Inflection.AI 的 Mustafa 和 Character.AI 的 Noah 等人来访,讨论对他们公司的投资。他们提到,如果不能投资他们的公司,那就投资 NVIDIA 吧,因为全球都在使用 NVIDIA 芯片来开发可能改变世界的应用程序。当然,寒武纪时刻出现在 ChatGPT 上。然而,那时的 25 位分析师过于专注于加密货币赢家,以至于无法察觉世界上的变化。最终,事情变得更大了。
您以简单的语言描述了对 Blackwell 的需求极其旺盛,并认为这种情况将持续下去。当然,未来是未知的。那么,为什么批评者会错误地预判这不会是像思科 2000 年那样的过度建设呢?
黄仁勋:
思考未来的最佳方式是从第一原则出发进行推理。那么,我们正在做的事情的第一原则是什么?首先,我们在做什么?答案是,我们正在重新发明计算。我们刚才提到,未来的计算方式将高度依赖于机器学习。几乎我们所做的一切,每一个应用程序,如Word、Excel、PowerPoint、Photoshop、Premiere、AutoCAD等,都会高度机器学习化。不论你现在使用的应用程序多么手工化,我可以保证,未来它也将转向机器学习化。
所有这些工具的重要性在于,你将拥有机器和智能代理来帮助你使用它们。我们的计算方式已经被重新发明,不会回头。整个计算技术堆栈已经被改造。因此,我们预见软件的开发、内容和使用方式将会有所不同。这是我们当前的基本事实。
接下来我们要思考的是,会发生什么变化?回顾过去,我们曾经有价值一万亿美元的计算机系统。当时我们可能会思考,这些系统是否是我们需要的?放到未来的背景下,答案显然是否定的。我们过去的数据中心拥有大量的CPU,我们知道它们的能力和限制。现在,我们需要将这些价值一万亿美元的数据中心进行现代化改革,这是合理和明智的步骤。
在与那些需要进行现代化改革的人进行对话时,他们正在使用GPU进行这一转变。那么,如果你有500亿美元的资本支出选择,你会选择选项A或B?是为未来构建资本支出,还是像过去一样?现在,过去的资本支出已经摆在那里,摩尔定律几乎走到了尽头。因此,我们需要拿出500亿美元,投入到生成式人工智能中,这会使你的公司更具竞争力。我会投入500亿美元的全部,因为我已经有了四年的基础设施,这是过去的投资。现在,我是从第一原理思考出发来推理,这是他们正在做的事情。聪明人做聪明事。接下来,我们有价值一万亿美元的产能可以建设,以及价值数万亿美元的基础设施。投入1500亿美元怎么样?对。我们在未来四、五年内有价值一万亿美元的基础设施要建设。
我们注意到的第二件事是,软件的编写和使用方式都在变化。未来,我们将有代理,还有数字员工。在收件箱里你会看到这些小点和小脸,未来会出现人工智能的小图标。我不再用C++来编程计算机,而是用提示来编程AI。
这与我日常的沟通方式没什么不同。今天早上,我写了很多电子邮件,提示我的团队。我要描述背景、基本限制和任务,并充分指导他们,以便了解我的需求,尽可能清楚地沟通预期结果。同时,我留出了足够的模糊空间和创意空间,让他们能够带给我惊喜。这和我提示人工智能的方式没有什么不同。
在我们要现代化的IT基础设施之上,将会有一个新的基础设施,即操作这些数字人类的人工智能工厂。它们将全天候运行,我们将为全球各地的公司提供它们。这些人工智能将存在于工厂和自主系统中。因此,世界需要创建一整层计算结构,我称之为人工智能工厂,而这些在今天是不存在的。问题是,它有多大?目前还不知道,可能有几万亿美元。虽然还没有明确答案,但令人振奋的是,我们现在建造的新数据中心的现代化架构与人工智能工厂的架构相同,这是一件好事。
主持人:
你已经说清楚了。你必须更新大约一万亿的旧技术,同时至少有一万亿的新人工智能工作负载即将来临。
大致来说,今年你的收入将达到1250亿美元。有人曾经说过,公司的价值永远不会超过10亿美元。Tam,今天你坐在这里,如果你的市值是数万亿美元中的1250亿美元,那么未来的收入有什么理由不达到现在的两倍或三倍呢?有什么原因让你的收入达不到这个水平吗?
黄仁勋:
如你所知,公司规模受限于市场的大小,就像金鱼只能长到鱼塘的大小。那么,我们的市场是什么?这需要很多想象力。这就是做市商需要考虑未来并创造新市场的原因。回顾过去并试图扩大市场份额是很困难的,因为市场份额的占有者只能做到这么大。然而,做市商的规模可以相当大。
我认为我们的好运在于,从公司成立之初,我们就必须创造一个市场来发展。当时,我们正处于创造3D游戏PC市场的起步阶段。我们基本上发明了这个市场、生态系统以及显卡的整个生态。为一个新的市场进行发明以便更好地服务,这对我们来说非常自然。
主持人:
与创造新市场的人对话后,我们稍微转向模型和OpenAI。正如你所知,OpenAI本周以1500亿美元的估值筹集了65亿美元。我们都参与了其中,真的为他们感到高兴。他们的立场非常出色,团队也表现得很好。据报道,他们今年的收入或营业收入将达到约50亿美元,明年可能会达到100亿美元。如果你观察他们现在的业务,其收入大约是谷歌首次公开募股时的两倍。他们每周平均有2.5亿用户,我们估计这也是谷歌首次公开募股时的两倍。
如果你考虑业务的倍数,并相信明年会达到100亿美元,那么大约是预期收入的15倍,类似于谷歌和Meta首次公开募股时的倍数。想象一下,一家22个月前收入为零、每周平均用户为零的公司。Brad对历史了如指掌。
请与我们谈谈OpenAI作为合作伙伴对你的重要性,以及OpenAI作为推动公众对人工智能认识和使用的重要力量。
黄仁勋:
这是我们这个时代最重要的公司之一,是一家追求AGI愿景的纯人工智能公司。无论其定义是什么,我并不认为定义和时机完全重要。我知道,随着时间推移,人工智能将拥有一个能力路线图,而这个路线图会非常壮观。在此过程中,早在它达到任何人的AGI定义之前,我们就会充分利用它。
现在,我们与数字生物学家、气候技术研究人员、材料研究人员、物理科学家、天体物理学家、量子化学家,以及视频游戏设计师、制造工程师、机器人专家等各行业的重要人物交谈,询问人工智能是否彻底改变了他们的工作方式。然后从中获取这些数据点,回过头来问自己,你想保持多大的怀疑态度?因为他们谈论的不是人工智能有朝一日的概念性好处,而是现在就正在使用人工智能。
无论是农业技术、材料技术还是气候技术,你选择你的技术领域,选择你的科学领域,人工智能正在帮助他们推进工作。在每一个行业、每一个公司、每一所大学,人工智能正在以某种方式改变商业。这真是难以置信,不是吗?我们知道这一点。这种变化是如此真实,仿佛今天就正在发生。因此,我认为ChatGPT的引入标志着人工智能的觉醒,这是难以置信的。我欣赏他们的速度以及推动这一领域发展的独特目标,这非常重要。
主持人:
他们建立了一个经济引擎,可以为下一代模型的前沿发展提供资金。
我认为硅谷的很多人都开始一致认为,整个模型层正在走向商品化。Lama让很多人能够以非常低的成本建立模型。在早期,我们有很多模范公司,如Character、Inflection、Cohere和Mistral。很多人质疑这些公司是否能在经济引擎上达到逃逸速度,从而继续为下一代提供资金。我个人认为,这就是我们看到整合的原因。Open AI显然已经达到了逃逸速度,他们可以为自己的未来提供资金。我不清楚其他许多公司是否能做到这一点。
这是对模型层现状的一个公平评估吗?就像在许多其他市场中一样,我们将整合提供给那些负担得起并且拥有经济引擎和应用程序的市场领导者,让他们能够继续投资?
黄仁勋:
首先,我们要明白,模型和人工智能之间有根本的区别。模型是人工智能的基本要素,它是必要的,但不是充分的。人工智能具备一种能力,但问题是它用于什么目的。举例来说,自动驾驶汽车的人工智能与人类或机器人的人工智能相关,但却并不相同,这与聊天机器人的人工智能相关但也不尽相同。因此,我们必须了解堆栈的分类。
在堆栈的每一层都有机会,但不是每一层都为每个人提供无限的机会。现在,我要说的重点是可以将“模型”这个词替换为“GPU”。这实际上是我们公司32年前的一项重要观察。GPU、图形芯片或GPU与加速计算之间存在着根本的区别。加速计算与我们在AI基础设施方面所做的工作不同。两者有关联,但并不完全相同,它们是相互叠加的。在每一层的抽象中都需要不同的基本技能。擅长构建GPU的人未必知道如何成为一家加速计算公司,尽管有很多人都在构建GPU。我们发明了GPU,但我们不是唯一一家制造GPU的公司。虽然GPU无处不在,但它们并不是用于加速计算的公司。许多人使用它们来进行应用程序加速,但这与加速计算公司不同。因此,非常专业的AI应用程序可能会非常成功,这就是MTIA。但它可能不是那种拥有广泛影响力和广泛能力的公司。你必须决定你想去哪里。所有这些不同的领域可能都有机会,但就像建立公司一样,你必须注意生态系统的转变以及随着时间的推移哪些东西会被商品化。你需要认识到什么是功能、什么是产品、什么是公司。
主持人:
当然,有新的市场进入者拥有资金、智慧和野心。例如,x.ai就是这样的一个公司。有报道称,我和Larry以及Elon共进晚餐,他们说服我提供100,000辆H100。他们在孟菲斯建造了一个大型超级集群。首先,因果关系是存在的。你认为他们建立超级集群的能力如何?
有传言说他们想要另外100,000台H200,以扩大超级集群的规模。首先让我们谈谈x和他们的抱负以及取得的成就。我们是否已经到了200,000和300,000 GPU集群的时代?
黄仁勋:
答案是肯定的。我们应当承认从概念产生,到为NVIDIA准备好设备的数据中心,再到启动、连接并进行首次训练,这之间取得的成就是不容小觑的。短时间内建造了一个巨大的工厂,采用液体冷却、通电和许可,这是非常了不起的。据我所知,世界上只有一个人能做到这一点,那就是Elon。他对工程、建筑、大型系统和资源调配的理解是独一无二的,令人难以置信。然后,当然,他的工程团队也很出色。软件团队、网络团队和基础设施团队都非常优秀。埃隆对此深有体会。
从我们决定出发的那一刻起,我们与工程团队、网络团队、基础设施和计算团队、软件团队一起进行了规划,提前做好所有准备,包括所有基础设施、所有物流以及当天运来的大量技术和设备。NVIDIA 的基础设施和计算基础设施以及所有这些技术都参与了训练。
用时19天。毫无疑问,没有人有充足的休息。但首先,19天是不可思议的。从另一个角度看,你知道19天是多少天吗?这只是几个星期。没错。如果你亲眼目睹,你会发现使用的技术数量令人惊叹。所有的布线和网络架构,NVIDIA 设备的网络与超大规模数据中心的网络非常不同。
一个节点中的电线数量,计算机背后的电线,令人难以置信地复杂。这项技术与所有软件的整合非常了不起。我非常感谢 Elon 和 X 团队,他们完成的工程工作、规划工作以及所有其他内容是独一无二的,以前从未有人做到过。
简单来说,使用 100,000 个 GPU 作为一个集群,无疑是地球上最快的超级计算机。建造一台超级计算机通常需要三年的规划时间,然后需要一年的时间让设备全部运转起来。我们在19天内完成了这项工作。
主持人:
这要归功于 NVIDIA 平台,整个流程都得到了强化。
黄仁勋:
一切都已经正常运转,还有大量的 X 算法、X 框架、X 堆栈等整合。但规划工作非常出色。
主持人:
Elon 就是 N of one。在回答问题时,我们提到了200,000 到 300,000 个 GPU 集群。没错。可以扩展到500,000吗?可以扩展到一百万吗?你的产品需求是否取决于它扩展到数百万?
黄仁勋:
最后一部分是否定的。我的感觉是分布式训练必须有效,并且分布式计算将被发明。某种形式的联合学习和异步分布式计算将会被发现,我对此非常热情和乐观。
当然,要意识到的是,过去扩展定律是针对预训练的。现在我们已经转向多模态和合成数据生成。后训练的规模已经扩大到令人难以置信,包括合成数据生成、奖励系统和基于强化学习的方法。推理扩展也达到了顶峰。
一个模型在回答之前可能已经进行了10,000次内部推理,完成了树搜索、强化学习,甚至进行了一些模拟和反思。它可能查找了一些数据和信息,所以它的上下文可能相当大。这种类型的智能就是我们所做的。
因此,如果您进行了计算,并将其与模型大小和计算能力每年增加4倍的趋势相结合,那么这种能力和扩展就变得十分重要。另一方面,需求在使用中持续增长。我们是否认为需要数百万个GPU?毫无疑问,是的。
问题是,我们如何从数据中心的角度来构建它?这在很大程度上取决于数据中心的功率是千兆瓦还是250兆瓦。我的感觉是,两者兼而有之。
主持人:
分析师总是关注当前的架构赌注,但这次谈话最大的收获之一是,你正在考虑整个生态系统和未来许多年。
因为NVIDIA正在扩展规模以满足未来的需求,并不是只依赖于一个拥有50万或一百万个GPU集群的世界。等到有了分布式训练,就会编写软件来实现它。
黄仁勋:
没错。记住,如果没有我们七年前开发的Megatron,这些大型训练工作的扩展就不可能实现。对。我们发明了Megatron、Nickel、GPU Direct,以及RDMA相关的所有工作。这些进展使得管道并行变得简单。所有正在进行的模型并行和分布式训练的突破,所有批处理等等,都是因为我们在早期做出了努力。现在我们正在为未来、下一代进行早期的工作。
主持人:接下来,我想谈谈Strawberry和O1。我尊重你的时间。
黄仁勋:各位,我有充足的时间。
主持人:
你非常慷慨。
首先,我觉得他们用O1签证来命名O1是很酷的。O1签证旨在招募世界上最优秀、聪明的人才并将他们引入美国。我知道我们都对此非常热衷。我喜欢这个想法,就是建立一个可以思考的模型,把我们带入可扩展智能的下一个层次。这是对这样一个事实的致敬:正是那些通过移民来到美国的人,他们的集体智慧造就了我们。当然,这也是关于外星智慧的。
当然,这一切由我们的朋友诺姆·布朗主导。他在Meta工作,曾参与Pluribus和Cicero项目。将推理时间推理作为可扩展智能的全新载体,与仅仅是建立更大的模型相比较,有多大意义?
黄仁勋:
意义重大。我认为很多智能不能先验完成。很多计算,以及计算的重新排序,都无法先验完成。所以很多事情只能在运行时完成。
无论从计算机科学还是智能的角度来看,许多事情都需要背景、具体情况以及你所寻找的答案类型。有时,一个快速答案就足够了,这取决于答案的影响和使用性质。因此,有些答案可以让AI思考一个晚上,甚至一周。我完全可以想象自己向人工智能发送一个提示,告诉它,“思考一个晚上,明天再告诉我你的最佳答案和理由。”从产品角度看,现在智能的细分将会有一次性的版本。当然,有些任务可能只需要五分钟。智能层会根据正确的用例选择合适的模型来解决这些问题。
主持人:
昨晚我们使用了高级语音模式和 O1 预览,我正在辅导我儿子参加 AP 历史考试。感觉就像世界上最好的 AP 历史老师就在你身边思考这些问题,令人惊叹。
今天,你的40%收入来自推理,它在逐步准备好了,因为有推理链的出现。这将带来十亿倍的增长。
黄仁勋:
许多人还没有完全理解这一点。我们谈论的行业正如同工业革命,这是智能生产,将实现十亿倍的增长。
主持人:
因此,每个人都高度关注 NVIDIA,就像在更大型的模型上进行训练。即使今天的收入是 50-50,未来将进行更多的推理。训练虽然重要,但推理的增长将远超训练。这几乎难以想象其他情况。
黄仁勋:
我们的目标是让人们最终能在社会中有所作为。因此,虽然训练模型很重要,但更重要的是推断它们。
主持人:
你是否已经在自己的业务中使用推理链和O1之类的工具来改善自己的业务?
黄仁勋:
我们今天的网络安全系统依赖于其自身的代理来运行。我们有代理帮助设计芯片,比如霍珀和布莱克威尔的出现都是依赖这些代理。我们公司内部有 AI 芯片设计师、AI 软件工程师、AI 验证工程师等,因为我们有能力,并希望自行探索技术。
主持人:
当我今天走进大楼时,有人过来说,请询问 Jensen 关于文化的问题。所有的一切都与文化息息相关。
在业务方面,我们经常谈论适应性、效率,以及能够快速执行的扁平化组织和小型团队。NVIDIA 确实行事独特。每位员工每年创造的收入约为 400 万美元,利润或自由现金流约为 200 万美元。你建立了一种高效的文化,真正释放了创造力、创新、主人翁精神和责任感,打破了传统的职能管理模式。大家都喜欢谈论你的那些直接下属。
利用人工智能是否能让你继续发挥超强创造力,同时又保持高效?
黄仁勋:
毫无疑问能够做到。我希望有一天......NVIDIA 目前有 32,000 名员工。我们在以色列的员工有 4,000 家庭,我希望他们一切都好。我希望 NVIDIA 有一天能成为一家拥有 50,000 名员工和 1 亿名人工智能助手的公司。这些 AI 将分布在各个群体中。
我们将拥有一个完整的 AI 目录,这些 AI 在各自领域表现出色。我们的收件箱也会装满与我们合作的 AI 目录,我们知道这些 AI 非常擅长我们的技能。因此,AI 将招募其他 AI 来解决问题。AI 将在 Slack 频道中相互交流,人类亦是如此。我们将形成一个庞大的员工基础,其中一些是数字和 AI,另一些是生物的,我甚至希望其中一些是 megatronics 的。
主持人:
从商业角度来看,这还是一个被严重误解的概念。你刚刚描述了一家公司,它的产出相当于一家拥有 15 万名员工的公司,但你仅用了 5 万名员工。
黄仁勋:没错。
主持人:
现在,你并没有说要解雇所有员工。你仍在增加组织中的员工数量,但该组织的产出将大幅增加。
黄仁勋:
这常常被误解。人工智能不会取代人类,而是会改变每一项工作。对,人工智能将对人们对工作的看法产生巨大影响。让我们承认这一点。对,人工智能有可能带来令人难以置信的好处。我们必须构建安全的人工智能。许多人忽视了一点,当公司利用人工智能提高生产力时,可能体现为更好的收益或增长,或者两者都有。当这种情况发生时,首席执行官的下一步可能并不是裁员,因为公司在成长。我们的想法比我们能探索的更多,我们需要 AI 来帮助我们思考,然后再实现自动化。人工智能可以帮助我们完成自动化的部分,也能够帮助我们思考问题。然而,这仍然需要我们去明确要解决的问题。这家公司需要解决哪些问题?我们要选择这些想法,并找出自动化和扩展的方法。因此,随着效率提高,我们将雇佣更多的人。
人们常常忘记这一点。如果你回顾过去,很显然我们今天的想法比200年前多得多。这就是为什么尽管我们在疯狂地实现自动化, GDP 更大,就业更多。
主持人:
这是我们正在进入的这个时期的一个非常重要的点。
第一,几乎所有人类生产力和繁荣都是过去 200 年自动化和技术的副产品。从亚当·斯密到熊彼特的创造性破坏理论,都可以看出过去 200 年人均 GDP 增长的图表,它一直在加速。
这让我想到一个问题。如果你看看 90 年代,美国的生产力增长率大约是每年 2.5% 到 3%。进入 21 世纪后,这一速度放缓到 1.8% 左右。过去 10 年是生产力增长最慢的十年,这是我们有记录以来最慢的速度。许多人在争论其原因,但如果世界像你描述的那样,我们正处于人类生产力急剧扩张的边缘吗?
黄仁勋:
这是我们的希望。当然,我们生活在这个世界上,因此我们拥有直接的证据。我们有直接的证据,证明无论是孤立的案例还是个别研究人员,人工智能在以难以想象的超大规模推动科学探索。这体现了生产力的提升。我们以极高的速度设计出令人难以置信的芯片,其复杂性和计算机复杂性呈指数级增长,而公司员工数量却没有相应增加,这是生产力的衡量标准。
我们开发的软件质量持续提升,这依赖于人工智能和超级计算机的支持,而员工数量增长却几乎是线性的,这同样显示了生产力的提高。在各种行业中,我们可以抽查到相似的现象。我可以亲自验证,我们在商业领域的变化无可否认。虽然我们可能会过度自适应,但这些现象反映了我们观察到的趋势,并可能在其他行业中得到体现。
毋庸置疑,智力是世界上最有价值的商品。现在,我们正准备大规模生产它。每个人都需要理解,当被比自己优秀的人工智能包围时,会发生什么。这让我想起自己的职业生涯,我有60个直接下属,他们之所以加入我的团队,是因为他们在各自领域中是世界级的,并且他们的表现优于我。但我与他们能够无障碍地互动,并轻松设计和编程这些互动。这意味着每个人都将学会成为首席执行官,成为人工智能代理的首席执行官。他们将利用创造力、意志力和必要的推理能力来分解问题,从而编程这些人工智能,帮助他们实现目标。
主持人:
你提到了人工智能的协调和安全性,还提到中东正在发生的悲剧。我们在世界各地拥有大量的自主权,许多人工智能正在被广泛应用。关于人工智能与安全的讨论尤为重要,我们需要确保人工智能的发展对人类来说是积极的净收益,而不是演变成一个没有目的的反乌托邦。马克·扎克伯格曾指出,打败恶意人工智能的方法是让优良的人工智能更加先进。
你如何描述我们的观点,即我们如何确保这对人类来说是积极的净收益,而不是让我们留在这个没有目的的反乌托邦世界中?
黄仁勋:
关于安全的对话确实很重要,而且很好。
抽象的观点,这种将人工智能视为一个庞大的神经网络的概念性观点,并不是那么好。众所周知,人工智能和大型语言模型是相关的,但并不相同。
首先,开放源码的人工智能模型非常关键,它允许整个研究社区、各行各业的企业共同参与,学习如何利用和应用这种技术。其次,许多人低估了为保障人工智能安全而进行的技术研发。这些技术用于管理数据、训练和协调人工智能、生成合成数据、扩展知识,并减少误导信息。此外,还有为绘图、通知、护栏以及监视其他人工智能所创建的安全系统。
我们正在为整个行业建立必要的基础设施,包括方法论、红队、流程、模型卡、评估和基准测试系统等,所有这些都在迅速发展之中。然而,这些努力常常被低估。
主持人:
外界很少意识到这些没有受到政府法规的强制,而是行业参与者为应对关键问题所自发采取的最佳实践。
黄仁勋:
我们必须开始将人工智能视为一种工程系统,该系统需要从基础原理精心设计和彻底测试。
最后,监管也是一大关注点。虽然对重要技术进行适度监管是必要的,但须避免过度监管,特别是应用层面的监管更为重要。人工智能应该作为一种应用能力来对待,监管应有助于其积极发展,而不是阻碍创新。
首先,各类机构如FAA、NHTSA、FDA等,无论怎么说,都是为了监管技术应用而设立的。这些不同的生态系统如今必须规范融入人工智能的技术应用。因此,我认为我们不能忽视为人工智能制定的大量法规,也不能依赖某个虚构的宇宙银河人工智能委员会的管理。所有这些不同的监管机构的成立都是有其原因的。
主持人:
现在回到我们的核心理念。如果我不提及开源点,我的合伙人比尔·格利可能会不高兴。你们推出了一个重要且强大的开源模型——Neutron,显然Meta也在为开源贡献力量。我在阅读Twitter时,看到关于开源与封闭的争论非常热烈。第一个问题是,你如何看待自己的开源模型保持前沿能力?第二个问题是,你是否认为开源模式和推动商业运营的闭源模式将是未来的发展方向?这两者是否会在安全上形成健康的紧张关系?
黄仁勋:
开源与闭源确实和安全有关,但不仅限于安全。比如,闭源模型作为经济模型的引擎毫无疑问是合适的,它对于维持创新是必要的。我完全支持这一点。我认为,把开源与闭源对立起来是不对的,它们应该是相辅相成的。开放是激活许多行业的必要条件。没开源的话,各类科学领域如何能够在人工智能上实现突破?
因为他们需要开发特定领域的人工智能,而这需要依赖开源模型的支持。而这些特定的人工智能系统需要开源模型来创建,它们是相关但不同的。仅仅拥有一个开源模型,并不意味着拥有了一个人工智能。因此,金融服务、医疗保健、交通运输等诸多行业,以及科学领域,因有开源而得以实现创新。
最后,关于对开源模型的需求,我们的开源模型首先是Llama,显然,Mark和他们的努力成果令人难以置信。Nemotron 的开发让人感到超乎寻常。我们创建这个模型的目的是为了生成合成数据。表面上看,一个人工智能坐在那里循环生成数据以自我学习似乎不太可靠。在那个无限循环中能重复多少次值得怀疑。不过,我设想的情景是,像把一个超级聪明的人关进软垫房间一个月,结果未必是一个更聪明的人。然而,如果我们将两三个人放在一起,配合不同的人工智能和知识分布,通过问答互动,每个人都可以变得更聪明。
因此,我们可以让人工智能模型进行交换、互动和辩论,并通过强化学习和合成数据生成等方式来提升彼此的能力。我们的模型 Nemotron 340B 是世界上最优秀的奖励系统模型,它在批判分析上也极具优势。这使它成为增强其他模型的理想选择。无论其他模型多么出色,我都建议使用 Nemotron 340B 来进行提升。这款模型已经证明了它能让 Llama 以及其他所有模型变得更好。
主持人:
作为曾在2016年交付DGX-1的人,这段旅程实在不可思议且令人惊叹。您不但生存下来,而且在早期阶段取得这样的成就是非常了不起的。2022年,我们迎来了科技的寒武纪时刻。我经常被问到您能坚持做多久这样的问题。作为一个拥有60个直接下属并推动这场革命的人,您玩得开心吗?是否还有其他更愿意做的事情?
黄仁勋:
我可以肯定地说,我玩得很开心,我无法想象还有什么比现在所做的事情更让我愿意去做。但这并不意味着我们的工作总是充满乐趣的,它并非总是这样,也没有指望它永远是如此。我对工作一直都很认真,也很重视我们的责任和贡献。虽然工作并不总是充满乐趣,但我一直很享受它。就像生活中的所有方面,无论是家人、朋友还是孩子,并不总是有趣,但我们一直都深深地喜欢着这一切。
关于工作的持续性,真正的问题在于我能保持相关性多久。而这取决于我如何继续学习。如今,我对此更为乐观,部分原因是人工智能的存在。我几乎每天都在使用人工智能,所有的研究也都涉及到它。即使我已经知道答案,也会通过人工智能反复检查每个问题,以发现新的见解。
工智能作为导师、助手和头脑风暴的伙伴,能够帮助反复检查我的工作,这对于信息工作者而言是一场革命。我的输出是信息,这使我的社会贡献相当非凡。我希望能保持这种相关性,继续做出贡献,因为这项工作对我来说非常重要,我想继续追求。
我对目前的生活质量感到难以置信,并无法想象错过这样的时刻。
主持人:
这是我们职业生涯中最重要的时刻之一。感谢这种思维伙伴关系,它让我们变得更聪明。也感谢你作为领导层的一部分,引领这一进程。真的很喜欢这样的合作。谢谢。
黄仁勋:
谢谢,干得好。
我对目前的生活质量感到难以置信,并无法想象错过这样的时刻。
主持人:
这是我们职业生涯中最重要的时刻之一。感谢这种思维伙伴关系,它让我们变得更聪明。也感谢你作为领导层的一部分,引领这一进程。真的很喜欢这样的合作。谢谢。
黄仁勋:
谢谢,干得好。