色人阁第四色
出品|虎嗅科技组
作家|余杨
剪辑|苗正卿
色哥哥头图|视觉中国
北京时期3 月 19 日凌晨 ,NVIDIA CEO 黄仁勋GTC(GPU技巧大会)上发表了主题演讲,数千名 AI 前锋、开发者和计谋带领者线上相聚,共享 AI 与加速盘算等领域的最新碎裂,以及对于机器东谈主、代理式 AI、物理 AI 等热点话题的专题有计划。
演讲全球同步直播,登场时,黄仁勋依旧身着标志性皮衣,向不雅众展示了5090,回想着英伟达的故事,并先容了英伟达在东谈主工智能领域的最新碎裂和将来发展宗旨。
黄仁勋指出, AI 从生成式迈向代理式(Agentic AI)和物理(Physical AI)期间,强调 AI 是终极坐褥力器具。英伟达凭借全栈技巧(芯片、收罗、软件)构建强盛生态壁垒,将数据中心变为"Token 工场",通过液冷机柜和硅光子技巧提高算力与能效,重塑盘算实质,鼓励 AI 从数字宇宙向物理宇宙渗入,开启智能新期间。
演讲摘要如下:
1. AI技巧的演进与中枢碎裂
生成式AI与推理模子:AI从感知(盘算机视觉、语音识别)发展为生成式AI,能够跨模态波折(文本到图像、视频、卵白质结构等),并通过"推理模子"迟缓分解问题,生成更智能的响应。其中枢是通过链式推理(Chain of Thought)生成广博令牌(tokens),提高完毕准确性,但需更高算力搭救(如生成8000个令牌处置复杂问题)。
数据与教育挑战:AI依赖海量数据,强化学习(Reinforcement Learning)通过可考证完毕(如数学公式、物理定律)生成合成数据,处置了东谈主类标注的局限性,鼓励模子教育着力。
2. NVIDIA中枢技巧与居品
Blackwell架构:新一代GPU架构,性能较前代提高30%,体积缩小30%,搭救更高能效与盘算密度,适用于推理任务。通过NVLink 72技巧已毕多GPU高速互联,构建超大规模AI工场(每秒处理百万级令牌)。
Dynamo操作系统:专为AI工场遐想的操作系统,调解盘算资源,优化预填充(Prefill)与解码(Decode)阶段,搭救动态负载分派(如人人并行、活水线并行),提高推理着力40倍。
Omniverse与物理AI:通过数字孪生技巧模拟物理宇宙,加速机器东谈主教育与测试。结合生成式AI(如Project GR00T),开发通用东谈主形机器东谈主模子,已毕复杂环境下的自主决策与调解。
3. 行业应用与合作伙伴
自动驾驶与汽车安全:NVIDIA与通用汽车(GM)合作开发自动驾驶系统,涵盖教育、模拟与车载AI。安全技巧(HALOS)通过第三方评估确保代码安全性,已应用于700万行代码。
通讯与旯旮盘算:与想科、T-Mobile合作构建5G智能收罗,利用AI优化信号适合动态环境,提高通讯着力。
企业AI转型:推出DGX系列AI服务器(如DGX Station),联接戴尔、惠普等企业,提供从数据中心到旯旮的完整AI基础设施,搭救金融、医疗、制造等行业的智能化升级。
4. 将来技巧门路图
盘算架构升级:2024年推出Blackwell Ultra(性能提高1.5倍),2025年发布Vera Rubin架构(CPU性能翻倍,搭救NVLink 144),2027年筹谋Rubin Ultra(算力提高15倍)。
硅光子学与量子盘算:禁受微环谐振器(MRM)技巧攻讦光模块能耗,搭救超大规模数据中心(百万GPU互联);布局量子盘算,鼓励化学、材料科学等领域的模拟加速。
AI工场与能源着力:数据中心向"生成式盘算"转型,通过液体冷却、同构架构优化能效,宗旨将AI工场的算力密度提高至每机架600千瓦,守旧万亿好意思元级基础设施建设。
5. 社会影响与愿景
劳能源变革:AI代理(Agents)将重塑企业IT,将来10年或出现百亿数字职业者,协助东谈主类完成遐想、优化等任务。
机器东谈主普及:处置全球劳能源短少(预计缺5000万工东谈主),鼓励仓储、制造等领域的自动化,东谈主形机器东谈主(如Isaac Lab)通过合成数据与强化学习已毕快速妙技迭代。
以下是演讲全文实录:
让咱们启动吧。
起先,我要感谢系数扶直商,感谢系数参与这次会议的了不得的东谈主,简直每一个行业皆有代表。医疗保健行业也在场,交通运输业,零卖业。天哪,盘算机行业。盘算机行业的每个东谈主皆来了。看到诸位简直太好了,感谢你们的扶直。
GTC始于GeForce。一切皆始于GeForce。今天,我这里有一块GeForce 5090。令东谈主难以置信的是,25年后,在咱们启动研发GeForce的25年后,GeForce 5090在全活着界各地皆卖光了。
这是5090,Blackwell架构。与4090比较,你看,其体积缩小了30%,它在消耗能量和令东谈主难以置信的性能方面提高了30%,以致很难与之比较。
原因在于东谈主工智能。GeForce将CUDA技巧带给了宇宙。CUDA技巧促进了东谈主工智能的发展,而东谈主工智能如今又反过来澈底蜕变了盘算机图形学。您所看到的这是及时的盘算机图形渲染,100%基于旅途跟踪。对于每个渲染的像素,东谈主工智能皆会预测另外15个像素。想一想,对于咱们通过数学法子渲染的每一个像素,东谈主工智能皆会推断出其他15个像素,而且它必须以极高的精度进行推断,能力使图像看起来正确,它是暂时准确的,这意味着从一帧到另一帧上前或向后意味着它是盘算机图形。它必须暂时保持稳健,确凿。东谈主工智能取得了不凡的跳跃,这只是用了十年时期。
天然,咱们有计划东谈主工智能的时期比这更长一些,但东谈主工智能信得过进入全球公众视线节略是在十年前。滥觞是从感知东谈主工智能、盘算机视觉、语音识别启动,然后是生成式东谈主工智能。
在以前的五年里,咱们主要热心生成式东谈主工智能,讲授东谈主工智能怎样从一种模态波折到另一种模态,例如文本到图像、图像到文本、文本到视频、氨基酸到卵白质、特点到化学物资。咱们不错利用东谈主工智能生成内容的各类不同法子。
生成式东谈主工智能从根蒂上改变了盘算的方式,咱们从检索式盘算模子转变为生成式盘算模子。以前,咱们简直所作念的一切皆是事先创建内容、存储多个版块,并在使用时索求咱们认为合乎的版块。
现在,东谈主工智能领悟高下文,领悟咱们的请求,领悟咱们请求的含义,并生成它已知的内容。要是需要,它会检索信息,增强其领悟,并为咱们生成谜底。它不再检索数据,而是生成谜底,从根蒂上改变了盘算的方式,盘算的每一层皆发生了转变。
在以前的几年里,绝顶是最近两三年,发生了环节的碎裂,东谈主工智能领域的基础性碎裂。咱们称之为自主智能AI。自主智能AI,从根蒂上说,是指具备自主性的AI,它能够感知和领悟环境的高下文,能够进行推理,能够推理怎样回答问题或怎样处置问题,况兼能够筹画行动。它能够筹画并采选行动,能够使用器具。因为它现在能够领悟多模态信息,它不错侦探网站,检验网站的格式、笔墨和视频,以致不错播放视频。从网站获取的信息中学习,领悟这些信息,然后复返并使用这些信息,利用这些新取得的知识来完成它的任务,具有自主代理才略的东谈主工智能。
自主代理东谈主工智能的基础是某种相称新颖的东西——推理才略。
下一波海浪还是到来,今天咱们要好好谈谈这个问题,即物理东谈主工智能赋能的机器东谈主技巧,能够领悟物理宇宙的东谈主工智能。它领悟摩擦、惯性、因果干系和物体恒存性等主见。有些猜疑并不虞味着它还是从这个寰宇中隐匿了。它还在那里,只是看不见。因此,这种领悟物理宇宙(三维宇宙)的才略将开启一个咱们称之为物理东谈主工智能的新期间,并将鼓励机器东谈主技巧的发展。
每一个阶段,每一波海浪,皆为咱们系数东谈主开启了新的市集机遇,它为GTC眩惑了更多的新合作伙伴。因此,GTC现在相称拥堵。为了容纳更多GTC的参与者,咱们必须扩大圣何塞的规模,咱们正在起劲进行中。咱们有许多地盘不错利用,咱们必须发展圣何塞。这么咱们能力让GTC看到这一丝。
我站在这里,但愿你们皆能看到我看到的风物。咱们身处一个通顺场馆的中央。昨年是这项行径复原线下举办的第一年,那嗅觉就像一场摇滚音乐会。GTC被形容为东谈主工智能的伍德斯托克音乐节。而本年,它被形容为东谈主工智能的超等碗。惟一的区别是,在这个超等碗中,东谈主东谈主皆是赢家。因此,每年皆有越来越多的东谈主参与其中,因为东谈主工智能能够为更多行业和公司处置更酷爱的问题。
本年,咱们将挑剔更多对于自主型东谈主工智能和物理东谈主工智能。
其中枢在于,每一波、每一阶段的东谈主工智能发展,皆波及三个基本要素。起先是怎样处置数据问题?这之是以紧迫,是因为东谈主工智能是一种数据驱动的盘算机科学法子。它需要数据来学习,需要数字体验来学习,学习知识并取得数字体验。
第二个问题是,在莫得东谈主参与的情况下,怎样处置教育问题?东谈主工过问之是以从根蒂上具有挑战性,是因为咱们的时期有限,而咱们但愿东谈主工智能能够以超东谈主的速率学习,以超及时速率学习,并能够以东谈主类无法企及的规模进行学习。
第三点是怎样已毕规模化?怎样找到一种算法,使得不管提供何种资源,参加的资源越多,AI 就越智能?规模化定律。昨年,简直全宇宙皆错了。AI 的盘算需求,其规模化定律具有更强的韧性,事实上是超加速的。由于自主智能(Agentic AI)和推理才略的起因,咱们面前所需的盘算量,比昨年这个时候咱们预期的要多至少100倍。
让咱们来分析一下为什么这是真的。起先,让咱们从AI的才略脱手,让我倒过来解释。如我在所述,自主智能(Agentic AI)就是推理。咱们现在领有能够进行推理的AI。这从根蒂上来说是对于将问题一步一步分解的过程。它可能会尝试几种不同的法子来处置问题,并遴荐最好谜底。也许它会用多种法子处置团结个问题,并确保得到相似的谜底,即进行一致性查验。或者,在得出谜底之后,它可能会将谜底代回方程(例如二次方程)中,以阐明谜底的正确性。而不是只是径直给出谜底。
还铭记两年前,当咱们启动使用ChatGPT时,尽管它是一个名胜,但许多复杂的问题和许多浮浅的问题,它皆无法正确解答。这是不错领悟的。它禁受了一种"一击即中"的方式,利用其从预教育数据中学习到的知识,以及从其他训导中取得的信息(预教育数据),然后径直给出谜底,就像一条鲑鱼一样(直截了当)。
现在咱们领有能够迟缓推理的东谈主工智能。使用称为"想维链"(chain of thought)、"最好N"(best of N)、"一致性查验"(consistency checking)、多种不同旅途筹谋以及各类不同技巧,咱们现在领有能够进行推理的东谈主工智能,将问题分解,然后进行推理,迟缓进行。
那么,您不错设想,完毕就是咱们生成的象征数目加多了,而东谈主工智能的基本技巧仍然相似,生成下一个象征,预测下一个象征。只不外下一个象征现在组成了法子1。然后,在生成法子1之后,下一个象征会将法子1再次输入东谈主工智能,从而生成法子2、法子3和法子4。因此,它不是只是生成一个接一个的象征或单词,而是生成代表推理法子的单词序列。完毕生成的象征数目大幅加多,我稍后会向您展示,减轻地达到之前的百倍。
那么,百倍意味着什么?嗯,它不错生成百倍数目的象征,正如我之前解释的那样,您不错看到这种情况正在发生。或者,模子愈加复杂。它生成的象征数目是之前的十倍,为了保持模子的响应速率和交互性,幸免咱们因恭候其想考而失去耐性,咱们现在需要盘算速率提高十倍。因此,象征数目十倍,速率十倍,咱们必须进行的盘算量减轻地就达到了百倍。因此,您将在演示的其余部分看到,咱们进行推理所需的盘算量比以往大幅加多。
那么,问题就变成了,咱们怎样教导东谈主工智能实践我刚才形容的操作?怎样实践这种想维链?嗯,一种法子是,你必须教导东谈主工智能怎样推理。正如我之前提到的,在教育过程中,咱们必须处置两个根人性问题。数据从何而来?数据从何而来?以及怎样幸免其受到东谈主工过问的戒指?咱们所能提供的数据和东谈主工演示是有限的。
因此,以前几年取得的环节碎裂是强化学习偏执可考证的完毕。从根蒂上说,强化学习是指东谈主工智能在迟缓尝试处置问题或进行挫折的过程中进行学习。
东谈主类历史上还是处置了许多问题,咱们知谈这些问题的谜底。咱们知谈求解二次方程的公式。咱们知谈怎样期骗勾股定理,也就是直角三角形的法例。咱们掌持着广博数学、几何、逻辑和科学法例。咱们不错提供各类益智游戏算作教育素材。例如数独之类的受限型问题。这类问题擢发可数,咱们领罕有百种问题空间,能够生成数百万个不同的示例。并给东谈主工智能成百上千次契机来一步一步地处置它,因为咱们使用强化学习来奖励它作念得越来越好。
因此,咱们使用了数百个不同的主题、数百万个不同的示例和数百次的尝试。每次尝试皆会生成数万个象征。将系数这些加起来,咱们挑剔的是数万亿个象征,用于教育该模子。现在,借助强化学习,咱们能够生成海量象征。这基本上是利用一种机器东谈主式的法子来教育AI,即合成数据生成。这两者的结合给业界带来了巨大的盘算挑战。
而且您不错看到,业界正在作念出修起。我接下来将向您展示的是四大云服务提供商的Hopper服务器出货量。四大云服务提供商,领有公有云的那些提供商:亚马逊、Azure、GCP 和 OCI。四大云服务提供商,不包括东谈主工智能公司,不包括系数初创企业,不包括企业里面部署。许多其他方面均未包含在内,唯有那四个。
只是为了让您了解一下霍珀的巅峰年份和布莱克威尔的肇端年份的对比。霍珀的巅峰年份和布莱克威尔的肇端年份,这么您就能看出,事实上,东谈主工智能正在履历一个拐点。它变得更灵验,因为它更明智了,它能够进行推理,它被更多地使用了。
你不错看出它被更多地使用了,因为现在不管何时你使用ChatGPT,似乎皆需要恭候越来越久。这是一件功德,这标明许多东谈主皆在使用它,况兼效果权臣。教育这些模子和进行模子推理所需的盘算量已大幅增长。
因此,只是一年时期,而Blackwell才刚刚启动发货,就能看到东谈主工智能基础设施的惊东谈主增长。
这响应了系数这个词行业的盘算才略提高。咱们现在看到的是——紫色部分是分析师对将来全球数据中心本钱开销的预测,包括云服务提供商(CSP)、企业等等。全球数据中心在将来十年内的发展,也就是到2030年。
我之前说过,我预计数据中心建设投资将达到一万亿好意思元,而且我特地详情咱们很快就会达到这个数字。两种动态同期发生。
第一种动态是,绝大部分增长可能会加速。这意味着咱们还是知谈一段时期了,通用盘算还是走到至极,咱们需要一种新的盘算法子。全宇宙正在履历一场平台转变,从运行在通用盘算机上的手工编码软件转向运行在加速器和GPU上的机器学习软件。这种盘算方式面前还是过了临界点。
咱们现在正看到拐点正在出现,全球数据中心建设中正在发生拐点。
因此,起先是盘算方式的转变。其次是东谈主们越来越意志到,软件的将来需要本钱参加。这是一个相称紧迫的主见。在以前,咱们编写软件并在盘算机上运行它,而在将来,盘算机将为软件生成Token。因此,盘算机已成为Token的生成器,而非文献的检索器具。从基于检索的盘算转变为基于生成的盘算,从老式数据中心构建方式转变为构建新式基础设施的新方式,我称之为"AI工场"。
因为它唯有一个任务,那就是生成这些令东谈主难以置信的Token,然后咱们将这些Token重构为音乐、笔墨、视频、揣度后果、化学物资或卵白质。咱们将其重构为各类类型的信息。因此,宇宙正在履历一场转型,这不仅体现在将要建设的数据中心数目上,也体现在其建设方式上。
数据中心中的系数内容皆将被加速,但并非系数内容皆与东谈主工智能有关。
这张幻灯片是我最心爱的。多年来参加GTC的诸位,一直在听我挑剔这些库。这张幻灯片恰是GTC的中枢所在。事实上,很久以前,20年前,这就是咱们惟一领有的幻灯片。
一个又一个的库,重重叠叠。咱们不成只是加速软件,正如咱们需要一个AI框架来创建AI,并加速AI框架一样。你需要物理学、生物学、多物理场以及各类量子物理学的框架。
你需要各类库和框架。咱们称它们为CUDAx库,针对这些科学领域的加速框架。
第一个就令东谈主难以置信。这就是cuPy数值盘算库。NumPy是全球下载量和使用量最大的Python库。昨年下载量达4亿次。
cuLitho和cuPy数值盘算库是对NumPy的零改造加速替代有筹画。因此,要是您正在使用NumPy,请尝试使用cuPy数值盘算库,您一定会心爱它。
cuLitho是一个盘算光刻库。在四年时期里,咱们还是完成了系数这个词盘算光刻处理经过,这特地于晶圆厂中的第二个工场。
一个工场制造晶圆,另一个工场制造制造晶圆所需的信息。
将来,每个行业、每家领有工场的公司皆将领有两个工场,一个工场用于制造居品,另一个工场用于处理数学盘算,另一个工场用于东谈主工智能。
汽车工场,以及用于汽车的东谈主工智能工场。智能音箱的制造工场,以及用于智能音箱的AI工场。
咱们的盘算光刻技巧cuLitho,台积电(TSMC)、三星(Samsung)、ASML,以及咱们的合作伙伴Synopsys、Mentor,皆赐与了令东谈主难以置信的搭救。我认为这还是达到了临界点。
再过五年,每一张掩模版,每一项光刻工艺皆将在NVIDIA CUDA上进行处理。
Arial是咱们的5G库,它将GPU转变为5G无线电。为什么不呢?信号处理是咱们相称擅长的事情。
一朝咱们作念到这一丝,咱们就不错在其上重叠AI。用于无线接入彀的AI,或者咱们称之为AI-RAN。下一代无线收罗将深度镶嵌AI。
为什么咱们会受到信息论戒指的抑遏?因为咱们所能获取的信息频谱是有限的,即使加入东谈主工智能也无法改变这一事实。
CuOpt,数值或数学优化,简直每个行业在筹谋座位和航班时皆会用到它,库存和客户,工东谈主和工场,司机和乘客,等等。
咱们靠近多个抑遏条款,以及广博的变量。况兼你正在针对时期、利润、服务质料、资源利用率等等进行优化。英伟达将其用于供应链经管。
CuOpt是一个令东谈主难以置信的库。它将正本需要数小时能力完成的任务裁汰至几秒钟, 这之是以道理环节,是因为咱们现在不错探索更大的空间。
咱们晓喻将开源CuOpt, 简直每个东谈主皆在使用Gurobi、IBM CPLEX或FICO。咱们正在与这三家公司合作。行业对此相称应许。咱们行将极地面加速该行业的发展。
Parabricks用于基因测序和基因分析。MONI是宇宙最初的医学影像库。Earth2,用于预测超高分辨率局部天气的多物理场模拟软件。
量子盘算(Q-Quantum)和量子到量子(Q2Q)技巧。咱们将在GTC举办首届量子盘算日。咱们正与生态系统中的简直系数参与者合作。
咱们协助他们进行量子架构、量子算法的揣度,或构建经典加速的量子异构架构。因此,那里的职业令东谈主应许。
量子等变性(Q-equivariance)和量子张量(Q-tensor)用于张量收缩和量子化学盘算。
天然,这个软件栈享誉全球。东谈主们认为唯有一种名为CUDA的软件,但事实上,在CUDA之上还有许多库,这些库集成到生态系统、软件和基础设施的系数不同部分,以已毕东谈主工智能。
我今天要晓喻一个新的后果, CUDSS,咱们的稀少求解器,对于盘算机辅助工程(CAE)至关紧迫。
这是以前一年中最紧迫的碎裂之一。通过与Cadence、Synopsys、Ansys和达索系统等系数系统公司合作,咱们现在还是已毕了简直系数紧迫的EDA和CAE库的加速。
令东谈主瞻仰的是,直到最近,英伟达仍在使用通用盘算机运行软件,速率相称慢,来为其他东谈主遐想加速盘算机。原因是直到最近,咱们才领有针对CUDA优化的软件,即那套软件。因此,跟着咱们转向加速盘算,系数这个词行业皆将得到极大的提高。
CUDF,一个用于结构化数据的DataFrame,咱们现在领有对Spark和Pandas的即插即用式加速功能。
咱们还有Warp,一个在Python中运行的用于物理学的CUDA库。咱们对此有一个环节晓喻,我稍后再详确说明。这只是能够已毕加速盘算的库的示例。
这不单是是CUDA,咱们为CUDA感到高傲,但要是莫得CUDA以及咱们宏大的装置基础,这些库对任何使用它们的开发者来说皆将绝不消处。
对于系数使用这些库的开发者而言,你们之是以使用它们,起先是因为它能够极地面提高速率,它能够极地面提高规模。
其次,因为CUDA的装置基础现在已遍布全球。它存在于每一个云平台、每一个数据中心,全球每一家盘算机公司皆提供它,它简直无处不在。因此,通过使用这些库中的一个,你们的软件,你们令东谈主齰舌的软件,能够触及每个东谈主。
是以咱们现在还是达到了加速盘算的临界点。CUDA 使这一切成为可能。诸位,这就是GTC的道理所在,生态系统,是你们系数东谈主成就了这一切。因此,咱们为您制作了一段简短的视频。
谢谢,致将来的创造者、前驱者和建设者,CUDA 是为你们而生的。自2006年以来,超过200个国度的600万开发者使用了CUDA,并澈底改变了盘算方式。
借助900多个CUDAx库和东谈主工智能模子,您正在加速科学发展,重塑产业样子,并赋予机器感知、学习和推理的才略。现在,NVIDIA Blackwell的速率比第一代CUDA GPU快50,000倍。
这些数目级的速率和规模提高正在缩小仿真与及时数字孪生之间的差距。对您而言,这只是是一个启动。咱们迫不足待地想看到你们的下一个成就。
我爱好咱们所作念的一切。我更玩赏你们对它的期骗。在我从事这项职业33年里,最令我感动的一件事是一位科学家对我说:"詹森,因为你的职业,我不错在耄耋之年完成我终生的职业。"要是这皆不成震憾你,那你一定是个莫得情感的东谈主。是以这一切皆是为了你们。谢谢。
好吧,接下来咱们谈谈东谈主工智能。
但是,你们知谈,东谈主工智能发源于云表。它发源于云表是有原因的,因为事实评释东谈主工智能需要基础设施。它是机器学习。要是科学评释是机器学习,那么就需要一台机器来进行科学揣度。
因此,机器学习需要基础设施,而云数据中心领有这种基础设施。它们还领有不凡的盘算机科学实力和卓绝的揣度才略,组成了东谈主工智能在云表和云服务提供商(CSP)中蕃昌发展的守望环境。
但东谈主工智能并非仅限于此。东谈主工智能将无处不在。咱们将从许多不同的角度探讨东谈主工智能。天然,云服务提供商青睐咱们的最初技巧。
他们玩赏咱们领有完整的技巧栈,因为正如我之前解释的那样,加速盘算不单是关乎芯片自身,以致不单是是芯片和库,以及编程模子。它包括芯片、编程模子以及在其之上运行的弥远软件。系数这个词技巧栈皆极其复杂,每一层,每一个库,实质上皆肖似于SQL。
SQL,正如您所知,被称为存储内盘算色人阁第四色,是IBM引颈的盘算领域的一次环节创新。SQL只是一个库,试想一下。我刚刚向您展示了广博的库,而且在东谈主工智能领域,还有更多库。是以,这个技巧栈相称复杂。
他们也心爱这么一个事实:云服务提供商(CSP)心爱英伟达CUDA开发者亦然他们的客户。因为最终,他们正在构建供全宇宙使用的基础设施。因此,丰富的开发者生态系统受到了高度留心,并得到了深深的赞叹。
既然咱们要将东谈主工智能推行到宇宙其他地区,那么宇宙其他地区就会存在不同的系统成就、运行环境各异、特定领域的库各异以及使用各异。
因此,东谈主工智能在应用于企业 IT、制造业、机器东谈主技巧或自动驾驶汽车,以致是在构建 GPU 云的公司中,皆会有所不同。
节略有20家公司是在英伟达时期缔造的,他们只作念一件事:他们托管 GPU。他们称我方为 GPU 云。咱们的一位紧迫合作伙伴 CoreWeave 正在上市过程中,咱们为此感到相称高傲。因此,GPU 云有其自身的要求。
但令我相称应许的一个领域是旯旮盘算。
今天,咱们晓喻想科、英伟达、T-Mobile(全球最大的电信公司)和 Cerberus ODC 将在好意思国建立一个用于无线收罗的完整技巧栈,这就是第二个技巧栈。
因此,咱们今天晓喻的这个刻下技巧栈将把东谈主工智能部署到旯旮。请记着,全球每年有1000亿好意思元的本钱投资用于无线收罗,以及系数为通讯提供服务的数据中心。
将来,在我看来,毫无疑问,这将是交融了东谈主工智能的加速盘算。
东谈主工智能将在适合无线电信号、大规模MIMO(多输入多输出)系统变化的环境和交通景况方面作念得更好得多。天然不错。天然咱们会使用强化学习来作念到这一丝。天然,MIMO 实质上就是一个巨大的无线电机器东谈主。天然是的。因此,咱们天然会提供这些功能。
天然,东谈主工智能不错澈底改变通讯方式。你知谈,当我打电话回家时,不需要说许多话,因为我内助知谈我在那里职业,职业环境怎样。言语不错从昨天链接进行。她些许铭记我心爱什么,不心爱什么。许多时候,只需要几句话,就能疏浚许多信息。原因在于高下文和东谈主类先验知识。结合这些功能,不错澈底改变通讯方式。看一下它对视频处理的影响。看一下我之前形容的3D图形技巧。
因此,咱们天然也会对Edge采选同样的作念法。是以我对咱们今天晓喻的音书感到相称应许。T-Mobile、想科、英伟达、Cerberus和ODC将构建一个完整的技巧栈。嗯,东谈主工智能将渗入到各个行业。
这只是一个例子,东谈主工智能进入最早的行业之一是自动驾驶汽车领域。当咱们看到AlexNet的那一刻,咱们历久以来一直在从事盘算机视觉的揣度,看到AlexNet的那一刻是如斯令东谈主饱读励、如斯令东谈主应许,这促使咱们决定全力参加自动驾驶汽车的研发。
是以咱们现在还是在自动驾驶汽车领域职业了十多年。咱们开发的技巧简直被每一家自动驾驶汽车公司皆在使用。它不错位于数据中心,例如,特斯拉在其数据中心广博使用英伟达GPU,这可能位于数据中心或车辆中,Waymo和Wave也将其数据中心和车辆中使用英伟达的盘算机。它可能只在车辆中,这种情况相称隐衷,但有时它只在车辆中。或者他们还会使用咱们系数的软件。咱们与汽车行业合作,合作方式取决于汽车行业的需求。
咱们制造系数三种盘算机:教育盘算机、仿真盘算机和机器东谈主盘算机(自动驾驶汽车盘算机)。以及位于其之上的系数软件栈,包括模子和算法,这与咱们为其他系数已展示的行业提供的服务相似。
因此,今天,我相称烦躁地晓喻,通用汽车公司已遴荐英伟达算作其将来自动驾驶汽车车队的合作伙伴,自动驾驶汽车的期间还是到来。
咱们期待在系数三个领域与通用汽车东谈主工智能公司合作。用于制造业的东谈主工智能,以便澈底改变他们的制造方式。用于企业的东谈主工智能,以便澈底改变他们的职业方式。遐想汽车和模拟汽车。以及车载东谈主工智能。
因此,为通用汽车打造东谈主工智能基础设施,与通用汽车合作,并与他们一谈构建其东谈主工智能。我对此感到相称应许。我深感高傲的领域之一,而且很少受到热心,那就是安全。汽车安全。它被称为HALOS。
在咱们公司,它被称为HALOS。安全需要从硅到系统、系统软件、算法、法子论等各个方面的技巧,从确保各类性到各类性监控和透明性、可解释性,系数这些皆包括在内,系数这些不同的理念皆必须深深融入到您开发系统和软件的每一个要津中。
我信托,咱们是宇宙上第一家对每一转代码皆进行安全评估的公司。七百万行代码皆经过了安全评估。咱们的芯片、系统、系统软件和算法皆经过了第三方的安全评估,他们会仔细查验每一转代码,以确保其遐想能够保险各类性、透明度和可解释性。咱们还提交了超过一千项专利央求。
在这次GTC期间,我激烈建议您抽出时期参加HALOS筹商会,以便了解确保将来汽车安全和自主驾驶所需的系数不同方面。我对此感到相称高傲,但它很少受到热心,是以我认为这次应该花更多时期来挑剔它。英伟达HALOS。
你们皆见过自动驾驶汽车。Waymo自动驾驶出租车令东谈主难以置信。咱们制作了一个视频,与人人共享咱们用于处置数据、教育和各类性问题的部分技巧,以便利用东谈主工智能的魅力来创造东谈主工智能。
让咱们来看一看。英伟达正在通过Omniverse和Cosmos加速自动驾驶汽车的东谈主工智能开发。Cosmos的预测和推理才略搭救基于东谈主工智能的自动驾驶系统,这些系统禁受端到端教育法子,包括新的开发法子、模子蒸馏、闭环教育和合成数据生成。
起先,模子蒸馏。Cosmos的驾驶知识,算作策略模子,从较慢、更智能的教师模子迁移到车载更小、更快的学生模子中。
教师策略模子展示了学生模子通过迭代学习所遵守的最好轨迹,直至其性能简直达到与教师相似的水平。蒸馏过程能够带领策略模子的建立,但复杂场景需要进一步微调。
闭环教育能够对策略模子进行精真金不怕火调解。利用Omniverse神经重建技巧,将日记数据波折为用于物理基础模拟闭环的3D场景。创建这些场景的变体,以测试模子的轨迹生成才略。
Cosmos步履评估器随后不错对生成的驾驶步履进行评分,以权衡模子性能。腾达成的场景偏执评估创建了一个用于闭环教育的大型数据集,匡助自动驾驶汽车更稳健地应付复杂场景。
临了,3D合成数据生成增强了自动驾驶汽车对不同环境的适合性。Omniverse从日记数据中,通过交融舆图和图像构建详确的4D驾驶环境,并生成真实宇宙的数字孪生体,包括语义分割,以通过对每个像素进行分类来指导Cosmos。然后,Cosmos通过生成准确且各类化的场景来彭胀教育数据,缩小模拟与现实之间的差距。
Omniverse和Cosmos使自动驾驶汽车能够学习、适合并智能驾驶,从而提高出行安全。英伟达是完成这项职业的守望公司。
这就是咱们的侥幸:利用东谈主工智能来重塑东谈主工智能。咱们向您展示的技巧与您正在享用的技巧相称相似,带您进入数字孪生宇宙,咱们称之为英伟达。
让咱们谈谈数据中心。布莱克韦尔技俩已全面投产,这就是它的面孔。
这令东谈主难以置信,对东谈主们而言,这是一种好意思的风物。这道理环节,因为咱们在盘算机架构方面已毕了根人性的转变。
节略三年前,我曾向你们展示过这个版块的系统,它被称为Grace·Hooper,系统被称为Ranger。
Ranger系统粗略唯有屏幕宽度的一半,它是全球首个NVLink 32系统。三年前,咱们展示了Ranger的运行情况,那时它过于宏大,但其理念全皆正确。
咱们那时试图处置规模彭胀问题。分散式盘算是利用许多不同的盘算机协同职业来处置一个相称大的问题。
但在横向彭胀之前,纵向彭胀是不可替代的。两者皆很紧迫,但应该优先进行纵向彭胀,然后再进行横向彭胀。然则,纵向彭胀极其艰难,并莫得浮浅的谜底。你不会像Hadoop那样进行纵向彭胀或横向彭胀。Hadoop的作念法是,禁受广博商用盘算机,将其畅通到大型收罗中,并使用其进行存储盘算。
Hadoop 的理念具有创新性道理,这一丝咱们皆很明晰。它使得超大规模数据中心能够利用现成的盘算机处置海量数据问题。然则,咱们试图处置的问题极其复杂,以这种方式进行彭胀的成本将高得令东谈主难以承受,不管是电力成本照旧能源成本。深度学习根蒂不可能出现。
因此,咱们必须起先进行垂直彭胀。这就是咱们进行垂直彭胀的方式。这是上一代系统架构,被称为 HGX。这澈底改变了咱们所知的盘算技巧,也澈底改变了东谈主工智能。
这是八个GPU,每一个皆肖似于这个。这是两个GPU,一个Blackwell封装中包含两个Blackwell GPU。在这底下还有八个这么的单元。然后这畅通到咱们称之为NVLink 8 的部件。
然后这畅通到肖似这么的CPU机架。这里有两个CPU,位于顶部。咱们通过PCI Express将其畅通起来,然后许多这么的招引通过InfiniBand畅通,最终酿成一台东谈主工智能超等盘算机。以前就是这么作念的,咱们就是这么启动的。
这就是咱们在彭胀规模之前所能达到的极限。但咱们但愿进一步彭胀规模。Ranger技俩将这个系统又彭胀了四倍。
因此,咱们有了NVLink 32,但系统规模过于宏大。为此,咱们不得不进行一些紧迫的重新遐想,包括NVLink的职业方式以及ScaleUp的职业方式。
起先,咱们需要将镶嵌在主板上的NVLink交换机从系统中解耦并移除。这是一个NVLink交换机,是宇宙上性能最高的交换机,它使得每个GPU皆能以满带宽在全皆相似的时期与其他每个GPU进行通讯。
咱们将NVLink交换机解耦并移除,并将其放手在机箱的中心。在九个不同的机架中,共有18个交换机托盘(咱们称之为)容纳这些交换机。交换机解耦后,盘算单元现在位于别处。这特地于盘算方面的两个部分。
令东谈主称谈的是,它是全皆液冷的。通过液冷技巧,咱们不错将系数这些盘算节点压缩到一个机架中,这对于系数这个词行业而言是一项环节变革。
感谢诸位,你们促成了从集成NVLink到解耦NVLink,从风冷到液冷,从每台盘算机节略60,000个组件到每个机架600,000个组件的根人性转变,以及120千玉碎液冷,从而使咱们能够在一个机架中领有一个百亿亿次计总盘算机。
这是盘算节点,现在它不错装置到其中一个机架里。咱们领有3000磅的分量,5000根电缆,总长度约3.2公里,难以置信的电子元件,60万个零件,我想这特地于20辆汽车的零件数目,系数这些皆集成到一台超等盘算机中。咱们的宗旨是大规模彭胀,这就是它现在的面孔。
咱们实质上是想制造这个芯片,但莫得任何激进的戒指能够作念到这一丝,莫得工艺技巧能够作念到这一丝。它领有130万亿个晶体管,其中20万亿个用于盘算。因此,短期内无法合理地制造它。
处置这个问题的法子,如我所形容的,是将它分解成Grace Blackwell NVLink 72机架。最终,咱们已毕了终极规模的提高,这是宇宙有史以来最极点的规模提高。
这台机器可能的盘算量和内存带宽达到了每秒570太字节。这台机器中的系数目的皆达到了万亿级别。它领有每秒一千万亿次浮点运算才略(即艾克斯浮点运算)。
咱们之是以想要作念到这一丝,是为了处置一个极点的问题。许多东谈主误以为这个问题很容易处置,但履行上,这是一个终极的极点盘算问题,那就是推理。
推理是工场进行的Token生成过程,而工场自身决定着收益和利润的产生或蚀本。因此,必须以极高的着力和性能来构建这个工场,因为工场的方方面面皆径直影响着服务质料、收入和盈利才略。
现在,我来向您展示怎样解读这张图表,因为我稍后还会屡次回到这张图表上来。基本上,它有两个坐标轴。X 轴清楚每秒Token数。每当您聊天,或者将指示输入到 ChatGPT 时,输出的完毕皆是Token。这些Token会被重新组合成笔墨。
需要稳健的是,这不单是是一个Token对应一个单词。它们会将诸如"THG"之类的词元化,它不错指代"the"、"them"、"theory"、"theatrics",以偏执他各类词语。"THG"就是一个Token的例子。它们重新构建这些象征,使其转变为单词。
要是但愿 AI 更明智,就需要生成广博的象征。这些象征是推理象征、一致性查验象征,它们会想出许多主意,以便从中遴荐最好的主意和象征。这些象征可能会仔细琢磨,可能会想考:"这是你能作念的最好的职业吗?"是以它就像咱们自言自语一样,与自身对话。因此,你生成的象征越多,你的 AI 就越明智。
但是,要是回答问题破耗的时期太长,客户就不会再转头了。这与网页搜索莫得什么不同。在它给出明智谜底之前,所需时期如实存在戒指。因此,你需要应付这两个维度的挑战。你试图生成广博的象征,但又试图尽可能快地完成。因此,您的Token速率至关紧迫。是以您但愿针对单个用户的每秒Token数尽可能快。
然则,在盘算机科学和工场坐褥中,延长响适时期和费解量之间存在根人性矛盾。要是你从事大型、高费解量的业务,你会进行批量处理。你将广博的客户需求进行批量处理,并坐褥特定版块的居品供系数东谈主稍后使用。
然则,从他们进行批量处理和坐褥居品的那一刻起,到您使用它为止,可能需要很万古期。盘算机科学领域亦是如斯,生成Token的 AI 工场也同样如斯。
是以,你靠近着这两种根人性的矛盾。一方面,您但愿客户的服务质料尽可能好:快速且智能的 AI。另一方面,您正试图让您的数据中心为尽可能多的东谈主生成Token,以便最大化您的收入。
守望的谜底位于右上方。守望情况下,该弧线的时势是一个正方形,您不错快速地为每个东谈主生成Token,直到工场的极限,但莫得哪个工场能够作念到这一丝。
因此,它可能是一条弧线,而您的宗旨是最大化弧线下的面积,即X和Y的乘积,况兼您推得越远,就越有可能意味着您正在建造一个更好的工场。
事实评释,在每秒Token数(系数这个词工场的每秒Token数)与响适时期之间,一个需要广博的盘算才略(浮点运算),而另一个维度则需要广博的带宽和浮点运算。是以这是一个相称难以处置的问题。
好的谜底是,您应该领有广博的浮点运算才略、广博的带宽、广博的内存以偏执他一切资源。这是启动的最好谜底,这亦然为什么这是一台如斯出色的盘算机的原因。
你起先要领有尽可能多的浮点运算才略、尽可能大的内存、尽可能高的带宽,天然还要有最好的架构和最高的能效,况兼你必须领有一个编程模子,使你能够在系数这些极其复杂的硬件上运行软件能力作念到这一丝。
现在让咱们来看一个演示,让你对我说的是什么有一个切实的感受。请播放它。
传统的LLM捕捉基础知识,而推理模子则利用想维象征来匡助处置复杂问题。在这里,一个指示要求在婚典餐桌旁安排座位,同期遵守一些戒指条款,例如传统习俗、像片角度以及家眷成员之间的矛盾。传统的LLM能够快速地给出谜底,使用的象征少于500个。
它在安排客东谈长官位时犯了流弊,而推理模子则使用了超过8000个象征进行想考,最终得出了正确的谜底。这需要一位牧师来保管和平。
好吧,正如你们所知,要是你有一个300东谈主的婚典派对,况兼你试图找到竣工的,或者说最好的座位安排,这是一个唯有东谈主工智能能力处置或者唯有岳母能力处置的问题。
是以,这是协同盘算无法处置的问题之一。
好,您在这里看到的是,咱们给它提供了一个需要推理的问题,您看到R1会就此进行推理,尝试系数不同的场景,然后复返来历练我方的谜底。它会自问是否作念对了。
同期,上一代语言模子则禁受一次性处置法子。因此,一次性处置法子使用了439个象征。它速率很快,着力很高,但完毕是流弊的。是以,这是439个被滥用的象征。
另一方面,为了对这个问题进行推理(履行上这是一个相称浮浅的问题,只需加多几个更难的变量,它就会变得相称难以推理),雨宫琴音作品它使用了8000个,简直9000个象征。而且它需要更多的盘算,因为模子愈加复杂。
好,这是一个维度。在我向您展示一些完毕之前,请允许我解释其他一些内容。
因此,谜底是,要是你不雅察Blackwell系统,现在它还是彭胀到NVLink 72。咱们起先要作念的是处理这个模子,而这个模子并不小。
以R1为例,东谈主们认为R1很小,但它有6800亿个参数。
下一代模子可能领罕有万亿个参数。处置这一问题的法子是将这些数万亿个参数和模子,将职业负载分散到系数这个词GPU系统中。
不错使用张量并行,将模子的一层运行在多个GPU上;也不错取活水线的一部分,称之为活水线并行,并将其放在多个GPU上;还不错将不同的人人模子放在不同的GPU上,咱们称之为人人并行。
活水线并行、张量并行和人人并行的组合方式数目宏大,令东谈主难以置信。况兼证据模子、职业负载和环境的不同,盘算机的成就方式必须改变,以便取得最大的费解量。有时需要优化极低的延长,有时则需优化费解量,因此必须进行一些运行时批处理。批处理和团聚职业有许多不同的技巧。因此,这些AI工场的操作系统和软件极其复杂。
其中一个不雅察完毕,亦然领有像NVLink 72这么同构架构的信得过上风在于,每个GPU皆能实践我刚才形容的系数操作。咱们不雅察到这些推理模子正在进行几个盘算阶段。
其中一个盘算阶段是想考。当你在想考时,不会产生许多象征。你产生的象征可能你我方在使用,你在想考。也许你正在阅读,正在消化信息。这信息可能是PDF文档,也可能是网站,以致不错不雅看视频,以超线性速率收受系数这些信息,然后将系数这些信息整合起来,酿成谜底,制定一个筹画性的谜底。
因此,信息消化和高下文处理相称依赖于浮点运算。
另一方面,不才一阶段,称为解码阶段,其第一部分咱们称为预填充,解码的下一阶段需要浮点运算,但需要巨大的带宽。而且盘算起来特地容易。要是你有一个模子,它罕有万亿个参数,那么每秒需要几TB的数据,稳健我之前提到过每秒576TB,只是是从HBM内存中索求模子就需要每秒TB级的数据。而且只是是为了生成一个象征。
它之是以只生成一个象征,是因为记着这些大型语言模子是在预测下一个象征,这就是它们预测下一个象征的原因。它不是预测每一个象征,而只是预测下一个象征。现在咱们有了各类新的技巧,例如揣测性解码等等,用于更快地完成这项职业,但最终,你是在预测下一个象征。
因此,你摄取、调入系数这个词模子和高下文(咱们称之为KV缓存),然青年景一个象征。然后咱们将这个象征放回咱们的"大脑",生成下一个象征。每次实践此操作,咱们皆输入数万亿个参数,输出一个象征。
数万亿个参数输入,输出另一个象征。数万亿个参数输入,输出另一个象征。请稳健,在演示中,咱们输出了8600个象征。
因此,数万亿字节的信息已被输入到咱们的GPU中,并一次输出一个象征。这从根蒂上解释了为什么需要NVLink。NVLink使咱们能够将系数这些GPU组合成一个巨大的GPU,已毕最终的规模彭胀。现在系数内容皆在NVLink上,我不错将预填充与解码分离,并不错决定:我想为预填充使用更多GPU,为解码使用更少GPU。
因为我正在进行广博的想考,进行一项自主性的职业,阅读广博信息。我正在进行潜入的揣度。之前我一直在听迈克尔讲话,迈克尔也谈到了他正在进行的揣度,而我作念的亦然同样的事情。咱们会开展并撰写这些相称冗长的AI揣度技俩,我相称心爱作念这件事。
我还是为此付出了代价,我相称享受让咱们的GPU运转起来。莫得什么能给我带来更大的欣喜。是以我在撰写完毕后,它就启动运行,进行系数这些揣度,它侦探了节略94个不同的网站,阅读了系数这些信息,而我也在阅读系数这些信息,然后它会酿成一个谜底并撰写论述。这简直令东谈主难以置信。
在那段时期里,预填充一直相称勤恳。它并莫得信得过生成许多象征。另一方面,当您与聊天机器东谈主进行对话,况兼数百万东谈主在作念同样的事情时,它就需要相称广博的象征生成。解码职业量相称大。因此,证据职业负载,咱们可能会决定将更多GPU分派到解码,或者证据职业负载,将更多GPU分派到预填充。这种动态操作相称复杂。
我刚刚形容了活水线并行、张量并行、人人并行、翱游中批处理、解耦推理、职业负载经管,然后我还要处理一个叫作念KV缓存的东西,我必须将其路由到正确的GPU,我必须通过系数内存脉络结构来经管它。这段软件极其复杂。
因此,今天咱们晓喻推出英伟达Dynamo。英伟达Dynamo能够作念到这一切。它实质上是AI工场的操作系统。
在以前,在咱们运行数据中心的方式中,咱们的操作系统肖似于VMware。咱们会(而且现在仍然会),调解广博不同的企业应用范例在咱们企业IT之上运行,咱们亦然大型用户。
但将来,应用范例并非企业IT,而是智能体。操作系统也不再是VMware之类的软件,而是Dynamo之类的软件。而且这个操作系统运行的并非数据中心之上,而是AI工场之上。咱们将其定名为Dynamo是有充分情理的。如您所知,Dynamo是启动前次工业创新的首个能源机械。
这是能源的工业创新。水流入,电力流出,这实在神奇。水流入,将其焚烧,变成蒸汽,随后产生的即是这种无形却极其可贵的东西。历经八十年发展,才有了交流电,但发电机是这一切的开赴点,是着手。
因此,咱们将这个操作系统,这套软件——极其复杂的软件——定名为英伟达发电机(NVIDIA Dynamo)。它是开源的,咱们很烦躁有诸多合作伙伴与咱们共同开发。
我最心爱的合作伙伴之一,我相称心爱他,不仅因为他所作念的创新性职业,还因为阿拉文德是一个相称好的东谈主。Perplexity是咱们合作攻克这一难题的紧迫伙伴。总之,相称好,相称好。
现在咱们必须恭候系数这些基础设施彭胀完毕,但与此同期,咱们还是进行了一系列相称潜入的模拟。咱们用超等盘算机模拟咱们的超等盘算机,这很有道理。
现在我将向人人展示我刚才所说的一切的平正。记着工场默示图。Y轴清楚工场的每秒Token费解量,X轴清楚用户体验的每秒Token费解量。你需要超等智能的AI,况兼需要坐褥广博的AI。
这是Hopper。它不错为每个用户每秒产生节略100个Token。
这使用了八个GPU,通过InfiniBand互联,我将其模范化为每兆瓦每秒的token数目。是以这是一个兆瓦级的数据中心,并非一个相称大型的AI工场,但不管怎样,它是一兆瓦的。它不错为每个用户每秒产生100个token,况兼在这个级别上,不管履行情况怎样,它不错为该兆瓦级数据中心每秒产生10万个token。或者,要是进行超等批量处理,况兼客户逍遥恭候很万古期,那么该AI工场每秒不错产生节略250万个token,明白了吗?
记着,两百五十万,ChatGPT 的成本节略是每百万个词元10好意思元,对吧?每百万个词元10好意思元。
让咱们假定一下,我认为每百万个词元10好意思元的成本可能比较低,但我可能会说它比较低,但让我假定它比较高,因为两百五十万乘以10,那就是每秒2500万好意思元。这么领悟有道理吗?这就是你想考问题的方式。
或者,要是成本低得多,那么问题在于,假定是10万好意思元,将其除以10。每个工场每秒25000好意思元。然后是3100万,一年节略有3000万秒,这就能转变为百万级,兆瓦级数据中心的营收。是以这就是您的宗旨。
一方面,您但愿您的Token速率尽可能快,以便您不错创造信得过智能的AI,要是领有智能AI,东谈主们就会为此支付更多用度。另一方面,AI越智能,您所能坐褥的数目就越少。这是一个相称合理的权衡。这就是咱们试图改变的弧线。
现在,我向您展示的是宇宙上最快的盘算机——Hopper。它澈底改变了一切。那么,咱们该怎样改进它呢?因此,咱们起先冷漠使用NVLink 8的Blackwell架构。同样的Blackwell架构,相似的盘算单元,以及使用FP8的NVLink 8盘算节点。
因此,Blackwell更快了。更快、更大、更多晶体管,一切皆要更多。
但咱们想作念的不啻这些,因此咱们引入了新的精度。这并不全皆像4位浮点数那样浮浅,但使用4位浮点数,咱们不错量化模子,用更少的能量作念同样的事情。因此,当您使用更少的能量作念同样的事情时,您不错作念得更多。
因为请记着,一个紧迫的不雅点是,将来每一个数据中心皆将受到电力戒指。您的收入将受到电力戒指。您不错证据可用的电力来盘算您的收入。这与许多其他行业莫得什么不同。是以咱们现在是一个受电力戒指的行业。咱们的收入将与此有关联。基于此,您需要确保领有尽可能高效节能的盘算架构。接下来,咱们将使用 NVLink 72 进行彭胀。
请看 NVLink 72 FP4 的各异,由于咱们的架构高度集成,现在咱们又添加了 Dynamo,Dynamo 不错进一步彭胀其性能。是以 Dynamo 也能匡助 Hopper,但对 Blackwell 的匡助更大。
现在请稳健我标出的这两个闪光点,这粗略就是您的最大 Q 值所在。这很可能就是您运行工场运营的方位。您正在尝试在东谈主工智能的最大费解量和最大质料之间找到均衡点。最智能的东谈主工智能,以及最大数目的东谈主工智能。这两者的交点,恰是您优化的宗旨。
这就是在检验这两个方块下方时呈现的面孔。Blackwell 的性能远优于 Hopper。请记着,这并非指 ISO 芯片。而是指 ISO 功率。
这是最终的摩尔定律,历久是以前摩尔定律的中枢所在。现在咱们已毕了这一宗旨,在单代居品中已毕了 25 倍的 ISO 功率提高。这不是ISO芯片,也不是ISO晶体管,更不是任何ISO有关的组件。ISO功耗,是最终的戒指要素。数据中心所能取得的能量是有限的。因此,在ISO功耗戒指下,Blackwell有筹画的着力提高了25倍。
现在咱们看到了这张彩虹图,令东谈主难以置信。这才是酷爱的部分。看,在帕累托前沿之下,有各类不同的成就有筹画,咱们称之为帕累托前沿。在帕累托前沿之下,存在数百万种咱们本不错用来成就数据中心的法子。
咱们本不错以许多不同的方式将职业并行化、分割和分片。而咱们找到了最优解,也就是帕累托前沿。好的,帕累托规模。而且,由于感情不同,每一个点皆代表着不同的成就。这张图像相称清醒地说明了为什么咱们需要一个可编程架构,使其尽可能地具有同质可替代性。因为职业负载在系数这个词规模上变化相称剧烈。
看,在顶部,咱们有人人并行8,批次大小为3000,去聚会关闭,Dynamo关闭。在中间,人人并行64,其中26%用于高下文,因此Dynamo开启,高下文占用26%,其余74%未使用。批次大小为64,一个使用人人并行64,另一个使用人人并行4。然后在底部,咱们有张量并行16与人人并行4,批次大小为2,高下文占用1%。盘算机的成就在系数这个词范围内皆在发生变化。
然后,就会发生这种情况。这是一个输入序列长度的例子,它是一种比较通用的测试用例。这是一种您不错相对减轻地进行基准测试的测试用例。输入为1000个象征,输出为2000个。
请稳健,咱们之前向您展示了一个演示,其中输出相称浮浅,为9000,对吧,8000。是以很彰着,这并不成仅代表那一次对话。而这一次更具有代表性。这就是宗旨所在,即构建面向下一代职业负载的下一代盘算机。
这是一个推理模子的示例。在这个推理模子中,Blackwell的性能是Hopper的40倍。径直说吧。相称惊东谈主。
你知谈,我之前说过,有东谈主如实问过,你知谈,我为什么要那样说?但我之前说过,一朝Blackwell公司启动批量发货,你就会发现Hopper居品供过于求,简直无东谈主问津。我说的就是这个真理。这是合理的。要是还有东谈主想购买Hopper居品,不消记忆,不要紧。
但是…… 我是首席收入破损者。我的销售东谈主员会说,哦,不,别那样说。霍珀在某些情况下阐述致密。这是我所能对霍珀作念的最好评价了。
你在某些情况下也阐述致密,但情况未几。要是我必须采选行动,这就是我的不雅点。
当技巧发展如斯连忙,职业量如斯巨大,况兼你们正在建造这些肖似工场的东西时,咱们真的但愿你们投资于正确的版块。
为了便于领悟,这就是一座100兆瓦工场的面孔。基于Hoppers公司的有筹画,您领有45,000个冲压模具、1400个机架,每秒可坐褥3亿个代币。
以下是Blackwell公司的有筹画。您领有86个……咱们并非试图减少您的购买量。咱们的销售东谈主员说,Jensen,你正在减少他们的购买量,但这是更好的有筹画。
总之,您购买越多,省俭越多。事实上,情况比这还要好。现在,你购买得越多,赚取的就越多。
总之,请记着,一切皆在东谈主工智能工场的配景下进行,一切现在皆处于东谈主工智能工场的语境之中。
天然咱们挑剔芯片,但你老是要从规模化启动。全面规模化。你能将什么最大限定地规模化?
我现在想向你展示东谈主工智能工场是什么样的,但东谈主工智能工场相称复杂。我刚才只给你举了一个机架的例子,它领有60万个部件,重达3000磅。现在,你必须把它与许多其他部件畅通起来。因此,咱们启动构建咱们所说的每个数据中心的数字孪生。在构建数据中心之前,你必须构建一个数字孪生。
让咱们来看一看这个。这简直令东谈主难以置信地绚丽。
宇宙列国皆在竞相建设最先进的大规模东谈主工智能工场。建设一座东谈主工智能千兆工场是一项不凡的工程豪举,需要来自供应商、建筑师、承包商和工程师的数万名工东谈主来建造、运输和拼装近50亿个组件和超过20万英里的光纤,简直特地于地球到月球的距离。
英伟达Omniverse东谈主工智能工场数字孪生蓝图使咱们能够在物理建设启动之前遐想和优化这些东谈主工智能工场。
在此,英伟达工程师利用蓝图筹谋一座千兆瓦东谈主工智能工场,整合了最新英伟达DGX超等盘算集群的三维和布局数据,以及来自Vertip和施耐德电气的先进电力和冷却系统,并通过英伟达AIR(一个用于模拟收罗逻辑、布局和契约的框架)进行了拓扑优化。
这项职业传统上是在各个安适的部门进行的。Omniverse蓝图使咱们的工程团队能够并行协同职业,让咱们能够探索各类成就以最大限定地攻讦总领有成本(TCO)并提高电力使用着力。
英伟达利用由CUDA和Omniverse库加速的Cadence Reality数字孪生技巧模拟空气和液体冷却系统,并使用施耐德电气的eTap应用范例模拟电力模块的着力和可靠性。及时模拟使咱们能够在几秒钟内完成迭代并运行大型假定场景,而无需消费数小时。
咱们使用数字孪生技巧向弥远团队和供应商传达指示,从而减少实践流弊并加速部署时期。在筹谋蜕变或升级时,咱们不错减轻地测试和模拟成本和停机时期,确保东谈主工智能工场具有将来发展后劲。
这是第一次有东谈主在构建数据中心时会认为:"哇,这太漂亮了!"
面前咱们正全面坐褥Blackwell系列居品。全球各地的电脑公司皆在大规模地坐褥这些令东谈主难以置信的机器。我相称烦躁也很谢意人人为过渡到这个新的架构而付出的起劲。
在本年下半年,咱们将减轻过渡到升级版。因此,咱们将推出Blackwell Ultra MB-Link 72。
如您所知,它的处理才略提高了1.5倍。它具有新的稳健力指示。其内存提高至原来的1.5倍。
系数这些内存可用于诸如KB缓存之类的用途。收罗带宽也提高至原来的两倍。因此,现在咱们领有相似的架构,将能够平滑过渡。这被称为Blackwell Ultra,将于本年下半年推出。
系数公司皆清楚"下一个"是有原因的。事实上,这恰是我但愿得到的修起。原因是咱们正在建设东谈主工智能工场和东谈主工智能基础设施,这需要多年的筹谋。这不像购买一台札记本电脑那样浮浅,也不是可爽直专揽的开销。
这是咱们必须筹谋的开销,包括地盘和电力供应,以及本钱开销,并组建工程团队。咱们必须提前一两年,以致两三年进行筹谋。这就是为什么咱们会提前两三年向您展示咱们的门路图的原因,这么咱们就不错幸免在五月份给您带来未必。
经过多年的筹谋,下一个阶段,也就是一年之后,是以一位天体裁家的名字定名的。她的孙辈们也在场。她的名字是维拉·鲁宾。她发现了暗物资。维拉·鲁宾令东谈主难以置信,因为其CPU是全新的,性能是Grace的两倍,内存更大,带宽更高。
然则,它只是一个唯有50瓦的微型CPU,这如实令东谈主难以置信。而且,鲁宾系统使用了全新的GPU,CX9,全新的收罗智能网卡(NIC),NVLink 6,全新的NVLink互联技巧,以及新式的内存HBM4。总体而言,除了底盘以外,其他一切皆是全新的。
通过这种方式,咱们不错在一个方朝上承担很大的风险,而不会危及与基础设施有关的许多其他方面。因此,Vera Rubin,NVLink 144,将于来岁下半年推出。
现在,我犯了一个流弊,是以,我只需要你们作念出这个调解:Blackwell履行上是一个Blackwell芯片中的两个GPU。咱们称单个芯片为GPU是流弊的,原因是这会打乱系数NVLink的定名法等等。
因此,瞻望将来,无需复返Blackwell进行建立,当我说NVLink 144时,它只是意味着它畅通到144个GPU,况兼每一个GPU皆是一个GPU芯片,况兼它不错拼装在某个封装中,其拼装方式可能会随时变化。是以,每个GPU芯片就是一个GPU。每个NVLink皆畅通到GPU。
因此,Vera Rubin,NVLink 144,这就为下半年,以及次年咱们称之为Rubin Ultra的居品奠定了基础。是以,Vera Rubin Ultra。这是Vera Rubin,Rubin Ultra,27的後半部分。它禁受NVLink 576,已毕了极大规模的彭胀。每个机架的功率为600千瓦,由250万个部件组成。
而且,显着,还有广博的GPU,况兼系数的一切皆乘以X因子进行了提高。是以,浮点运算次数加多了14倍,达到15亿亿次浮点运算(15 exaflops)。正如我之前提到的,现在是15亿亿次浮点运算,而非1亿亿次浮点运算,已毕了规模的扩大。
况兼其内存达到了300,粗略是4.6PB(拍字节)。是以,带宽规模提高到了每秒4600TB(太字节)。我指的不是团聚带宽,我指的是规模提高的带宽。天然,还有全新的NVLink交换机和CX9。
请稳健,共有16个站点,每个封装包含4个GPU,禁受极高速的NVLink互联。现在,让咱们来了解一下它的规模。这就是它的面孔。
现在,这将会很酷爱。是以,您现在正在全力提高Grace Blackwell的性能。我并非想把它比作札记本电脑,但这就是它的面孔。这就是Grace Blackwell的形态。鲁本的形态亦然如斯。ISO维度。
因此,换句话说,在进行横向彭胀之前,必须先进行纵向彭胀。在进行横向彭胀之前,需要先进行纵向彭胀。然后,在那之后,咱们将利用令东谈主齰舌的技巧进行横向彭胀。是以,起先进行纵向彭胀。这让您了解咱们前进的速率,这是纵向彭胀的浮点运算次数。这是纵向彭胀的浮点运算次数。Hopper的性能是基准的1倍,Blackwell是68倍,Rubin是900倍。规模化彭胀Flop。
然后,要是我将其波折为,实质上是您的总领有成本(TCO),即功率在上,每单元功率不才,底下是弧线下方的面积,也就是弧线下的正方形,它基本上是浮点运算次数乘以带宽。是以,权衡您的AI工场是否取得进展的一个相称浮浅的直观历练法子是,用瓦特数除以那些数字。您不错看到,Rubin将大幅攻讦成本。这就是英伟达的门路图,相称简短。一年一次,像钟表一样精准。一年一次。
咱们怎样进行规模化彭胀?咱们引入了,咱们正在准备进行横向彭胀。那是规模彭胀,使用了NVLink技巧。咱们的规模彭胀收罗是InfiniBand和Spectrum X。
大多数东谈主皆很诧异咱们进入了以太网领域。咱们决定使用以太网的原因是,要是咱们能够匡助以太网达到InfiniBand的性能,领有InfiniBand的特点,那么收罗自身将更容易被系数东谈主使用和经管。因此,咱们决定投资Spectrum,咱们称之为Spectrum X,并将拥塞驾御、极低延长和算作咱们盘算结构一部分的小数软件的特点融入其中。完毕,咱们使Spectrum X的性能极其出色。
咱们使用Spectrum X构建了有史以来最大的单一GPU集群,算作一个巨大的集群。这就是Colossus(巨型盘算机系统)。还有许多其他的例子。Spectrum X无疑对咱们来说是一个巨大的告捷。我相称期待的一个领域是,最大的企业收罗公司将禁受Spectrum X并将其集成到其居品线中,以便匡助全球企业成为东谈主工智能公司。
咱们在CX7上领有10万个用户。现在CX8行将推出,CX9也行将推出。在Rubin任职期间,咱们但愿将GPU数目彭胀到数十万个。现在,将GPU彭胀到数十万个靠近的挑战在于彭胀畅通。彭胀畅通使用的是铜缆。咱们应该尽可能地使用铜缆。这节略是一到两米傍边的距离。这提供了令东谈主难以置信的致密畅通性、相称高的可靠性、相称好的能源着力以及相称低的成本。
因此,咱们在彭胀中尽可能多地使用铜缆。然则,在横向彭胀场景下,数据中心如今已如同通顺场般巨大,咱们需要一种更长距离运行的处置有筹画。这就是硅光子学阐述作用的方位。硅光子学的挑战在于其收发器功耗巨大。从电信号到光信号的波折需要经过串行-并行波折器(SerDes)、收发器以及多个串行-并行波折器。
好,让咱们把它投影到屏幕上,这么我不错向人人展示我正在有计划的内容。好的,起先,咱们晓喻英伟达首个禁受共封装光子系统的有筹画。它是全球首个1.6太比特每秒的共封装光学器件(CPO)。它基于一种名为微环谐振器调制器(MRM)的技巧。况兼它全皆禁受咱们与台积电(TSMC)合作已久,令东谈主难以置信的工艺技巧构建而成。咱们与宏大的技巧提供商生态系统合作,共同发明了行将向您展示的技巧。这真的是一项令东谈主难以置信的技巧,极其令东谈主难以置信的技巧。
咱们之是以决定投资微环谐振器调制器(MRM),是为了利用MRM令东谈主难以置信的密度和功耗上风,其密度和功耗比用于电信的马赫曾德尔过问仪(Moxander)更好,后者用于电信中数据中心之间的通讯。以致在咱们使用的收发器中,咱们也使用马赫曾德尔过问仪(Moxander),因为到面前为止,密度要求并不高。
是以,要是您望望这些收发器,这是一个收发器的例子。这是一个插头,功率是30瓦,广博购买价钱是1000好意思元。此侧为电源接口,此侧为光纤接口。光信号通过黄色接口输入。您将此插头插入交换机。其中包含收发器、激光器,并禁受名为Moxander的技巧。
咱们使用它将数据从GPU传输到交换机,再到下一个交换机。然后是下一个交换机,再下一个交换机,例如畅通到GPU。因此,要是咱们有10万个GPU,咱们这边就会有10万个这么的组件,然后是另外10万个组件,用于畅通交换机与交换机。然后在另一侧,我将其归因于另一个网卡(NIC)。
要是咱们有25万个GPU,咱们将加多一层交换机。因此,每个GPU,系数25万个GPU,每个GPU将有六个收发器,每个GPU将有六个这么的插头。这六个插头每个GPU将加多180瓦的功耗,每个GPU 180瓦,每个GPU 6000好意思元的成本。是以问题是,咱们怎样将规模扩大到数百万个GPU?因为要是咱们有100万个GPU乘以6,那就是600万个收发器乘以30瓦,也就是1.8亿瓦的收发器功耗。它们莫得进行任何盘算,只是移动信号。
问题在于,咱们怎样,咱们能够怎样使命得起,正如我之前提到的,能源是咱们最紧迫的商品。最终一切事物皆与能源有关,因此这将通过减少180兆瓦的电力来戒指咱们的收入和客户的收入。这是咱们所作念的令东谈主瞻仰的事情。咱们发明了宇宙上第一台微镜MRM,这就是它的面孔。
那里有一个小的波导,您不错在波导上看到,它通向一个环,该环产生共振,并驾御波导在绕行时的反射率,从而戒指和调制能量,即通过的光量。它通过收受光来关闭它,或者让它通过。它将这种径直的一语气激光束波折为1和0。这就是名胜。
然后,这项技巧——光子集成电路——与电子集成电路堆叠在一谈,然后与一堆微透镜堆叠在一谈,再与称为光纤阵列的东西堆叠在一谈。这些部件皆是使用台积电的这项技巧(他们称之为COOP)制造的,并使用3D COAS技巧进行封装,并与系数这些技巧提供商(我之前刚刚展示过它们的名字)合作,最终将其转变为这台令东谈主难以置信的机器。那么让咱们来看一下这段视频。
这简直是一项技巧名胜。它们变成了这些交换机,咱们的 InfiniBand 交换机,硅芯片运奇迹况极佳。本年下半年咱们将寄托硅光交换机,来岁下半年咱们将寄托 Spectrum X。
收货于 MRM 的遴荐,收货于咱们在以前五年中承担的令东谈主难以置信的技巧风险,咱们央求了数百项专利,并将技巧授权给咱们的合作伙伴,以便咱们皆能制造它们,现在咱们能够将硅光子技巧与共封装选项相结合,无需收发器,光纤径直畅通到咱们的交换机,基数为 512。这就是 512 个端口。任何其他法子皆根蒂无法作念到这一丝。
因此,这使咱们能够彭胀到这些领罕有十万以致数百万个 GPU 的系统。其益处,您不错设想一下,令东谈主难以置信。在数据中心,咱们不错省俭数千万瓦的电力。假定是十兆瓦,或者说六十兆瓦。六兆瓦特地于十个Rubin Ultra机架。六十兆瓦的电力特地可不雅。咱们现在不错将一百个Rubin Ultra机架的电力部署到Rubin系统中。
咱们的门路图是:每年进行一次架构更新,每两年进行一次举座架构升级,每年推出一条新的居品线,已毕X要素的提高。咱们尝试迟缓承担硅片、收罗或系统机箱的风险,以便在追求这些令东谈主难以置信的技巧时,能够鼓励行业上前发展。薇拉·鲁宾,我相称感谢她的孙辈们来到这里。这是咱们招供她并为她所作念出的凸起职业致意的契机。咱们下一代居品将以费曼定名。
接下来是英伟达的门路图。让我来和您谈谈企业盘算,这相称紧迫。
为了将东谈主工智能带入全球企业,咱们起先需要转向英伟达的不同部门。高斯散点图的精巧之处。
为了将东谈主工智能带入企业,让咱们退一步,提醒我方这一丝。请记着,东谈主工智能和机器学习还是澈底重塑了系数这个词盘算堆栈。
处理器不同了,操作系统不同了,顶层的应用范例也不同了。应用范例的运行方式不同,编排方式不同,实践方式也均不同。
举一个例子,您侦探数据的方式将与以前 fundamentally 不同。将来,咱们不会再精准地检索所需数据,然后阅读并尝试领悟它,而是会像使用Perplexity那样进行操作。咱们不再那样检索信息,而是径直向Perplexity冷漠我的问题,发问,然后它会给出谜底。
将来,企业IT也将禁受这种方式运作。
咱们将领有算作数字劳能源一部分的AI代理。全球罕有十亿知识型职工,将来可能会有100亿数字职工与咱们并肩职业。将来,全球3000万软件工程师中的100%皆将借助AI辅助器具。
我对此肯定不疑。到本年年底,英伟达100%的软件工程师皆将借助AI辅助器具。因此,东谈主工智能代理将无处不在。它们的运行方式、企业的运行方式以及咱们的运行方式皆将发生根人性的改变。
是以咱们需要新一代的盘算机。这才是个东谈主电脑应有的面孔:20 petaflops(千万亿次浮点运算),令东谈主难以置信。72个CPU中枢,芯片盘曲口,高带宽内存(HBM),此外,还有一些PCI Express插槽用于您的GeForce显卡。这叫作念DGX Station。
DGX Spark和DGX Station将由系数原始招引制造商(OEM)提供,包括惠普、戴尔、逸想、华硕。它将面向全球的数据科学家和揣度东谈主员坐褥。这是东谈主工智能期间的盘算机,这就是盘算机应该的面孔,这亦然将来盘算机的运行方式。
咱们现在为企业提供了一整套居品线。咱们提供从微型机到职业站、服务器,再到超等盘算机的各类居品。这些居品将由咱们系数的合作伙伴提供。咱们还将澈底蜕变其余的盘算架构。
请记着,盘算具有三大搭救,其一是盘算自身,而你们正在见证它的发展。其二是收罗,正如我之前提到的,Spectrum X 将面向全球企业,构建一个东谈主工智能收罗。第三是存储。存储必须澈底重新遐想,它将不再是基于检索的存储系统,而是一个基于语义的存储系统。因此,该存储系统必须陆续不竭地将信息镶嵌到后台。它接收原始数据,将其镶嵌到知识中,然后当您侦探它时,您无需检索它,而只需与它进行交互。你不错向它发问,也不错给它冷漠问题。
其中一个例子是Box公司的Aaron,他以致将其上传到云表,并与咱们合作将其上传到云表。它基本上是一个超等智能的存储系统。将来,每个企业皆将领有这么的系统。这就是将来的企业存储。
咱们正在与系数这个词存储行业合作,他们皆口舌常棒的合作伙伴,包括DDN、戴尔、惠普企业、日立、IBM、NetApp、Nutanix、Pure Storage、Vast和Weka。基本上,全球系数这个词存储行业皆将提供这一技巧栈。初度,您的存储系统将已毕GPU加速。戴尔将提供全系列的英伟达企业级IT东谈主工智能基础设施系统以及在其上运行的系数软件。因此,您不错看到咱们正在澈底变革全球企业。
咱们今天还晓喻了这款令东谈主难以置信的模子,每个东谈主皆不错运行。此前我向您展示了R1,一个推理模子。我将它与Llama 3(一个非推理模子)进行了比较。很彰着,R1要明智得多。但咱们还不错作念得更好,咱们不错使其成为任何公司皆可用的企业级居品。现在它全皆开源,是咱们称之为NIMS的系统的一部分。
您不错下载它,不错在职何方位运行它。您不错在DGX Spark上运行它。您不错在DGX Station上运行它。您不错在原始招引制造商(OEM)坐褥的任何服务器上运行它。您不错在云表运行它。您可将其集成到您的任何自主智能(Agentic AI)框架中。咱们正与宇宙各地的公司合作。
我将快速浏览这些内容,请仔细不雅看。我想感谢一些在座的优秀合作伙伴。
埃森哲,朱莉·斯威特和她的团队正在构建他们的AI工场和AI框架。Amdocs,全球最大的电信软件公司。AT&T公司,John Stanky偏执团队正在构建一个AT&T东谈主工智能系统,一个具有自主代理才略的系统。Larry Fink和贝莱德团队正在构建他们的系统。将来,Anyrood公司不仅会招聘ASIC遐想东谈主员,还会招聘广博来自Anyrood Cadence的数字ASIC遐想东谈主员来匡助咱们遐想芯片。因此,Cadence公司正在构建其东谈主工智能框架。
正如您所看到的,在每一个系统中,皆集成了NVIDIA模子、NVIDIA NIMS和NVIDIA库。因此,您不错将其在腹地、云表或任何云平台上运行。Capital One,一家在技巧应用方面最为先进的金融服务公司,无为使用了NVIDIA的技巧。德勤公司,Jason偏执团队。ENY公司,Janet偏执团队。纳斯达克公司,Dina偏执团队。将英伟达技巧集成到他们的AI框架中。然后是克里斯蒂安和他在SAP的团队。比尔·麦克德莫特和他在ServiceNow的团队。
起先,这是一个主题演讲,其第一张幻灯片就花了30分钟。然后系数其他幻灯片也皆花了30分钟。接下来,咱们换个方位吧。咱们来谈谈机器东谈主技巧。
机器东谈主期间还是到来。机器东谈主能够与物理宇宙互动并实践数字信息无法完成的任务,这是它们的上风所在。咱们相称明晰地知谈,宇宙正靠近着严重的劳能源短少。到本十年末,全宇宙至少将短少5000万名工东谈主。
咱们相称乐意支付每位工东谈主5万好意思元的年薪以眩惑他们来职业。咱们可能不得不每年支付机器东谈主5万好意思元的"薪水"以使其参加职业。因此,这将是一个相称宏大的产业。各类机器东谈主系统百花齐放。您的基础设施将已毕机器东谈主化。仓库和工场中将部署数十亿个录像头。全球约有1000万到2000万家工场。正如我之前提到的,每辆汽车履行上皆是一台机器东谈主。现在,咱们正在建造通用机器东谈主。让我向您展示咱们是怎样作念到的。
系数移动的物体皆将已毕自主化。物理东谈主工智能将赋能各类机器东谈主,应用于九行八业。三台英伟达制造的盘算机搭救机器东谈主东谈主工智能的陆续轮回模拟、教育、测试和真实宇宙训导反馈。机器东谈主教育需要海量数据。互联网规模的数据提供了学问和推理才略,但机器东谈主还需要行动和驾御数据,而这些数据的获取成本很高。
利用基于英伟达Omniverse和Cosmos构建的蓝图,开发者不错生成海量各类化的合成数据,用于教育机器东谈主的策略。
起先,在Omniverse中,开发者证据不同的领域、机器东谈主和任务,整合真实宇宙的传感器数据或演示数据。然后利用Omniverse对Cosmos进行条款处理,将原始齐集数据扩增为海量传神且各类化的数据。开发者使用Isaac Lab利用增强的数据集对机器东谈主策略进行后期教育。并通过效法学习克隆步履,或通过试错法以及强化学习AI反馈,让机器东谈主学习新妙技。实验室锻练与真实宇宙有所不同。新策略需要进行现场测试。开发者使用Omniverse进行软件和硬件在环测试,在具有真实宇宙环境动态、领域立地化、物理反馈和高保真传感器模拟的数字孪生体中模拟策略。
真实宇宙的操作需要多个机器东谈主协同职业。Mega,一个Omniverse蓝图,允许开发者大规模测试经事后期教育的机器东谈主策略集群。在此,富士康在一个造谣的英伟达Blackwell坐褥工场中测试异构机器东谈主。当机器东谈主大脑实践其任务时,它们通过传感器模拟感知其行动的完毕,然后筹谋下一个行动。Mega 允许开发者测试许多机器东谈主策略,使机器东谈主能够算作一个系统职业,不管是空间推理、导航、移动性照旧灵敏性方面。
令东谈主瞻仰的事物降生于模拟之中。今天,咱们推出 NVIDIA Isaac Groot N1。Groot N1 是一个用于东谈主形机器东谈主的通才基础模子。它建立在合成数据生成和模拟学习的基础之上。Groot N1 禁受了一种双系统架构,用于快速和慢速想考,其灵感来自于东谈主类阐明处理的道理。慢速想考系统允许机器东谈主感知和推理其环境和指示,并筹谋正确的行动。快速想考系统将筹画转变为精准且一语气的机器东谈主动作。Groot N1 的泛化才略使机器东谈主能够减轻地专揽常见物体并协同实践多法子序列。通过完整的合成数据生成和机器东谈主学习经过,东谈主形机器东谈主开发者不错对Groot N1进行跨多种形态、任务和环境的后期教育。
全宇宙各个行业的开发者皆在使用英伟达的三款盘算机来构建下一代具身东谈主工智能。物理东谈主工智能和机器东谈主技巧发展连忙。每个东谈主皆应该热心这一领域。这很可能成为系数行业中规模最大的一个。其中枢在于,咱们靠近着同样的挑战。正如我之前提到的,咱们热心三个方面。这些问题具有系统性。
起先,怎样处置数据问题?如因何及在那里创建教育东谈主工智能所需的数据?其次,模子架构是什么?第三,缩放损失是什么?咱们怎样彭胀数据、盘算才略或两者兼顾,从而使东谈主工智能越来越智能?咱们该怎样进行彭胀?这两个基本问题同样存在于机器东谈主领域。在机器东谈主领域,咱们创建了一个名为Omniverse的系统,它是咱们用于物理东谈主工智能的操作系统。历久以来,你们皆听我挑剔过Omniverse。
咱们向其中添加了两项技巧。今天,我将向你们展示两件事。其一,是为了让咱们能够彭胀具有生成才略和能够领悟物理宇宙的生成模子的AI。咱们称之为Cosmos。利用Omniverse来转变Cosmos,并利用Cosmos生成无穷数目的环境,使咱们能够创建塌实可靠的数据。这些数据塌实可靠,受咱们驾御,同期又具有系统性的无穷性。正如您所见,在Omniverse中,咱们使用糖果色来例如说明咱们怎样竣工地驾御场景中的机器东谈主,而Cosmos不错创建系数这些造谣环境。
第二点,正如咱们之前所有计划的,现在语言模子令东谈主难以置信的彭胀才略之一是强化学习,以及可考证的奖励。问题是,机器东谈主技巧的可考证奖励是什么?正如咱们相称明晰的那样,那就是物理定律。可考证的物理奖励。因此,咱们需要一个令东谈主难以置信的物理引擎。
嗯,大多数物理引擎的开发皆有各类各样的原因,可能是为了大型机械招引而遐想,也可能是为了造谣宇宙、电子游戏等等而遐想。但咱们需要一个专为精真金不怕火、刚性和软体遐想的物理引擎。该引擎的遐想宗旨是能够教育触觉反馈、精真金不怕火动作妙技和实践器驾御。咱们需要它能够进行GPU加速,以便这些造谣宇宙能够以超线性时期、超及时的方式运行,并以极快的速率教育这些AI模子。咱们还需要它与全球机器东谈主人人皆在使用的框架——MuJoCo——和谐地集成。
是以今天咱们要晓喻一些信得过绝顶的东西。这是三家公司的合作后果,辨认是DeepMind、迪士尼揣度和英伟达,咱们将其定名为Newton。让咱们来望望Newton,谢谢。
你认为新的物理引擎怎样样?你心爱它,是吗?是的,我敢打赌。我知谈。触觉反馈、刚体、柔体、仿真、超及时。你能设想刚才你所看到的一切皆是及时仿真吗?将来咱们将以此方式教育机器东谈主。
趁便说一下,蓝色机器东谈主里面有两台盘算机,两台英伟达显卡。看你多明智。是的,你很明智。
嘿,蓝色机器东谈主,听着。咱们把它带回家怎样样?咱们收尾这场主题演讲吧。该吃午饭了。你准备好了吗?咱们把它收尾掉吧。咱们还有一个公告。你阐述得很好。
就站在这里。好的,很好。
咱们还有另一个令东谈主奋发的音书。我告诉过你们,咱们的机器东谈主技巧取得了巨猛进展。今天,咱们晓喻Groot N1将开源。我想感谢诸位的光临。
让咱们总结一下。感谢诸位参加GTC大会。咱们有计划了几个方面。
第一,Blackwell已全面投产,而且发展势头令东谈主难以置信。客户需求相称烦躁。这是有充分情理的。因为东谈主工智能正处于一个拐点,由于推理型东谈主工智能和代理型东谈主工智能系统的教育,咱们需要进行的东谈主工智能盘算量大幅加多。
第二,配备Dynamo的Blackwell NVLink 72的AI工场性能是Hopper的40倍。跟着东谈主工智能的彭胀,推理将在将来十年景为最紧迫的职业负载之一。
第三,咱们已为您制定了年度门路图,以便您筹谋您的AI基础设施。然后,咱们正在建设两到三个AI基础设施,辨认面向云表的AI基础设施、面向企业的AI基础设施以及面向机器东谈主的AI基础设施。
咱们还有一个惊喜为您准备。
感谢人人。感谢系数使这段视频成为可能的合作伙伴色人阁第四色。感谢系数使这段视频成为可能的诸位。祝GTC大会圆满告捷。谢谢。