j9九游会官方登录结果那家公司即是 OpenAI-九游会j9·游戏「中国」官方网站

发布日期:2024-09-25 05:16    点击次数:94

还谨记那只"骑"瑜伽球的机械狗吗?j9九游会官方登录

过马路,走草地都稳巩固当,就算瑜伽球被放气也能如履幽谷。

怪不得之前有网友惊叹:机器东说念主立时就要统领寰球了吧?

赋予这只 Unitree Go1 的四足机器东说念主能骑瑜伽球才能的,是英伟达十大名堂之一 Eureka 的推广研究—— Dr. Eureka。它的特殊之处在于,它将捏造寰球中的试验后果平直漂浮到现实寰球,无需微调,平直灵验。

这项研究的论文作家之一是英伟达的高档科学家 Jim Fan,他主导了英伟达的具身智能研究。

Jim Fan 曾是 OpenAI 的第一个实习生,这段经历让他初次搏斗到通用东说念主工智能(AGI)的研究。不外那时候还莫得 Transformer,他通过强化学习得到的泛化结果并不睬想。

2016 年, Jim Fan 去斯坦福读博,师从李飞飞考验,转而研究具身智能规模直至当今。但他并莫得健忘最初始研究 AGI 的经历,即使换了规模也没放置我方对通用模子的酷爱。

Jim Fan 讲明说,机械狗只是他在通用"基础智能体"探索中的一个实例,他的个东说念主服务即是处置具身智能问题。

Jim Fan 相易的 GEAR 团队,全称"通用具身智能体研究",其中枢服务可以详细为"生成动作",即构建大意在捏造和物理寰球中奉行动作的具身智能体。前者属于游戏 AI 和模拟,后者即是咱们庸俗说的机器东说念主。

从 ChatGPT 就能看出,通用模子遒劲的统一性和拓展性才是 LLM 快速发展的要道。因此,Jim Fan 决定学习 NLP 的履历,把 GEAR 团队的研究要点放在建立通用基础模子的 GR00T 名堂上。

Jim Fan 还认为,在改日,捏造寰球和物理寰球将交融成一个单一维度上的不同现实。

机械狗使用的规模有时化时期可以在具有不同物理参数的捏造环境中试验智能体,使智能体大意泛化到现实寰球。独一捏造环境填塞多、填塞逼近物理寰球,还有一个能掌捏总计捏造环境的智能体,那么改日的物理寰球也可以被看四肢是捏造寰球的一部分。

固然机械狗开了个好头,但模拟到现实的移动果然太难了。Jim Fan 示意,由于数据蚁合的各类甘休,现存模子未能充分证实 Transformer 架构的后劲。

难归难,具身智能和通用具身智能体的但愿照旧很大的。

经历了前几年的"千里寂期"后,成绩于硬件升级、材料成本下跌和基础模子才能擢升的三重助力,具身智能规模总算迎来了新的复苏。雷峰网

Jim Fan 示意,具身智能飞扬再启,上风在我。要知说念,英伟达不仅坐拥芯片和模子,还有别家比不外的宏大策划资源和塌实的模拟时期基础。

更多对于具身智能和通用基础智能体的细节征询可以点击下方伙同,不雅看 Jim Fan 在红杉老本 Traning Data 播客节目中的妥贴共享。

https://www.youtube.com/watch?v=yMGGpMyW_vw&t=125s

雷峰网摘取了部分播客内容,作念了不改应允的精编处理:

从 OpenAI 到英伟达

Sonya Huang:我传闻你是 OpenAI 的首位实习生。能否共享一下你的经历,告诉咱们你是怎样走到当今的?

Jim Fan:天然可以。2016 年夏天,有一又友告诉我城里有个新的创业公司,建议我去望望。其时我刚被考中为博士生,阿谁夏天比拟平静,于是我决定去那家公司一探究竟。结果那家公司即是 OpenAI。在我加入 OpenAI 时,咱们如故在征询通用东说念主工智能(AGI)了。

其时,我的导师是 Andrej Karpathy 和 Ilya Sutskever。咱们一齐合营了一个名堂,叫作念" World of Bits "。这个名堂的想法相配肤浅:咱们想构建一个 AI 智能体,让它大意读取策划机屏幕上的像素,然后司法键盘和鼠标。你可以遐想,这种界面相配通用——无论是复兴邮件、玩游戏照旧浏览网页,都可以通过这种像素到键盘鼠主见映射来杀青。

这是我在 OpenAI 的第一次 AGI 尝试,亦然我在 AI 智能体研究的滥觞。

Stephanie Zhan:其时你们在使用智能体时际遇了哪些挑战?你合计有哪些冲破?

Jim Fan:其时咱们主要使用的是强化学习时期。2016 年还莫得 Transformer。

固然强化学习在特定任务上证实可以,但它的泛化才能有限。咱们无法让智能体把柄苟且说话指示奉行各式任务,比如使用键盘和鼠标。

因此,固然智能体在咱们遐想的任务中可以正常服务,但它不行确切泛化到其他任务上。

这亦然我投入下一个研究阶段的滥觞。

我去了斯坦福大学,在李飞飞考验的领导下攻读博士学位,初始专注于策划机视觉和具身智能。从 2016 年到 2021 年,在斯坦福的时期,我见证了策划机视觉实验室的研究从静态视觉(如图像和视频识别)转向具身视觉,也即是让智能体在交互环境中学习感知并聘用行动。这种环境可以是捏造的(在模拟中),也可以是现实寰球中的物理环境。

这即是我在博士时期转向具身智能的过程。

博士毕业后,我加入了英伟达,络续从事具身智能的研究。我把博士时期的研究带到了英伟达,并一直在这个规模服务于今。

Sonya Huang:你相易了英伟达的"具身智能"计划。能否肤浅先容一下这个名堂的真谛真谛,以及你们但愿达成的目的?

Jim Fan:我面前共同相易的团队叫作念 GEAR,全称是"通用具身智能体研究"。咱们的中枢服务可以用一个词详细——"生成行动"。

咱们接力于于构建具身智能体,这些智能体大意在不同环境中奉行动作。具体来说,如果这些动作发生在捏造寰球中,咱们的服务就触及游戏 AI 和模拟;而如果发生在现实寰球中,那即是机器东说念主时期。

本年三月的 GTC 大会上,Jensen 发布了名为" Project GR00T "的名堂,这是英伟达在打造东说念主形机器东说念主基础模子方面的"登月计划",亦然 GEAR 团队现时的要点。

咱们的目的是为东说念主形机器东说念主,致使更多规模的智能机器东说念主,构建遒劲的 AI 大脑。

Stephanie Zhan:你认为英伟达在这一规模的竞争上风是什么?

Jim Fan:这是一个很好的问题。

起先,英伟达的一大上风是策划资源。总计这些基础模子的推广都需要巨大的策划才能,而咱们驯顺 Scaling Law 的进犯性。固然咱们如故对雷同 L 模子的 Scaling Law 进行了研究,但具身智能和机器东说念主规模的 Scaling Law 仍然需要深切探讨,咱们正在积极进行这方面的服务。

英伟达的第二个坚贞是模拟。四肢一家也曾专注于图形的公司,英伟达在物理模拟、渲染以及 GPU 及时加快方面积聚了丰富的专科知识。这些时期在构建机器东说念主时证实了进犯作用,咱们在这方面的积聚极地面鼓动了咱们的研究。

Stephanie Zhan:对我来说,英伟达建造 GR00T 的一个道理之处在于,你之前提到的,英伟达领有芯片和模子本人。你认为英伟达可以如安在自有芯片上优化 GR00T?

Jim Fan:在三月的 GTC 大会上,Jensen 还发布了下一代角落策划芯片,名为 Jesson Sword,这一发布与名堂 GR00T 的发布同步进行。

咱们的计划是将这些芯片(包括 J 和 Thor 系列)与基础模子名堂 GR00T、以及咱们在过程中开发的模拟和实用器具集结起来,酿成一个统一的处置决议,打造一个一体化的策划平台,专为东说念主形机器东说念主和智能机器东说念主遐想。

我稀奇喜欢 Jensen 的一句话,他曾说:"总计能移动的东西最终都会变得自主。"我也相配认可这一不雅点。

固然当今还莫得透顶杀青,但咱们驯顺,改日十年或更永劫分后,智能机器东说念主将会像 iPhone 雷同普及。因此,咱们当今就需要初始为这个改日作念好准备。

东说念主形机器东说念主

机器东说念主的 GPT-3 时刻和 Scaling Law

Stephanie Zhan:为什么你认为许多行业仍然相配可爱确切寰球的数据呢?

Jim Fan:本质上,咱们确乎需要各式类型的数据,因为单靠模拟数据或确切寰球数据都远远不够。因此,在 GEAR 团队中,咱们将数据策略分为三大类:

互联网范围的数据:包括总计在线的文本和视频。

模拟数据:咱们使用英伟达的模拟器具生成无数合成数据。

确切的机器东说念主数据:通过良友操作机器东说念主来蚁合和记载本质操作中的数据。

我驯顺,收效的机器东说念主策略需要灵验整合这三类数据,以提供全面且统一的处置决议。这种综合的数据策略大意更好地相沿机器东说念主在各式环境中的证实和适合性。

Sonya Huang:咱们之前征询过在构建机器东说念主基础模子时数据的瓶颈问题。你怎样看待这个问题?具体来说,处置这个问题需要什么样的高质料数据?

Jim Fan:咱们征询的三种数据类型都有各自的优纰谬。

起先,互联网数据种类繁多,包含丰富的知识信息,可以匡助咱们了解东说念主类如何与物体互动,但不包含机器东说念主的动作司法信号,因此不行平直赢得机器东说念主的动作数据。

其次,模拟数据可以提供妥贴的动作数据并不雅察其效果,数据简直是无尽的且采集服从高。但模拟和现实之间仍存在差距,比如物理效果和视觉效果不透顶一致,场景也不如现实寰球各类。

终末,确切的机器东说念主数据来自确切寰球,莫得模拟与现实的差距,但采集成本高,需要东说念主工操作是以采集速率受限。

因此,最好的策略是综合这三种数据的优点,弥补相互的不及。

Sonya Huang:如果你能预测一下改日五年或十年,你但愿你们的团队大意杀青哪些逸想和成立?

Jim Fan:固然这只是我的预测,但我但愿在接下来的两到三年内,咱们大意看到机器东说念主基础模子的冲破。这将雷同于机器东说念主规模的 GPT-3 时刻。

但是j9九游会官方登录,机器东说念主投入东说念主们日常生涯不单是是时期问题,还触及经济性、大范围分娩才能、硬件安全性、心事和法则等多个方面。

这些成分可能会减速机器东说念主的普及,因此时分表会比拟难以预测。但我确乎但愿在改日两到三年内看到研究取得骨子性进展。

Stephanie Zhan:你如何界说东说念主工智能机器东说念主的 GPT-3 时刻?

Jim Fan:我将机器东说念主视为两个部分:系统一和系统二。这一认识起原于《念念考,快与慢》。

系统一触及低档次的、意外志的动作司法,比如捏杯子时的手指畅通。而系统二则是三念念尔后行的推理和遐想。

GPT-3 时刻指的是机器东说念主在系统一方面的冲破。比如,"翻开"这个词在不悯恻境下有不同含义,东说念主类天然相识这些含义,但面前的机器东说念主模子还未能在这些低档次动作司法上进行灵验泛化。

我期待改日能出现这么的模子。

Sonya Huang:那么,对于系统二的念念考呢?你认为咱们如何才能杀青这少许?大型说话模子(LLM)规模的一些推理竭力是否会对机器东说念主规模有所启发?

Jim Fan:确乎有启发。

面前的模子在系统二的推理和遐想方面已有进展。但将系统二与系统一集结是个挑战。咱们需要决定是用一个统一的模子,照旧分开使用系统一和系统二,并让它们相互探讨。

全体模子的爱戴很肤浅,但具体的司法比拟复杂,分层方法可能更灵验。如安在这两种系统间进行灵验探讨仍不解确,这将是改日的研究要点。

Sonya Huang:你认为咱们能在系统一念念维方面取得冲破吗?是通过范围和 Transformer 的擢升,照旧更多依赖于运说念?

Jim Fan:我但愿咱们的数据策略能匡助杀青冲破。Transformer 的后劲尚未透顶证实。

咱们需要整合互联网数据、模拟数据和确切机器东说念主数据,一朝在数据管说念中扩大范围,并将高质料的动作数据标记化后传递给 Transformer,可能会看到新特点。

我称之为具身智能的 Scaling Law,当今只是初始。

通用模子

Sonya Huang:你为什么会专注于类东说念主机器东说念主(humanoid robots)?

Jim Fan:有几个本质的原因。起先,类东说念主机器东说念主试验起来相对容易,因为网上有无数以东说念主类为中心的数据和视频,这些数据记载了咱们日常的行径。由于类东说念主机器东说念主的步地接近东说念主类,它们大意更好地期骗这些数据,尤其是五指操作的场景。掌捏了类东说念主机器东说念主时期后,咱们可以将这些时期移动到其他类型的机器东说念主,从而杀青更泛泛的通用性。

Stephanie Zhan:是以你们当今只专注于试验类东说念主机器东说念主,而不是机器东说念主手臂或机器东说念主狗?

Jim Fan:是的,面前咱们的要点确乎是类东说念主机器东说念主。不外,咱们开发的管说念,包括模拟和确切机器东说念主器具,具备了填塞的通用性,改日可以适合其他机器东说念主平台。

咱们的目的是构建一个泛泛适用的器具,以便在改日可以应用于多种机器东说念主步地。

Sonya Huang:你提到了许屡次"通用"这个词,你为什么取舍了通用的方法?另外,你认为 Richard Sutton 的"更惨的训诲"是否在机器东说念主规模也适用?

Jim Fan:我认为通用模子确乎是值得追求的。我先讲讲天然说话处理(NLP)的收效故事。

在 ChatGPT 和 GPT-3 出现之前,NLP 规模有许多专用的模子和经由,用于翻译、编码、数学运算和创意写稿等。这些模子和经由都是为特定任务量身定作念的专用模子。

但 ChatGPT 的出现将这些功能统一到一个通用模子中。GPT-3 和 ChatGPT 四肢通用模子,可以被教导、微统一索要,以适合各式专用任务。

通用模子常常比专用模子更遒劲,更易于爱戴,因为它们只需要一个 API 来处理输入和输出。

在机器东说念主规模,咱们但愿鉴戒 NLP 的收效履历。

面前大多数机器东说念主应用仍处于专用阶段,使用特定的硬件、数据和经由。GR00T 的目的是建立一个通用基础模子,起先在类东说念主机器东说念主上应用,之后可以推行到其他机器东说念主步地。

一朝咱们有了这么的通用模子,咱们就可以对其进行微统一索要,以应酬特定的机器东说念主任务。

尽管短期内专注于特定任务会更容易,但英伟达让咱们驯顺,改日属于通用模子。固然开发周期较长且濒临更多复杂的研究问题,但这是咱们追求的主要目的。

机器东说念主规模的复兴

Sonya Huang:你们的研究中有莫得稀奇值得强调的后果?有莫得什么让你对你们的方法感到乐不雅或充满信心的所在?

Jim Fan:确乎有一个值得稀奇提到的后果,那即是咱们的 Urea 名堂。咱们展示了一个五指机器东说念主手大意收效转笔的任务。

这个任务对我来说尤其具有个东说念主真谛真谛,因为我小时候尝试转笔老是作念得不好。如果我我方去作念现场演示,我可能会搞砸,但咱们的机器东说念主手却能草率完成。

这项研究的要道在于,咱们使用了 L 模子来编写代码,这些代码用于英伟达开发的 IS6 Sim API 模拟器。

L 模子生成的代码界说了奖励函数,这个函数用于次第咱们盼望的逸想行径。机器东说念主按照奖励函数的领导进行操作,正确奉行任务会赢得奖励,乌有则会受到刑事背负。

常常,奖励函数的遐想是由群众进行的,这需要无数的专科知识和手动操作。而 Urea 名堂通过自动化遐想奖励函数,使机器东说念主大意完成复杂的任务,如转笔。

这个通用时期不仅限于转笔,咱们计划将其应用于更多任务,并在英伟达的模拟 API 中生成新的任务。这为咱们提供了巨大的发展空间。

Sonya Huang:你认为此次机器东说念主规模的复兴原因是什么?五年前,研究东说念主员尝试用机器东说念主手处置魔方等问题时,曾有过一段破灭期。当今这个规模又重新活跃起来,你认为有什么不同?

Jim Fan:当今有几个要道成分使情况不同。

起先是硬件的稀奇。比年来,新式机器东说念主硬件的出现速率相配快。举例,特斯拉正在研发 Optimus,波士顿能源等公司也不停推出新时期,还有许多初创公司投入这一规模。这些新硬件更先进,举例更天果然机械手和更高的可靠性,这是一个进犯成分。

其次是价钱的下跌,类东说念主机器东说念主的价钱显贵镌汰。2001 年,NASA 开发的东说念主形机器东说念主 Robonaut 价钱稀奇 150 万好意思元。而最近一些公司能将东说念主形机器东说念主的价钱降到约 3 万好意思元,这很是于一辆汽车的价钱。

此外,锻真金不怕火居品的价钱往往接近原材料成本。东说念主形机器东说念主常常只需汽车原材料的 4%,是以改日几年咱们可能会看到价钱络续下跌,致使出现指数级的降幅,使这些先进硬件变得愈加实惠。

第三个成分是基础模子的进展。咱们当今看到的前沿模子如 GPT、Claude 和 Llamas 等在推理和遐想方面取得了显贵进展。这些说话模子不仅大意推广到新场景,还能编写代码。咱们在 Urea 名堂中即是期骗这些说话模子的编码才能来开发新的机器东说念主处置决议。

此外,跨模态模子的兴起也改善了策划机视觉和感知才能。这些收效案例饱读舞咱们络续追求机器东说念主基础模子,期骗前沿模子的泛化才能,再集结动作生成时期,鼓动类东说念主机器东说念主的发展。

捏造寰球研究

Minecraft 的探索

Sonya Huang:你起先的研究主要王人集在捏造寰球。能谈谈你为什么对 Minecraft 感酷爱,以及它与机器东说念主时期的关系吗?捏造寰球对你来说有什么稀奇的眩惑力?

Jim Fan:我的目的是处置具身智能的问题,包括游戏和仿真,这亦然我对捏造寰球稀奇感酷爱的原因。我喜欢玩游戏,是以对 Minecraft 稀奇感酷爱。我不是稀奇擅长 Minecraft,这亦然我但愿 AI 能弥补我的时期不及的原因。

我作念过两个关联的游戏名堂。第一个是 Mine Dojo,咱们开发了一个平台来在 Minecraft 中试验通用智能体。Minecraft 是一个绽开的 3D 寰球,你可以解放探索和创造。咱们从互联网上蚁合了无数数据,如游戏视频和关联征询,用这些数据试验模子玩 Minecraft。

第二个名堂是 Voyager。在 GPT-4 出现后,咱们尝试将编程视为一种行动,开发了 Voyager Agent。它通过编写代码与 Minecraft 互动。

咱们用 API 将 Minecraft 的寰球赈济为文本,然后让 Agent 编写代码。Agent 在际遇乌有时会得到反应并修正智商,慢慢积聚妙技。总计的妙技被保存到一个库中,改日可以相通使用。

此外,Voyager 还有"自动课程"(Automatic Curriculum)机制,大意自我判断掌捏了什么,提议符合的任务,匡助它不停稀奇。

智能体的优化

Sonya Huang:为什么捏造寰球的研究如斯丰富?捏造寰球中的问题处置与物理寰球的问题处置有什么酌量?

Jim Fan:尽管游戏和机器东说念主看起来不同,但它们其实有许多相似之处。两者都触及到具身智能体,输入包括视频流和传感器数据,输出是行径。

在游戏中,这些行径是键盘和鼠标操作;在机器东说念主中,则是电机司法。无论是捏造照旧物千里着安适能体,都需要在环境中探索并蚁合数据,这即是强化学习和自我探索的基本原则。

不外,机器东说念主濒临的一个挑战是如那里置模拟与现实之间的差距。模拟中的物理和渲染不完好意思,将模拟中的学习移动到现实寰球很贫瘠。

游戏则莫得这个问题,因为试验和测试都在归并个捏造环境中。

这是捏造寰球和物理寰球的主要别离。

旧年,我提议了一个认识,称为"基础智能体"。我驯顺改日会有一个模子大意同期适用于捏造和物千里着安适能体。

基础智能体有三个方面的泛化才能:

大意完成的妙技;

大意司法的身形或步地;

大意掌捏的寰球或现实。

我但愿改日能有一个单一模子,可以在不同的机器东说念主步地和智能体步地上完成各式妙技,并在多种捏造或现实寰球中泛化。这是咱们团队追求的最终愿景。

Stephanie Zhan:你对于游戏寰球中的智能体有哪些个东说念支配想?你但愿看到 AI 智能体在游戏寰球中有哪些翻新?

Jim Fan:我稀奇期待两个方面。起先是"活" NPC 的出现。如果 NPC 大意与玩家互动、记着对话并影响游戏情节,这么每个东说念主的游戏体验都会不同,加多了游戏的重玩价值。

其次是游戏寰球的及时生成。将生成 3D 模子、视频和故事情节的时期集结起来,让游戏寰球在玩家互动中及时生成,这将创造一个确切绽开的体验,相配令东说念主繁荣。

Stephanie Zhan:对于智能体的才能需求,你认为需要 GPT-4 级别的才能,照旧像 Llama 8B 这么的模子就填塞了?

Jim Fan:智能体需要具备以下才能:道理的对话、踏实的个性、恒久挂念,并能谢寰球中行动。固然 Llama 模子如故作念得可以,但仍不及以产生相配各类化和眩惑东说念主的行径。

另外,推理成本亦然一个问题。如果智能体要提供给玩家使用,那么它们要么需要在云表低成本托管,要么需要在拓荒上土产货运行,不然在成本方面将难以推广。

Sonya Huang:你认为捏造寰球的服务是否主若是为了杀青现实寰球中的目的?照旧捏造寰球的服务本人即是值得追求的?物理寰球和捏造寰球的优先级如何?

Jim Fan:我认为捏造寰球和物理寰球最终会交融成一个统一的现实。

举例,规模有时化时期通过在数不胜数种不同的模拟环境中试验机器东说念主来杀青这少许。

每种模拟环境都有不同的物理参数,比如重力和摩擦力。如果咱们有一个智能体大意掌捏这些各类化的模拟环境,它将能更好地泛化到现实寰球。

咱们但愿通过这种方法将模拟中的学习平直漂浮到现实寰球。这标明捏造寰球的试验和现实寰球的应用是相互酌量的,捏造寰球的妙技可以匡助咱们在现实中取得成立。

Transformer 的替代品

Sonya Huang:在捏造寰球规模,那些优秀的模子大多基于 Transformer 架构。你认为咱们是否如故准备好大范围应用 Transformer,照旧说在模子方面仍然需要一些基础性的冲破?

Jim Fan:我认为,咱们还莫得将 Transformer 架构的后劲证实到极致。

尽管 Transformer 在许多方面证实出色,但面前的数据问题仍然是一个瓶颈。咱们无法从互联网平直下载这些动作数据,因为它们常常不附带模子司法数据。

因此,咱们必须在模拟环境或确切机器东说念主上蚁合这些数据。一朝咱们建立了锻真金不怕火的数据管说念,咱们可以平直用 Transformer 处理数据,就像 Transformer 预测维基百科上的下一个词雷同。

固然咱们正在测试这些假定,但 Transformer 的后劲尚未被透顶挖掘。

此外,还有许多对于 Transformer 替代架构的研究。比如 Mamba 以及最近的时分试验等替代决议,这些都是很有出路的想法。

固然这些替代决议在面前的前沿模子性能上还未显贵超越 Transformer,但我对它们充满期待,并但愿看到它们在改日的发展。

Stephanie Zhan:有哪个模子稀奇引起了你的防范,为什么?

Jim Fan:我稀奇珍爱 Mamba 和测试时分试验。这些模子在推理过程中展现了更高的服从。

与 Transformer 处理总计的令牌不同,这些模子具备更高效的机制。我认为它们后劲很大。

但是,咱们还需要将它们推广到前沿模子的范围,确切比拟它们与 Transformer 的效果。这将匡助咱们更好地相识它们在本质应用中的证实。雷峰网