土产货 GPU 运行,7B 系统 2 模子 + 80M 系统 1 模子,可多机器东谈主共用「大脑」。
在 2 月份倏得告示完了与 OpenAI 合作之后,有名机器东谈主初创公司 Figure AI 在本周四晚公开了背后的原因:他们也曾造出了我方的通用具身智能模子 Helix。
Helix 是一个通用的视觉 - 说话 - 动作(VLA)模子,它融合了感知、说话理会和学习限制,以克服机器东谈主时间中的多个长期挑战。
Helix 创造了多项第一:
全身限制:它是历史上第一个类东谈主机器东谈主上半身的高速连气儿限制 VLA 模子,覆盖手腕、躯干、头部和单个手指;
多机器东谈主相助:不错两台机器东谈主用一个模子限制相助,完成前所未见的任务;
抓取任何物品:不错捡起任何袖珍物体,包括数千种它们从未遭逢过的物品,只需顺服天然说话指示即可;
单一神经汇聚:Helix 使用一组神经汇聚权重来学习整个举止 —— 抓取和舍弃物品、使用抽屉和雪柜、以及跨机器东谈主交互 —— 无需任何任务特定的微调;
土产货化:Helix 是史上第一个在土产货 GPU 运行的机器东谈主 VLA 模子,也曾具备了贸易化落地能力。
在智能驾驶领域,本年各家车厂都在推动端到端时间的大领域落地,如今 VLA 驱动的机器东谈主也已进入了贸易化的倒计时,如斯看来 Helix 可谓是具身智能的一次重要冲突。
一组 Helix 神经汇聚权重同期在两个机器东谈主上运行,它们协同责任,将从未见过的杂货色品收纳起来。
东谈主形机器东谈主时间的新膨胀
Figure 暗示,家庭环境是机器东谈主时间濒临的最大挑战。与受控的工业环境不同,家庭中充满了无数非律例物体,如易碎的玻璃器皿、皱巴巴的衣物、洒落的玩物,每件物品的神气、大小、脸色和质地都难以筹画。为了让机器东谈主在家庭中阐发作用,它们需要能够按需生成智能的新举止。
现时的机器东谈主时间无法膨胀到家庭环境中 —— 当今,即使教机器东谈主一个单一的新举止,也需要无数的东谈主力参加。要么需要数小时的博士级众人手动编程,要么需要数千次的演示,这两种要道的资本都高得令东谈主隐敝而视。
图 1:不同要道获取新机器东谈主妙技的膨胀弧线。在传统的启发式操作中,妙技的增长依赖于众人手动编写剧本。在传统机器东谈主师法学习中,妙技的膨胀依赖于网罗的数据。而通过 Helix,新妙技不错通过说话即时指定。
现时,东谈主工智能的其他领域也曾掌抓了这种即时泛化的能力。淌若能粗浅地将视觉 - 说话模子(VLM)中拿获的丰富语义知识平直滚动为机器东谈主动作,约略会完毕时间冲突。
这种新能力将从根柢上改换机器东谈主时间的膨胀轨迹(图 1)。于是,重要问题形成了:如何从 VLM 中提真金不怕火整个这些学问性知识,并将其滚动为可泛化的机器东谈主限制?Figure 构建了 Helix 来弥合这一差距。
Helix:首个机器东谈主系统 1 + 系统 2 VLA 模子
Helix 是机器东谈主领域上草创的「系统 1 + 系统 2」VLA 模子,用于高速、机灵地限制通盘东谈主形机器东谈主上半身。
Figure 暗示,先前的要道濒临一个根人性的衡量:VLM 骨干是通用的,但速率不快,而机器东谈主视觉畅通计谋是快速的,但不够通用。Helix 通过两个互补的系统处治了这一衡量,这两个系统历程端到端的考试,不错进行通讯:
系统 1 ( S1 ) :一种快速反应的视觉畅通计谋,可将 S2 产生的潜在语义表征革新为 200 Hz 的精准连气儿机器东谈主动作;
系统 2 ( S2 ) :一个机载互联网预考试的 VLM,以 7-9 Hz 运行,用于场景理会和说话理会,完毕跨物体和高下文的粗造泛化。
这种解耦架构允许每个系统在其最好时刻程序上运行。S2 不错「逐渐想考」高脉络宗旨,而 S1 不错「快速想考」机器东谈主及时引申和疗养的动作。举例,在相助举止中(见下图),S1 不错快速适结伴伴机器东谈主不停变化的动作,同期保持 S2 的语义宗旨。
Helix 能让机器东谈主快速进行邃密的畅通疗养,这是在引申新语义宗旨时对相助伙伴作念出反应所必需的。
Helix 的策画相较于现存要道具有以下几个重要上风:
速率与泛化能力:Helix 在速率上与专门用于单一任务的举止克隆计谋非常,同期能够零样本泛化到数千种新测试对象上;
可膨胀性:Helix 平直输出高维动作空间的连气儿限制,幸免了之前 VLA 要道中使用的复杂动作记号化决策。这些决策在低维限制缔造(举例二值化平行夹爪)中取得了一些收效,但在高维东谈主形限制中濒临膨胀挑战;
架构简陋性:Helix 使用措施架构 —— 一个开源的、敞开权重的 VLM 用于系统 2,以及一个粗浅的基于 Transformer 的视觉畅通计谋用于系统 1;
柔柔点分离:将 S1 和 S2 解耦使咱们能够分手迭代每个系统,而无需受限于寻找融合的不雅察空间或动作暗示。
Figure 先容了部分模子及考试细节,其网罗了一个高质料、多机器东谈主、多操作员的各种化遥操作举止数据集,共计约 500 小时。为了生成天然说话条款下的考试对,工程东谈主员使用了一个自动标注的视觉说话模子(VLM)来生成过后指示。
该 VLM 会处理来自机器东谈主机载录像头的分段视频片断,并指示:「你会给机器东谈主什么指示以使其引申视频中看到的动作?」考试时间处理的整个物品在评估中被摒除,以防护数据欺凌。
模子架构
Helix 系统主要由两个主要组件构成:S2,一个 VLM 骨干汇聚;S1,一个潜在条款视觉畅通 Transformer。
S2 基于一个 70 亿参数的开源、敞开权重的 VLM 构建,该 VLM 在互联网领域数据上进行了预考试。它处理单目机器东谈主图像和机器东谈主现象信息(包括手腕姿态和手指位置),并将它们投影到视觉说话镶嵌空间中。结合指依渴望举止的天然说话指示,S2 将整个语义任务干系信息提真金不怕火为一个连气儿的潜在向量,传递给 S1 以调节其初级动作。
S1 是一个 8000 万参数的交叉提防力编码器 - 解码器 Transformer,谨慎初级限制。它依赖于一个都备卷积的多程序视觉骨干汇聚进行视觉处理,该汇聚都备在模拟环境中进行预考试运行化。天然 S1 接受与 S2 相易的图像和现象输入,但它以更高的频率处理这些输入,以完毕更灵敏的闭环限制。来自 S2 的潜在向量被投影到 S1 的记号空间中,并与 S1 视觉骨干汇聚提真金不怕火的视觉特征沿序列维度谀媚,提供任务条款。
在责任时,S1 以 200 赫兹的频率输出圆善的上半身东谈主形限制,包括渴望的手腕姿态、手指屈曲和外展限制,以及躯干和头部场合宗旨。Figure 在动作空间中附加了一个合成的「任务完成百分比」动作,使 Helix 能够筹画本人的远隔条款,从而更容易对多个学习到的举止进行排序。
考试
Helix 的考试是都备端到端的:从原始像素和文本呐喊映射到具有措施回来耗损的连气儿动作。
梯度的反向传播旅途是通过用于调节 S1 举止的隐通讯向量从 S1 到 S2,从而允许对这两个组件进行联合优化。
Helix 不需要针对具体某某任务进行疗养;它只需守护单个考试阶段和一组神经汇聚权重,无需单独的动作头或针对每个任务的微调阶段。
在考试时间,他们还会在 S1 和 S2 输入之间添加一个时刻偏移量。此偏移量历程校准以匹配 S1 和 S2 部署的推理蔓延之间的差距,确保部署时间的及时限制要求准确反应在考试中。
历程优化的流式推理
Helix 的考试策画可完毕在 Figure 机器东谈主上高效地并行部署模子,每台机器东谈主都配备了双低功耗镶嵌式 GPU。推理管谈分为 S2(高等隐筹画)和 S1(初级限制)模子,每个模子都在专用 GPU 上运行。
S2 当作异步后台进度运行,用于处理最新的不雅察遣散(机载录像头和机器东谈主现象)和天然说话呐喊。它不停更新编码高等举止意图的分享内存隐向量。
S1 当作单独的及时进度引申,其宗旨是守护让通盘上身动作平滑引申所需的重要 200Hz 限制回路。它的输入是最新的不雅察遣散和最新的 S2 隐向量。由于 S2 和 S1 推理之间存在固有的速率差异,因此 S1 天然会在机器东谈主不雅察上以更高的时刻分辨率运行,从而为反应限制创建更紧密的反馈回路。
这种部署计谋挑升反应了考试中引入的时刻偏移量,从而可最大铁心地减少考试推理漫衍差距。这种异步引申模子允许两个进度以各自最好频率运行,使 Helix 的运行速率能与最快的单任务师法学习计谋不异快。
道理道理的是,在 Figure 发布 Helix 之后,清华大学博士生 Yanjiang Guo 暗示当时间想路与他们的一篇 CoRL 2024 论文颇为相似,感酷爱的读者也可参照阅读。
论文地址:https://arxiv.org/abs/2410.05273
遣散
细粒度 VLA 全上身限制
Helix 能以 200Hz 的频率和谐 35 目田度的动作空间,限制从单个手指畅通到结尾引申器轨迹、头部持重和躯干姿势等一切。
头部和躯干限制具有独到的挑战 —— 当头部和躯干移动时,会改换机器东谈主不错涉及的范围和不错看到的范围,从而产生反馈回路,昔时这种反馈回路会导致不安稳。
视频 3 演示了这种和谐的实质操作:机器东谈主用头部巩固地追踪双手,同期疗养躯干以得回最好涉及范围,同期保持精准的手指限制以进行抓抓。在此之前,在如斯高维的动作空间中完毕这种精度水平是很难的,即使关于单个且已知的任务亦然如斯。Figure 公司暗示,之前还莫得 VLA 系统能够阐发出这种程度的及时和谐,同期保持跨任务和物体泛化的能力。
Helix 的 VLA 能限制通盘东谈主形机器东谈主上半身,这是机器东谈主学习领域首个作念到一丝的模子。
零样本多机器东谈主协同
Figure 暗示,他们在一个高难度多智能体操作场景中将 Helix 推向极限:两台 Figure 机器东谈主相助完毕零样本杂货存放。
视频 1 展示了两个基才略先:两台机器东谈主收效地操作了全新的货色(考试时间从未遭逢过的物品),展示了对各种神气、大小和材料的妥当泛化。
此外,两个机器东谈主都使用相易的 Helix 模子权重进行操作,无需进行特定于具体机器东谈主的考试或明确的变装分派。它们的协同是通过天然说话指示词完毕的,举例「将一袋饼干递给你右边的机器东谈主」或「从你左边的机器东谈主那处接过一袋饼干并将其放在大开的抽屉里」(参见视频 4)。这是初度使用 VLA 展示多台机器东谈主之间活泼、膨胀的相助操作。斟酌到它们收效处理了全新的物体,这项确立就显得尤其显赫了。
显清晰「提起任何东西」能力
只需一个「提起 [ X ] 」指示,配备了 Helix 的 Figure 机器东谈主基本就能提起任何袖珍家用物品。在系统性测试中,无需任何预先演示或自界说编程,机器东谈主就收效地处理了参差摆放的数千件新物品 —— 从玻璃器皿和玩物到用具和衣裳。
极度值得提防的是,Helix 不错建造互联网领域的说话理会和精准的机器东谈主限制之间的干系。举例,当被指示「提起沙漠物品」时,Helix 不仅能笃定出玩物仙东谈主掌与这个轮廓倡导相匹配,还能聘任最近的手并能通过精准畅通呐喊安全地抓起它。
Figure 公司暗示:「关于在非结构化环境中部署东谈主形机器东谈主,这种通用的『说话到动作』抓取能力斥地了令东谈主抖擞的新可能。」
Helix 可将「提起 [ X ] 」等高层面指示转译成低层动作。
操办
Helix 的考试成果很高
Helix 以小数的资源完毕了弘大的物体泛化。Figure 公司暗示:「咱们整个使用了约 500 小时的高质料监督数据来考试 Helix,这只是是之前网罗的 VLA 数据集的一小部分(
单一权重集
现存的 VLA 系统频频需要专门的微调或专用的动作头来优化引申不同高等举止的性能。值得提防的是,Helix 仅使用一组神经汇聚权重(系统 2 为 7B、系统 1 为 80M),就不错完成在各种容器中拾取和舍弃物品、操作抽屉和雪柜、和谐机灵的多机器东谈主交代以及主管数千个新物体等动作。
「提起 Helix」(Helix 意为螺旋)
总结
Helix 是首个通过天然说话平直限制通盘东谈主形机器东谈主上半身的「视觉 - 说话 - 动作」模子。与早期的机器东谈主系统不同,Helix 能够即时生成长视界、相助、机灵的操作,而无需任何特定于任务的演示或无数的手动编程。
Helix 阐发出了弘大的对象泛化能力,能够提起数千种神气、大小、脸色和材料特点相反的新奇家居用品,况兼这些物品在考试中从未遭逢过,只需用天然说话呐喊即可。该公司暗示:「这代表了 Figure 在膨胀东谈主形机器东谈主举止方面迈出了变革性的一步 —— 咱们投降,跟着咱们的机器东谈主越来越多地协助平日家庭环境,这一步将至关瑕疵。」
天然这些早期遣散如实令东谈主抖擞,但总体来说,咱们上头看到的还都属于倡导考据,只是展示了可能性。实在的变革将发生在能大领域实质部署 Helix 的时候。期待那一天早些到来!
终末顺带一提,Figure 的发布可能只是本年具身智能盛大冲突的一小步。今天凌晨,1X 机器东谈主也官宣行将推出新品。
欧洲杯投注入口
下一篇:没有了