大模子的具身智能方案才调,终于有系统的通用评估基准了。
李飞飞吴佳俊团队新建议的评估框架,对具身智能方案的四项要道子才调来了个全面旁观。
这套基准还是被选为了 NeurIPS 数据和测试集(D&B)专栏 Oral 论文,同期也被收录进了 PyPI,惟有一瞥代码就能快速调用。
该框架名为Embodied Agent Interface(简称 EAI),提供了贯串不同模块和基准环境的轨范接口。
诈欺这套框架,作家对 18 款主流模子进行了测试,酿成了一篇超百页的论文。
测试收尾理会,在已公开的大模子当中,o1-preview 的轮廓收成位列第一。
李飞飞本东说念主暗示,对这项谐和扣问感到颠倒郁勃。
有网友评价说,这项收尾为大模子具身智能方案塑造了未来。
四项子才调全面评估
最初,EAI 提供了一种搭伙的方向暗示秩序,玩忽兼容不同类型的方向,并相沿复杂连续的态状。
团队合计,现存的具身方案任务频繁针对特定限制遐想方向,枯竭一致性和通用性。
举例,BEHAVIOR 和 VirtualHome 王人是具身智能体的评测基准和模拟环境,用于扣问智能体在复杂环境中完成任务的才调。
但二者又有所区别,BEHAVIOR 使用基于气象的方向,而 VirtualHome 使用时刻扩张的方向。
EAI 则通过引入线性时态逻辑(LTL),完了了方向暗示形状的搭伙,提升了模块之间的互操作性,便于比较不同模子在归拢任务上的推崇。
在具体的评估经过当中,EAI 袭取了模块化的评估形状,并将评估打算进行了更细粒度的差异。
以往的扣问频繁将大模子动作举座进行评估,很少照管其在具身方案各个子任务上的推崇;
同期,这些现存基准频繁只照管任务的最终生效用,很少深远分析模子的造作类型和原因。
为了更深远融会大模子的行动模式和优劣势散布,EAI 建议了四个要道才调模块,并遐想了一系列细粒度的评估打算:
将模子才调分为四个要道模块;
界说了明晰的输入输出接口;
从轨迹可践诺性、方向温柔度、逻辑匹配性等多个角度评估模子的性能;
引入了丰富的刺目(如方向气象、研究、动作),以完了自动化的造作分析。
具体来说,四个要道模块及骨子分别是:
方向评释(Goal Interpretation):将当然言语表述的任务方向转机为形貌化的 LTL 方向公式;
子方向理解(Subgoal Decomposition):将任务方向理解为一系列子方向,每个子方向也用 LTL 公式暗示;
动作序列诡计(Action Sequencing):笔据任务方向生成动作序列,在环境中践诺以达成方向气象;
诊治建模(Transition Modeling):为每个动作或操作符生成前提条款和效果,酿成环境诊治模子。
另外,EAI 选取了两个具有代表性但特质迥异的环境,也即是前边提到的 BEHAVIOR 和 VirtualHome。
比较于单一环境评估,EAI更能查验大模子跨限制的泛化才调,有助于全面融会其适用领域和局限性。
o1-preview 轮廓收成第一
诈欺 EAI 这套轨范,扣问团队对 GPT、Claude、Gemini 等 18 款主流模子(型号)的方案才调进行了评估。
在 BEHAVIOR 和 VirtualHome 环境下,o1-preview 均取得了排名榜轮廓收成第又名。
其中在 BEHAVIOR 环境中,o1-preview 得分为 74.9,比第二名的 Claude 3.5 Sonnet 高了 10 多分,排在之后的是 60 分傍边的 Claude 3 Opus 和 GPT-4o。
到了 VirtualHome 环境下,依然是 o1-preview 向上,但前三名的收成相对接近。
同期 Gemini 1.5 Pro 变成了第二名,不外举座来看排名靠前的几个模子和 BEHAVIOR 环境访佛。
虽然淌若比较单项才调,不同模子也体现出了各自不同的上风神色。
比如在 BEHAVIOR 环境中,总分排第二的 Claude 3.5 Sonnet,方向评释才调略高于总分排第一的 o1-preview。
在 VirtualHome 环境中,总分相对靠后的 Mistral Large,在动作序列诡计上取得了第又名。
作家还对各模子的失败情况进行了深远分析,发现了将中间气象误识别为最终方向气象、对隐含的物理研究融会不及、忽略伏击的前提条款等具体问题。
这些发现玩忽让扣问东说念主员对模子的优颓势进行更深层的了解,为之后的扣问提供了伏击参考。
神色主页:
https://embodied-agent-interface.github.io/
论文:
https://arxiv.org/abs/2410.07166
代码:
https://github.com/embodied-agent-interface/embodied-agent-interface
数据集:
https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface开云体育