开云体育对这项谐和扣问感到颠倒郁勃-开云集团「中国」Kaiyun·官方网站

开云集团「中国」Kaiyun·官方网站
栏目分类
你的位置:开云集团「中国」Kaiyun·官方网站 > 新闻 > 开云体育对这项谐和扣问感到颠倒郁勃-开云集团「中国」Kaiyun·官方网站
开云体育对这项谐和扣问感到颠倒郁勃-开云集团「中国」Kaiyun·官方网站
发布日期:2025-04-18 04:14    点击次数:192

开云体育对这项谐和扣问感到颠倒郁勃-开云集团「中国」Kaiyun·官方网站

大模子的具身智能方案才调,终于有系统的通用评估基准了。

李飞飞吴佳俊团队新建议的评估框架,对具身智能方案的四项要道子才调来了个全面旁观。

这套基准还是被选为了 NeurIPS 数据和测试集(D&B)专栏 Oral 论文,同期也被收录进了 PyPI,惟有一瞥代码就能快速调用。

该框架名为Embodied Agent Interface(简称 EAI),提供了贯串不同模块和基准环境的轨范接口。

诈欺这套框架,作家对 18 款主流模子进行了测试,酿成了一篇超百页的论文。

测试收尾理会,在已公开的大模子当中,o1-preview 的轮廓收成位列第一。

李飞飞本东说念主暗示,对这项谐和扣问感到颠倒郁勃。

有网友评价说,这项收尾为大模子具身智能方案塑造了未来。

四项子才调全面评估

最初,EAI 提供了一种搭伙的方向暗示秩序,玩忽兼容不同类型的方向,并相沿复杂连续的态状。

团队合计,现存的具身方案任务频繁针对特定限制遐想方向,枯竭一致性和通用性。

举例,BEHAVIOR 和 VirtualHome 王人是具身智能体的评测基准和模拟环境,用于扣问智能体在复杂环境中完成任务的才调。

但二者又有所区别,BEHAVIOR 使用基于气象的方向,而 VirtualHome 使用时刻扩张的方向。

EAI 则通过引入线性时态逻辑(LTL),完了了方向暗示形状的搭伙,提升了模块之间的互操作性,便于比较不同模子在归拢任务上的推崇。

在具体的评估经过当中,EAI 袭取了模块化的评估形状,并将评估打算进行了更细粒度的差异。

以往的扣问频繁将大模子动作举座进行评估,很少照管其在具身方案各个子任务上的推崇;

同期,这些现存基准频繁只照管任务的最终生效用,很少深远分析模子的造作类型和原因。

为了更深远融会大模子的行动模式和优劣势散布,EAI 建议了四个要道才调模块,并遐想了一系列细粒度的评估打算:

将模子才调分为四个要道模块;

界说了明晰的输入输出接口;

从轨迹可践诺性、方向温柔度、逻辑匹配性等多个角度评估模子的性能;

引入了丰富的刺目(如方向气象、研究、动作),以完了自动化的造作分析。

具体来说,四个要道模块及骨子分别是:

方向评释(Goal Interpretation):将当然言语表述的任务方向转机为形貌化的 LTL 方向公式;

子方向理解(Subgoal Decomposition):将任务方向理解为一系列子方向,每个子方向也用 LTL 公式暗示;

动作序列诡计(Action Sequencing):笔据任务方向生成动作序列,在环境中践诺以达成方向气象;

诊治建模(Transition Modeling):为每个动作或操作符生成前提条款和效果,酿成环境诊治模子。

另外,EAI 选取了两个具有代表性但特质迥异的环境,也即是前边提到的 BEHAVIOR 和 VirtualHome。

比较于单一环境评估,EAI更能查验大模子跨限制的泛化才调,有助于全面融会其适用领域和局限性。

o1-preview 轮廓收成第一

诈欺 EAI 这套轨范,扣问团队对 GPT、Claude、Gemini 等 18 款主流模子(型号)的方案才调进行了评估。

在 BEHAVIOR 和 VirtualHome 环境下,o1-preview 均取得了排名榜轮廓收成第又名。

其中在 BEHAVIOR 环境中,o1-preview 得分为 74.9,比第二名的 Claude 3.5 Sonnet 高了 10 多分,排在之后的是 60 分傍边的 Claude 3 Opus 和 GPT-4o。

到了 VirtualHome 环境下,依然是 o1-preview 向上,但前三名的收成相对接近。

同期 Gemini 1.5 Pro 变成了第二名,不外举座来看排名靠前的几个模子和 BEHAVIOR 环境访佛。

虽然淌若比较单项才调,不同模子也体现出了各自不同的上风神色。

比如在 BEHAVIOR 环境中,总分排第二的 Claude 3.5 Sonnet,方向评释才调略高于总分排第一的 o1-preview。

在 VirtualHome 环境中,总分相对靠后的 Mistral Large,在动作序列诡计上取得了第又名。

作家还对各模子的失败情况进行了深远分析,发现了将中间气象误识别为最终方向气象、对隐含的物理研究融会不及、忽略伏击的前提条款等具体问题。

这些发现玩忽让扣问东说念主员对模子的优颓势进行更深层的了解,为之后的扣问提供了伏击参考。

神色主页:

https://embodied-agent-interface.github.io/

论文:

https://arxiv.org/abs/2410.07166

代码:

https://github.com/embodied-agent-interface/embodied-agent-interface

数据集:

https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface开云体育



上一篇:开云体育(中国)官方网站上证指数报3439.28点-开云集团「中国」Kaiyun·官方网站
下一篇:开云体育(中国)官方网站团队构建了一个不休演进的神经 SDF-开云集团「中国」Kaiyun·官方网站

Powered by 开云集团「中国」Kaiyun·官方网站 @2013-2022 RSS地图 HTML地图