开云体育对这项谐和扣问感到颠倒郁勃-开云集团「中国」Kaiyun·官方网站

栏目分类

新闻: 资讯; 娱乐; 新闻; 旅游; 汽车; 电影

你的位置：开云集团「中国」Kaiyun·官方网站 > 新闻 > 开云体育对这项谐和扣问感到颠倒郁勃-开云集团「中国」Kaiyun·官方网站

发布日期：2025-04-18 04:14 点击次数：209

开云体育对这项谐和扣问感到颠倒郁勃-开云集团「中国」Kaiyun·官方网站

大模子的具身智能方案才调，终于有系统的通用评估基准了。

李飞飞吴佳俊团队新建议的评估框架，对具身智能方案的四项要道子才调来了个全面旁观。

这套基准还是被选为了 NeurIPS 数据和测试集（D&B）专栏 Oral 论文，同期也被收录进了 PyPI，惟有一瞥代码就能快速调用。

该框架名为Embodied Agent Interface（简称 EAI），提供了贯串不同模块和基准环境的轨范接口。

诈欺这套框架，作家对 18 款主流模子进行了测试，酿成了一篇超百页的论文。

测试收尾理会，在已公开的大模子当中，o1-preview 的轮廓收成位列第一。

李飞飞本东说念主暗示，对这项谐和扣问感到颠倒郁勃。

有网友评价说，这项收尾为大模子具身智能方案塑造了未来。

四项子才调全面评估

最初，EAI 提供了一种搭伙的方向暗示秩序，玩忽兼容不同类型的方向，并相沿复杂连续的态状。

团队合计，现存的具身方案任务频繁针对特定限制遐想方向，枯竭一致性和通用性。

举例，BEHAVIOR 和 VirtualHome 王人是具身智能体的评测基准和模拟环境，用于扣问智能体在复杂环境中完成任务的才调。

但二者又有所区别，BEHAVIOR 使用基于气象的方向，而 VirtualHome 使用时刻扩张的方向。

EAI 则通过引入线性时态逻辑（LTL），完了了方向暗示形状的搭伙，提升了模块之间的互操作性，便于比较不同模子在归拢任务上的推崇。

在具体的评估经过当中，EAI 袭取了模块化的评估形状，并将评估打算进行了更细粒度的差异。

以往的扣问频繁将大模子动作举座进行评估，很少照管其在具身方案各个子任务上的推崇；

同期，这些现存基准频繁只照管任务的最终生效用，很少深远分析模子的造作类型和原因。

为了更深远融会大模子的行动模式和优劣势散布，EAI 建议了四个要道才调模块，并遐想了一系列细粒度的评估打算：

将模子才调分为四个要道模块；

界说了明晰的输入输出接口；

从轨迹可践诺性、方向温柔度、逻辑匹配性等多个角度评估模子的性能；

引入了丰富的刺目（如方向气象、研究、动作），以完了自动化的造作分析。

具体来说，四个要道模块及骨子分别是：

方向评释（Goal Interpretation）：将当然言语表述的任务方向转机为形貌化的 LTL 方向公式；

子方向理解（Subgoal Decomposition）：将任务方向理解为一系列子方向，每个子方向也用 LTL 公式暗示；

动作序列诡计（Action Sequencing）：笔据任务方向生成动作序列，在环境中践诺以达成方向气象；

诊治建模（Transition Modeling）：为每个动作或操作符生成前提条款和效果，酿成环境诊治模子。

另外，EAI 选取了两个具有代表性但特质迥异的环境，也即是前边提到的 BEHAVIOR 和 VirtualHome。

比较于单一环境评估，EAI更能查验大模子跨限制的泛化才调，有助于全面融会其适用领域和局限性。

o1-preview 轮廓收成第一

诈欺 EAI 这套轨范，扣问团队对 GPT、Claude、Gemini 等 18 款主流模子（型号）的方案才调进行了评估。

在 BEHAVIOR 和 VirtualHome 环境下，o1-preview 均取得了排名榜轮廓收成第又名。

其中在 BEHAVIOR 环境中，o1-preview 得分为 74.9，比第二名的 Claude 3.5 Sonnet 高了 10 多分，排在之后的是 60 分傍边的 Claude 3 Opus 和 GPT-4o。

到了 VirtualHome 环境下，依然是 o1-preview 向上，但前三名的收成相对接近。

同期 Gemini 1.5 Pro 变成了第二名，不外举座来看排名靠前的几个模子和 BEHAVIOR 环境访佛。

虽然淌若比较单项才调，不同模子也体现出了各自不同的上风神色。

比如在 BEHAVIOR 环境中，总分排第二的 Claude 3.5 Sonnet，方向评释才调略高于总分排第一的 o1-preview。

在 VirtualHome 环境中，总分相对靠后的 Mistral Large，在动作序列诡计上取得了第又名。

作家还对各模子的失败情况进行了深远分析，发现了将中间气象误识别为最终方向气象、对隐含的物理研究融会不及、忽略伏击的前提条款等具体问题。

这些发现玩忽让扣问东说念主员对模子的优颓势进行更深层的了解，为之后的扣问提供了伏击参考。

神色主页：

https://embodied-agent-interface.github.io/

论文：

https://arxiv.org/abs/2410.07166

代码：

https://github.com/embodied-agent-interface/embodied-agent-interface

数据集：

https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface开云体育

上一篇：开云体育(中国)官方网站上证指数报3439.28点-开云集团「中国」Kaiyun·官方网站

下一篇：开云体育(中国)官方网站团队构建了一个不休演进的神经 SDF-开云集团「中国」Kaiyun·官方网站