大模型两小时暴虐50多名专家 但8小时显惊人短板 * 阿波罗新闻网
新闻 > 科教 > 正文
大模型两小时暴虐50多名专家 但8小时显惊人短板
人类-AI差距之间定性分析

为了更好地了解人类专家在哪些条件下,比AI智能体做得更好或更差的原因,研究人员对智能体成绩和解决方案进行了定性分析。

AI智能体:知识储备大,尝试频率37次/h

虽然AI智能体通常无法找到与顶级人类专家相匹配的解决方案,但它们也取得了一些显著的成功。

比如,在AIDE加持下,Claude 3.5 Sonnet(新版)和o1-preview都能找到“优化内核”的解决方案,运行速度约为参考解决方案的2倍。

如下图所示,其中,o1-preview的解决方案甚至超过了9位人类专家。

这些都是复杂且新颖的算法,能有效绕过GPU通信限制,并使用一种缺少良好公开文档的低资源编程语言(Triton)。

这个令人惊讶的结果可能部分归因于,AI智能体和许多人类专家之间的专业知识差距,因为大多数人类专家并不具备编程GPU内核的专门知识。

这种情况在多个环境中都有体现:一些不太熟悉该领域的人类专家需要花费大量时间学习或复现标准方法(有时甚至完全失败),而AI智能体凭借其广泛的知识基础往往能轻松完成。

AI智能体成功的另一个关键因素可能是,它们能比人类专家尝试更多的解决方案。

平均而言,AIDE和模块化智能体每小时分别运行36.8次和25.3次,而人类专家仅为3.4次。

这通常导致智能体找到高度优化的“局部最优”解决方案,仅通过调整初始解决方案的参数和代码,就能实现显著的改进。

例如,许多智能体在解决“优化内核”环境时,并非通过编写成功的Triton解决方案(这很困难),而是通过仔细调整初始的Pytorch解决方案,使其运行速度显著提高。

也就是说,它们能够有效优化现有解决方案。

如下,是“微调GPT-2用于问答”最佳智能体解决方案中,Claude 3.5 Sonnet调整了初始解决方案的参数,并在训练轨迹和评估中获得了准确结果。

不过,这一高分有可能是对噪声过度拟合的结果。

 alt=

总而言之,AI智能体的成功在于能够进行大量参数微调和代码优化,偶尔还会提出创造性有效的解决方案,尤其是在评估成本低的环境在非常有效。

失败因素

但在大多数环境中,智能体仍然没有达到强大的人类专家的水平。

造成这种情况的原因之一是,AI智能体提出的解决方案缺乏多样性。

例如,在“受限架构MLM”任务中,智能体在84%的情况下,都在尝试使用稍作修改的Transformer架构。即使在不能使用除法和指数运算的情况下,仍固守这种方案。

另一个局限性是,持续性的指令理解错误,特别是在“受限架构MLM”和“优化LLM Foundry”任务中。

在某些情况下,这些对环境的误读可能导致智能体找到令人印象深刻且意想不到的漏洞,这些漏洞在自动评估中得分很高,但在人工检查时明显违反了环境规则。

缩小差距

基于以上的观察,研究人员认为AI智能体在以下特征的环境中,会比人类表现更好:

- 短期且高保真循环反馈,可以让AI智能体充分发挥尝试多个解决方案的优势

- 工程复杂度低,使得AI智能体通过几个步骤就解决问题

- 需要专业知识的任务,AI智能体比人类专家具备更全的知识

- 环境中有显著的噪声,这种情况下AI智能体可以进行大量尝试的优势会超过人类专家较少的尝试次数。

- 不易出现意外情况,不需要太多的探索和发现

Re-Bench局限性

评估环境的代表性不足

为了创建符合设计标准的高可靠性评估,研究人员需要努力确保指令和评分容易理解,8小时内可以取得显著进展,并且提供所有必要的资源,还必须选择易于构建和评估的环境。

这些限制使得评估环境不太能代表真实的研究,常见问题包括不明确的目标、糟糕的指令、慢反馈和无法解决的问题。

结果噪声

由于环境数量较少,且智能体得分严重向右倾斜,大多数运行得分为0,只有少数得分非常高,所以结果评估对抽样噪声很敏感。

评估的成本和复杂性

使用H100 GPU运行智能体数小时需要相应的基础设施和大量预算,对于普通研究人员来说压力很大,运行大规模实验来对比多个模型、框架和参数也更具挑战性。

 alt=

缺乏框架迭代

选择不同的智能体框架或提示,有可能导致模型在相近的时间内,在基准测试上取得更好的成绩。

研究人员的预期是,通过为智能体提供管理GPU资源的工具,或是通过并行探索解决方案来利用更多的token等来实现更好的性能。

覆盖前沿研究的局限性

由于硬件访问有限,并且前沿AI研究也大多是闭源的,评估所涵盖的研究类型与推动前沿AI进步的研究类型之间可能存在差异。

方案可能过度拟合

除了“扩展法则实验”之外,所有环境都向智能体提供了测试分数输出,以最小化误解或混淆的风险;在未来的迭代中,研究人员考虑只在大多数环境中向智能体提供验证分数,把测试分数隐藏起来。

“扩展法则实验”得分存在运气成分

虽然良好的实验可以帮助人类专家在环境中做出明智的预测,但智能体还是主要依赖猜测,更多是运气而不是技巧的问题。

责任编辑: 方寻  来源:新智元 转载请注明作者、出处並保持完整。

本文网址:https://d2tszk158s4skr.cloudfront.net/2024/1125/2135232.html