交大要闻
上海交大人工智能学院最新研究ML-Master登顶OpenAI MLE-bench
近日,上海交通大学人工智能学院Agents团队提出了面向机器学习(Machine Learning)的AI专家智能体ML-Master在OpenAI发布的权威基准测试MLE-Bench中脱颖而出,以29.3%的平均奖牌率位居榜首,超过微软的R&D-Agent(22.4%)和OpenAI展示的AIDE系统(16.9%)。作为当前领先的AI自主完成机器学习任务方案之一,ML-Master在推动AI自动化开发AI(AI-for-AI)方向上展现出显著技术进展。
ML-Master通过创新的“探索-推理深度融合”范式,应对现有AI-for-AI (AI4AI)方法无法充分利用探索经验指导推理的核心难题。与先前方法相比,ML-Master在所有评价维度上实现全面领先,并且在中等难度任务上奖牌率提升了2.2倍(20.2% vs 9.0%),计算效率翻倍(仅需12小时vs基线24小时)。
研究背景
随着AI能力逐步逼近甚至超越人类水平,一个自然的转变正在发生:AI驱动的开发正变得比以人类为中心的方法更加高效。这就是AI4AI的核心理念——利用AI技术来自动化和优化AI系统本身的设计、训练和部署,最终实现AI的自主演进。
然而,现有的LLM驱动的AI4AI方法面临着几个核心挑战:
• 探索效率低下:传统方法往往采用单一路径探索,容易陷入局部最优,缺乏系统性的解决方案空间导航能力。
• 推理能力受限:现有推理大语言模型虽然强大,但无法有效利用探索过程中积累的丰富经验,导致决策缺乏历史依据。
• 集成困难:探索与推理两个关键能力往往各自为战,缺乏有效的协同机制,限制了整体性能的提升。
因此,如何有效整合探索与推理,让AI系统能够像人类专家一样在解决复杂问题时既能广泛探索又能深度思考,成为AI4AI领域的核心挑战。
核心见解:双模块深度融合架构
受人类专家AI开发流程启发,ML-Master开创性地提出了探索与推理深度融合的统一框架,通过自适应记忆机制实现两大模块的有机协同:
平衡多轨迹探索 (Balanced Multi-trajectory Exploration)
• MCTS启发的树搜索:利用蒙特卡洛树搜索,将研发AI过程建模为决策树,每个节点代表一个AI方案的状态。
• 并行探索策略:同时探索多个解决方案分支,突破串行限制,多条路径同时探索,大幅提升探索效率,提高解决方案多样性。
• 动态优先级调整:根据潜在价值分配计算资源,实时评估不同分支的潜力,将更多计算资源投入到最有希望的方向,避免无效探索。
可控推理 (Steerable Reasoning)
• 自适应记忆机制:精准提取关键洞察,避免信息过载,筛选历史探索中的有效信息,既保留宝贵经验又避免冗余干扰,让每次推理都建立在最相关的知识基础上。
• 情境化决策:基于历史经验进行有根据的分析,不再是“拍脑袋”决策,而是结合具体执行反馈和成功经验,让AI的每个决策都有据可依。
• 闭环学习系统:持续从执行反馈中学习优化,探索结果实时反哺推理过程,形成“探索→推理→优化→再探索”的良性循环,实现持续自我提升。
核心融合机制:自适应记忆机制 (Adaptive Memory)
ML-Master通过自适应记忆机制实现了两大模块的深度融合:
• 智能记忆构建:探索模块自动收集执行结果、代码片段和性能指标,同时选择性整合来自父节点和并行兄弟节点的关键信息,避免信息过载。
• 嵌入推理决策:记忆信息直接嵌入到推理大语言模型的“think”部分中,让每次推理都基于具体的历史执行反馈和多样化探索的经验进行精准决策。
• 协通进化机制:推理结果指导后续探索方向,探索经验持续丰富推理过程,真正实现了探索驱动推理进化,推理反哺探索路径的良性循环!
MLE-bench介绍
MLE-bench 是 OpenAI 于 2024 年 10 月推出的类人机器学习能力评测基准,旨在衡量大模型是否具备像人类 AI 工程师一样独立完成项目的能力。该基准涵盖 75 个来自 Kaggle 的真实机器学习任务,涵盖从代码编写、模型调参到结果提交的完整流程,是目前最权威、最贴近实际工程场景的 AI 测试之一。其中不少任务取材自 CVPR 等国际顶级学术会议。
实验结果
ML-Master在MLE-bench上进行了全面评测。ML-Master以29.3%的平均奖牌率实现当前的SOTA水平,大幅超越OpenHands、AIDE、R&D-Agent等现有方法!仅用12小时完成测试,计算成本仅为基线方法一半!
同时,ML-Master不仅在奖牌率上领先,更是在MLE-bench的所有评价维度上均表现卓越。
发展规划
除了推出面向机器学习的专家智能体ML-Master,上海交通大学人工智能学院Agents团队后续将依托上海交通大学AI-X研究院,陆续推出覆盖各领域的专家智能体,构建有影响力的智能体生态体系,为人工智能技术的创新发展与广泛应用注入新动能。
关于作者
该工作由陈思衡(上海交通大学人工智能学院副教授)和温颖(上海交通大学人工智能学院副教授)指导,共同一作为刘泽希、蔡玉柱、朱新虞、郑雨杰、陈润坤。
• 项目主页:https://sjtu-sai-agents.github.io/ML-Master
• 代码地址:https://github.com/sjtu-sai-agents/ML-Master
• 论文地址:https://arxiv.org/pdf/2506.16499
• MLE-bench主页:https://github.com/openai/MLE-bench
• 研究团队联系方式:sjtu.sai.agents@gmail.com