英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

释放双眼,带上耳机,听听看~!
英伟达研究团队本周发布开源框架 Polar,在不破坏原有工具调用、上下文组织和补丁提交方式的前提下,让 Codex、Claude Code、Qwen Code 等现有智能体框架接入 GRPO(广义相对策略优化)训练。

IT之家 5 月 28 日消息,英伟达研究团队本周发布开源框架 Polar,在不破坏原有工具调用、上下文组织和补丁提交方式的前提下,让 Codex、Claude Code、Qwen Code 等现有智能体框架接入 GRPO(广义相对策略优化)训练。

微信图片_20260528135839_1658_338.png

IT之家注:GRPO 是一种面向强化学习训练的优化方法,会依据奖励信号调整模型策略,让模型在多步决策任务里学会更优动作。

本文里,GRPO 主要用于代码智能体训练,让模型在真实工具调用和补丁提交流程中持续改进表现。

论文指出智能体强化学习正从单步任务转向长流程任务,比如代码仓库修改、浏览器操作和操作系统交互。这类任务往往依赖现成执行框架,包含多轮调用、工具使用、上下文压缩和子智能体协作。

现有难点在于,这些框架很难直接改写成传统强化学习环境接口,一旦强行接入,还可能丢失关键训练信号。

英伟达 Polar 并非重写智能体框架,聚焦在模型 API 边界放置智能体,基本不改动原有 harness。

harness 指 Codex CLI、Claude Code、Qwen Code、Pi 这类智能体运行外壳。传统强化学习基础设施通常要求把这类逻辑改写到类似 env.init ()、env.step ()、env.reset () 的环境接口里,接入成本高,还可能丢失原生执行细节。

微信图片_20260528135846_1659_338.png

Polar 的核心设计,是把智能体与模型之间的接口当作训练边界,而不是把执行框架本身改造成环境。

它在执行框架和推理服务器之间放置模型智能体,兼容 Anthropic、OpenAI、Google 风格请求,转发请求时记录提示词、采样 Token、对数概率和响应内容,再把这些信息重建成可供训练器消费的轨迹。

在系统结构上,Polar 由 rollout server 和 gateway node 组成。前者负责任务提交、会话调度、状态持久化和回调接收;后者负责会话执行全生命周期,包括运行时启动、执行框架准备、轨迹构建、结果评测和资源回收。

论文还把初始化、运行中、后处理拆到独立工作池,并设置 READY 缓冲区,让运行时预热和评测预热在后台并行,减少长尾任务对 GPU 训练的阻塞。

实验部分聚焦软件工程任务。基于同一个 Qwen3.5-4B 底座模型,在 Codex、Claude Code、Qwen Code、Pi 4 种代码执行框架上,Polar 配合 GRPO(组相对策略优化)训练后,在 SWE-Bench Verified 的 pass@1 分数分别从 3.8% 提升到 26.4%(增涨 594.74%)、29.8% 提升到 34.6%、34.6% 提升到 35.2%、34.2% 提升到 40.4%。

在效率方面,prefix_merging 相比 per_request,把 3 个训练步骤中的更新数从 1185 次降到 218 次,墙钟时间从 189.5 分钟缩短到 35.2 分钟,约快 5.39 倍;rollout GPU 平均利用率也从 20.4% 升到 87.7%。

温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。用户必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!

给TA打赏
共{{data.count}}人
人已打赏
热点资讯

神舟二十一号乘组返回在即,空地协同搜救训练保障航天员安全回家

2026-5-28 14:39:14

AI技术

健身赛道杀疯了?我用AI复活貂蝉做瘦身操,3周涨粉8W

2025-4-14 22:02:27

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索