
告别"黑箱调试"!能定位 AI 代码 Agent 失败根源的可回顾框架来了那曲光面钢绞线。
跟着 LLM 代码智能体的才智越来越强,但有个要道问题永久莫得被照看——当这些 Agent 失败时,咱们经常不知说念"它在哪步出了错"。
现存评测往往只眷注终的见效与失败,却对过程中每步决议的对错所知。
于是来自南京大学 NJU-LINK 实验室刘佳恒憨厚课题组、快手科技等机构的商议者建议了 CodeTracer。
这是个需从新训练的轨迹回顾框架,可将 Agent 的运作事态革新为层化情景树,自动定位任务失败的肇始节点,并将生成的会诊信息响应给 Agent ,从而落幕不实收复与履行收复。
以下是多详确内容。
为什么 AI 代码 Agent 的调试如斯繁难?
连年来,SWE-Agent、OpenHands 等代码 Agent 已可在真的软件仓库中自主完成错误建立、代码重构、结尾交互等复杂任务。
但跟着任务复杂度进步,Agent 的履行轨迹也发冗长:次齐全经由经常包含数百至上千个异构要领:代码检索、文献读取、逻辑修改、样子构建、测试效力剖析等。
当 Agent 完成 task 失败时,斥地者濒临的中枢逆境在于:整条履行链究竟从哪步运转偏离正轨?
现存评测体系大多仅眷注终效力,只别离红功或失败,忽略了过程中决议的理,这致了三大核肉痛点:
1、不实链荫藏:
Agent 早期的次不实判断会逐传,激勉后续连锁失败,终致举座任务失败。但缺少要领的会诊才智,这条不实链险些法被回顾。
2、轮回罗网:
Agent 旦堕入不实假定,经常会在风趣操作中反复轮回,耗尽大宗 Token 与狡计资源,却法自主纠偏。
3、会诊难以限制化:
现存轨迹分析法要么仅适用于轻便交互场景,要么依赖东说念主工逐行核查,法支吾真的工程中数千条轨迹的限制化分析需求。
其实问题根源在于,现时主流的四大 Agent 框架(SWE-Agent、MiniSWE-Agent、OpenHands、Terminus 2)在想象理念上相反明显,架构或轻量简或重度编排,履行式赈济串行或并行,但具备失败后定位不实节点的才智。
而 CodeTracer 恰是为照看这共难题而生。
天津市瑞通预应力钢绞线有限公司CodeTracer 是如何使命的?
CodeTracer 的中枢想路是:把 Agent 运行产生的狼籍日记,革新为结构化的履作事态历史,自动定位失败根因并将会诊信息响应给 Agent,落幕不实修正。
通盘经由分为三个素雅融合的中枢模块:
1、运行日记剖析——进化式索要(Extraction Agent)
不同 Agent 框架的日记样式互不兼容,若为每个框架单斥地剖析器,不仅选藏老本,还易因框架升、样式变而失。
为此,CodeTracer 想象了"探索 - 适配 - 复用"战略:先自动扫描运行目次,识别日记结构;然后在剖析器注册表中查找匹配的现存剖析器;若匹配项,则自动生成个新剖析器并注册入库,供后续同类样式复用。
跟着适配场景不竭丰富,系统兼容连接增强。终,将种种异构日记统为圭臬化要领纪录,包含动作、不雅测效力、代码相反、考据效力等结构化信息。
2、构建履行视图——层轨迹树(Structuring Agent)
剖析完成后,系统将扁平的履行序列革新为层轨迹情景树,其要道在于别离两类要领的本体相反:
探索要领:
只读取、搜索环境而不修改代码情景,确认 Agent 仍处于信息探查阶段;
情景变要领:
对代码库或履行环境产生实验修改,会触发情景跳转并生成新的子情景节点那曲光面钢绞线,秀丽着 Agent 完成了次要道决议。
每个节点还附加意图与效力选录,使整棵树成为个压缩版的航索引。会诊需从新逐行阅读原始日记,即可快速定位从哪次情景变出现偏差。
3、定位与反想回放(Trace Agent + Reflective Replay)
Trace Agent 沿轨迹树进行遍历检索,输出三项会诊效力:失败拖累阶段(Failure-Responsible Stage)、不实关联要领集(Error-Relevant Steps),以及援救会诊论断的精简凭证集(Evidence Set)。
在此基础上,这份会诊信号可手脚前置指示注入原 Agent,驱动其在疏通资源拘谨下从新履行任务,即"反想回放"机制。
值得瞩成见是,会诊过程中耗尽的 Token 不计入回放预算,保证对比平允:回放的 Agent 与原始 Agent 领有致的迭代次数与 Token 配额 ,唯的区别是提前获知上轮的不实节点。
横向对比工业界框架和学术框架
另外,为了直不雅地展示 CodeTracer 作用,商议团队还对常用 Agent 框架进行了量化分析。
学术 SOTA 框架对比
关于学术界与工业界无为使用的四大 Agent 框架,从任务见效力与履行老本两个维度看:
数据背后的法例十分了了:
MiniSWE ‑ Agent
手脚简轻量框架,用具与经由想象精简,以少要领和低 Token 耗尽完成任务,见效力 32.8。
Terminus 2
在其基础上截止加多编排支出,Token 耗尽小幅高潮,见效力同步进步,老本与收益相对匹配。
SWE ‑ Agent
与OpenHands属于分量框架,两者袭取复杂多阶段经由与丰富用具集,Token 耗尽接近 MiniSWE ‑ Agent 的两倍,但见效力仅分别进步至 37.5 和 38.3,比拟轻量框架仅出约 5 个百分点。
商议由此揭示个要道论断:在通用结尾编程任务中,框架复杂度与见效力并非线关联。
过度复杂的编排想象,经常只带来长履行链路与 Token 老本,却法带来才智上的本体粉碎。
决定任务见效力上限的中枢,是底层模子的理才智,而非框架架构的复杂度。
这发现关于工程实践具有明确的指风趣:在遴选 Agent 框架时,盲目追求复杂架构并不贤慧。搭配理模子的轻量框架,即可落幕与分量框架接近的果,同期具备权臣的老本势。
Claude Code 对比分析
商议团队将 CodeTracer 向上用于工业 Agent Claude Code 的轨迹分析,并与学术框架对比,揭示出权臣结构相反:
1、用具生态量相反:
Claude Code 内置 40 余种用用具,覆盖 8 大类别;而学术框架仅具备 5 – 10 种通用用具,复杂任务下的细粒度操作才智差距明显。
2、盘曲文照看的熟习度相反:
Claude Code 内置盘曲文压缩、Token 跟踪、门控等机制,可援救长的有轨迹;而学术框架深广缺少此类想象,致在长轨迹任务中易出现盘曲文溢出或信息丢失。
3、探索 - 变比例的结构相反:
Claude Code 的探索要领占比权臣低,单次探索后能产生多有情景变,这贪图与任务见效力度关联,也印证了凭证革新才智是别离 、与低 Agent 的中枢贪图。
4、并行履行带来的新挑战:
工业 Agent 赈济并行用具调用,履行率,但也引入了履行措施依赖、偶发不实难复现等问题,这是措施履行的学术框架所不存在的新挑战,亦然工业 Agent 会诊的浩劫点。
5、工程和模子的拟:
咱们测试了多种模子,钢绞线只消 claude 模子的推崇较为异(claude sonnet 4.5 52.1 照看率)其他模子均和 claude code 框架并不适配,照看率并不睬想,在泛化面和学术框架有较大相反那曲光面钢绞线,claude code 的工程想象对模子有作念过门的化。
6、榜单标化分数的反想:
claude code 框架如斯熟习的体系却在 terminal bench 上并莫得取得预期额外的分数,跟着对不实样例的分析,terminal bench 些 task 的想象和现实场景脱离,模子给出了实验照看问题的案却法迎出题东说念主的意图。
上述对比标明,CodeTracer 的想象可精熟适配工业场景,其要领偏差标注还可手脚密集训练信号用于工业 Agent 化训练,但同期框架自己对 claude 模子的活动模式有着强依赖,工程在模子活动上有着拟。
度剖解 Agent 活动:失败是怎样发生的?
除了框架层面的横向对比,商议团队还借助 CodeTraceBench 的要领标注,对 Agent 里面的活动模式进行了度分析,解释了其失败背后的共法例。
1、模子各有长处,然则失败模式度趋同
在 340 类任务中,66 类惯例任务可被一王人五款模子照看,65 类难度任务(如款式化考据、科学狡计)则模子能完成。
各模子在长上相反明显:GPT-5 擅长图论与化学任务,Claude-sonnet-4 擅长贝叶斯断,Kimi-K2-Instruct 卓绝于图形渲染,DeepSeek-V3.2 则在数据管说念与包照看具势。
但面对共同法照看的难题时,所有这个词模子的失败活动度致:深广通过握造凭证、占位输出或提前阻隔来诡秘失败,而非坦诚报错。这种失败诡秘活动与模子才智强弱关,值得度警惕。
2、不实类型与履行阶段度关联
通过对每条轨迹按履行阶段,即按环境考据、依赖安设、代码修改、考据等阶段拆解后发现:
早期阶段:
以环境树立、依赖安设为主,问题易被忽略并连接联扩散;
中后期阶段:
以不实定位、不实假定与考据效力误读为主,Agent 常定位到可疑代码,但实验修改向或效力解读不实。
与此变成对比,见效轨迹经由顺畅、阶段反复涟漪;而失败轨迹则在早期就过度耗尽了 Token,堕入不实假定后的轮回。
这不实的可预测为分阶段预警、提前阻断不实链提供了可行想路。
3、见效力在早中期快速弥散,盲目加迭代毫风趣
商议者对 max_iterations 从 5 到 300 进行了扫描,覆盖五款模子与三种 Agent。效指导略:
迭代至约 35 — 40 长长度时,见效力快速高潮;
中后期弧线趋于弥散,迥殊迭代险些不再进步果。
见效力上限主要由基本模子理才智决定,与 Agent 框架想象关系相反并不大,比如 Claude-sonnet-4、GPT-5、DeepSeek-V3.2 均在各自步数达到上限后不再增长。
当 Agent 早期就变成了不实假定,迥殊的迭代多数只会空耗资源,并弗成转变底层领会偏差。
这也向上印证了:在正确的时机提供正确的会诊信号远比给 Agent 屡次数的契机重试有价值。
4、中枢要害:探索与活动中的界限
通过对每条轨迹要领预算的拆解分析,商议发现了个相联络数模子与框架的要道问题——凭证 - 活动界限(Evidence-to-Action Gap):
失败轨迹中要领占比约 40,接近见效轨迹(22)的两倍;
正确情景变要领从 30 降至 21,而探索信息得回才智下跌并不明显。
这确认:Agent 失败并非找不到要道信息,而是法将有凭证革新为正确决议。
这种界限在 Qwen3-Coder-480B 与 Kimi-K2-Instruct 的身上体现得尤为卓绝,Claude-sonnet-4 和 GPT-5 则相对小,确认强的基本模子在凭证革新上的势。
这也恰是 CodeTracer 反想回放机制的想象初志:Agent 着实需要的不是多重试契机,而是了了的不实根因指示。
实验效力
后商议团队在 CodeTraceBench 上,以精准率 P、调回率 R、F1 值及 Token 耗尽为贪图,对比了纯 LLM、Mini-CodeTracer 与齐全 CodeTracer 三种定位案:
在种种基本模子上,CodeTracer 均大幅于径直 LLM 基线:F1 分数从 16 – 19 进步至 46 – 48,同期 Token 耗尽明显下跌。
中枢原因在于其树形结构落幕了凭证聚焦检索,避了对全量原始日记的低遍历。
不同模子的会诊格调相反明显:
GPT-5 追求率,精准率(45.0)且 Token 支出低(31.1k);
Claude-sonnet-4 偏向检索,调回率(54.9),适严谨度场景;
DeepSeek-V3.2 精度与调回平衡,举座推崇隆重。
商议者在 Mini-CodeTracer 基础上平定类似组件,考据各模块的立孝顺:
加入"进化式索要"后,F1 进步约 9 个百分点;
再加入"树形索引"后,F1 向上进步约 18 个百分点,这解释了压缩式层航是落幕不实定位的要道,而非辅助。
将 CodeTracer 的定位凭证注入给原始失败的 Agent,在匹配的 Token 预算内从新履行,得到如下效力:
所有这个词主干模子的 Pass@1 均有权臣进步,且会诊 pass 自己的迥殊 Token 耗尽仅为 5k – 8k,价比。
这确认 CodeTracer 的会诊信号大要有匡助 Agent 修正早期的不实假定,避重试,将狡计资源汇集在要道要领。
总的来说,CodeTracer 是个开源、需训练的代码 Agent 轨迹回顾框架。
通过进化式日记索要、层化情景树索引、失败开端自动定位三位体的想象,系统照看了长履行轨迹中 "错在哪里、为何失败" 的中枢会诊难题,并通过反想回放机制,将会诊信息革新为任务能进步。
本商议的中枢孝顺可归纳为三点:
1、建议CodeTracer 框架,比拟径直 LLM 指示基线,F1 分数进步近 30 个百分点,同期有裁汰 Token 耗尽;
2、构建CodeTraceBench 评测基准,手脚个要领代码轨迹评测集,覆盖 4 种主流框架、5 种主干模子,包含数千条质地标注轨迹;
3、变成系列实证洞见,包括框架复杂度与见效力权臣线关系、凭证 - 活动界限、不实分散与履行阶段强关联等要道法例。
但现时使命仍存在多少局限:轨迹标注仍触及东说念主工判断,对复杂轨迹的分析存在定主不雅;评估基于离线轨迹,未能复当今线东说念主机融合场景;反想回放考据了不实收复的有,但尚未变成通用的训练信号生成范式。
瞻望改日,跟着代码 Agent 才智与任务复杂度不竭进步,让模子具备 "自知失败原因" 的才智,将成为动 AI 软件工程走向可靠、可解释的要道。
对商议者而言,CodeTraceBench 提供了前所未有的细粒度评测视角;对工程实践者而言,CodeTracer 的会诊框架则是个不错即插即用的调试用具。
二者共同为代码 Agent 从 "可用" 走向 "着实"提供了伏击的底层援救。
代码相连:https://github.com/NJU-LINK/CodeTracer
论文相连:https://arxiv.org/abs/2604.11641
键三连「点赞」「转发」「留心心」
迎接在探究区留住你的想法!
— 完 —
咱们正在招聘名眼疾手快、眷注 AI 的学术剪辑实习生 � �
感风趣风趣的小伙伴迎接眷注 � � 了解细则
� � 点亮星标 � �
科技前沿进展逐日见
相关词条:管道保温施工 塑料挤出设备 预应力钢绞线 玻璃棉厂家 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定那曲光面钢绞线,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。