那曲光面钢绞线 Coding Agent失败根源能定位了！南大快手建议可回顾框架：需重训，即插即用

联系瑞通 | 2026-04-26 18:05

告别"黑箱调试"！能定位 AI 代码 Agent 失败根源的可回顾框架来了那曲光面钢绞线。

跟着 LLM 代码智能体的才智越来越强，但有个要道问题永久莫得被照看——当这些 Agent 失败时，咱们经常不知说念"它在哪步出了错"。

现存评测往往只眷注终的见效与失败，却对过程中每步决议的对错所知。

于是来自南京大学 NJU-LINK 实验室刘佳恒憨厚课题组、快手科技等机构的商议者建议了 CodeTracer。

这是个需从新训练的轨迹回顾框架，可将 Agent 的运作事态革新为层化情景树，自动定位任务失败的肇始节点，并将生成的会诊信息响应给 Agent ，从而落幕不实收复与履行收复。

以下是多详确内容。

为什么 AI 代码 Agent 的调试如斯繁难？

连年来，SWE-Agent、OpenHands 等代码 Agent 已可在真的软件仓库中自主完成错误建立、代码重构、结尾交互等复杂任务。

但跟着任务复杂度进步，Agent 的履行轨迹也发冗长：次齐全经由经常包含数百至上千个异构要领：代码检索、文献读取、逻辑修改、样子构建、测试效力剖析等。

当 Agent 完成 task 失败时，斥地者濒临的中枢逆境在于：整条履行链究竟从哪步运转偏离正轨？

现存评测体系大多仅眷注终效力，只别离红功或失败，忽略了过程中决议的理，这致了三大核肉痛点：

1、不实链荫藏：

Agent 早期的次不实判断会逐传，激勉后续连锁失败，终致举座任务失败。但缺少要领的会诊才智，这条不实链险些法被回顾。

2、轮回罗网：

Agent 旦堕入不实假定，经常会在风趣操作中反复轮回，耗尽大宗 Token 与狡计资源，却法自主纠偏。

3、会诊难以限制化：

现存轨迹分析法要么仅适用于轻便交互场景，要么依赖东说念主工逐行核查，法支吾真的工程中数千条轨迹的限制化分析需求。

其实问题根源在于，现时主流的四大 Agent 框架（SWE-Agent、MiniSWE-Agent、OpenHands、Terminus 2）在想象理念上相反明显，架构或轻量简或重度编排，履行式赈济串行或并行，但具备失败后定位不实节点的才智。

而 CodeTracer 恰是为照看这共难题而生。

天津市瑞通预应力钢绞线有限公司

CodeTracer 是如何使命的？

CodeTracer 的中枢想路是：把 Agent 运行产生的狼籍日记，革新为结构化的履作事态历史，自动定位失败根因并将会诊信息响应给 Agent，落幕不实修正。

通盘经由分为三个素雅融合的中枢模块：

1、运行日记剖析——进化式索要（Extraction Agent）

不同 Agent 框架的日记样式互不兼容，若为每个框架单斥地剖析器，不仅选藏老本，还易因框架升、样式变而失。

为此，CodeTracer 想象了"探索 - 适配 - 复用"战略：先自动扫描运行目次，识别日记结构；然后在剖析器注册表中查找匹配的现存剖析器；若匹配项，则自动生成个新剖析器并注册入库，供后续同类样式复用。

跟着适配场景不竭丰富，系统兼容连接增强。终，将种种异构日记统为圭臬化要领纪录，包含动作、不雅测效力、代码相反、考据效力等结构化信息。

2、构建履行视图——层轨迹树（Structuring Agent）

剖析完成后，系统将扁平的履行序列革新为层轨迹情景树，其要道在于别离两类要领的本体相反：

探索要领：

只读取、搜索环境而不修改代码情景，确认 Agent 仍处于信息探查阶段；

情景变要领：

对代码库或履行环境产生实验修改，会触发情景跳转并生成新的子情景节点那曲光面钢绞线，秀丽着 Agent 完成了次要道决议。

每个节点还附加意图与效力选录，使整棵树成为个压缩版的航索引。会诊需从新逐行阅读原始日记，即可快速定位从哪次情景变出现偏差。

3、定位与反想回放（Trace Agent + Reflective Replay）

Trace Agent 沿轨迹树进行遍历检索，输出三项会诊效力：失败拖累阶段（Failure-Responsible Stage）、不实关联要领集（Error-Relevant Steps），以及援救会诊论断的精简凭证集（Evidence Set）。

在此基础上，这份会诊信号可手脚前置指示注入原 Agent，驱动其在疏通资源拘谨下从新履行任务，即"反想回放"机制。

值得瞩成见是，会诊过程中耗尽的 Token 不计入回放预算，保证对比平允：回放的 Agent 与原始 Agent 领有致的迭代次数与 Token 配额，唯的区别是提前获知上轮的不实节点。

横向对比工业界框架和学术框架

另外，为了直不雅地展示 CodeTracer 作用，商议团队还对常用 Agent 框架进行了量化分析。

学术 SOTA 框架对比

关于学术界与工业界无为使用的四大 Agent 框架，从任务见效力与履行老本两个维度看：

数据背后的法例十分了了：

MiniSWE ‑ Agent

手脚简轻量框架，用具与经由想象精简，以少要领和低 Token 耗尽完成任务，见效力 32.8。

Terminus 2

在其基础上截止加多编排支出，Token 耗尽小幅高潮，见效力同步进步，老本与收益相对匹配。

SWE ‑ Agent

与OpenHands属于分量框架，两者袭取复杂多阶段经由与丰富用具集，Token 耗尽接近 MiniSWE ‑ Agent 的两倍，但见效力仅分别进步至 37.5 和 38.3，比拟轻量框架仅出约 5 个百分点。

商议由此揭示个要道论断：在通用结尾编程任务中，框架复杂度与见效力并非线关联。

过度复杂的编排想象，经常只带来长履行链路与 Token 老本，却法带来才智上的本体粉碎。

决定任务见效力上限的中枢，是底层模子的理才智，而非框架架构的复杂度。

这发现关于工程实践具有明确的指风趣：在遴选 Agent 框架时，盲目追求复杂架构并不贤慧。搭配理模子的轻量框架，即可落幕与分量框架接近的果，同期具备权臣的老本势。

Claude Code 对比分析

商议团队将 CodeTracer 向上用于工业 Agent Claude Code 的轨迹分析，并与学术框架对比，揭示出权臣结构相反：

1、用具生态量相反：

Claude Code 内置 40 余种用用具，覆盖 8 大类别；而学术框架仅具备 5 – 10 种通用用具，复杂任务下的细粒度操作才智差距明显。

2、盘曲文照看的熟习度相反：

Claude Code 内置盘曲文压缩、Token 跟踪、门控等机制，可援救长的有轨迹；而学术框架深广缺少此类想象，致在长轨迹任务中易出现盘曲文溢出或信息丢失。

3、探索 - 变比例的结构相反：

Claude Code 的探索要领占比权臣低，单次探索后能产生多有情景变，这贪图与任务见效力度关联，也印证了凭证革新才智是别离、与低 Agent 的中枢贪图。

4、并行履行带来的新挑战：

工业 Agent 赈济并行用具调用，履行率，但也引入了履行措施依赖、偶发不实难复现等问题，这是措施履行的学术框架所不存在的新挑战，亦然工业 Agent 会诊的浩劫点。

5、工程和模子的拟：

咱们测试了多种模子，钢绞线只消 claude 模子的推崇较为异（claude sonnet 4.5 52.1 照看率）其他模子均和 claude code 框架并不适配，照看率并不睬想，在泛化面和学术框架有较大相反那曲光面钢绞线，claude code 的工程想象对模子有作念过门的化。

6、榜单标化分数的反想：

claude code 框架如斯熟习的体系却在 terminal bench 上并莫得取得预期额外的分数，跟着对不实样例的分析，terminal bench 些 task 的想象和现实场景脱离，模子给出了实验照看问题的案却法迎出题东说念主的意图。

上述对比标明，CodeTracer 的想象可精熟适配工业场景，其要领偏差标注还可手脚密集训练信号用于工业 Agent 化训练，但同期框架自己对 claude 模子的活动模式有着强依赖，工程在模子活动上有着拟。

度剖解 Agent 活动：失败是怎样发生的？

除了框架层面的横向对比，商议团队还借助 CodeTraceBench 的要领标注，对 Agent 里面的活动模式进行了度分析，解释了其失败背后的共法例。

1、模子各有长处，然则失败模式度趋同

在 340 类任务中，66 类惯例任务可被一王人五款模子照看，65 类难度任务（如款式化考据、科学狡计）则模子能完成。

各模子在长上相反明显：GPT-5 擅长图论与化学任务，Claude-sonnet-4 擅长贝叶斯断，Kimi-K2-Instruct 卓绝于图形渲染，DeepSeek-V3.2 则在数据管说念与包照看具势。

但面对共同法照看的难题时，所有这个词模子的失败活动度致：深广通过握造凭证、占位输出或提前阻隔来诡秘失败，而非坦诚报错。这种失败诡秘活动与模子才智强弱关，值得度警惕。

2、不实类型与履行阶段度关联

通过对每条轨迹按履行阶段，即按环境考据、依赖安设、代码修改、考据等阶段拆解后发现：

早期阶段：

以环境树立、依赖安设为主，问题易被忽略并连接联扩散；

中后期阶段：

以不实定位、不实假定与考据效力误读为主，Agent 常定位到可疑代码，但实验修改向或效力解读不实。

与此变成对比，见效轨迹经由顺畅、阶段反复涟漪；而失败轨迹则在早期就过度耗尽了 Token，堕入不实假定后的轮回。

这不实的可预测为分阶段预警、提前阻断不实链提供了可行想路。

3、见效力在早中期快速弥散，盲目加迭代毫风趣

商议者对 max_iterations 从 5 到 300 进行了扫描，覆盖五款模子与三种 Agent。效指导略：

迭代至约 35 — 40 长长度时，见效力快速高潮；

中后期弧线趋于弥散，迥殊迭代险些不再进步果。

见效力上限主要由基本模子理才智决定，与 Agent 框架想象关系相反并不大，比如 Claude-sonnet-4、GPT-5、DeepSeek-V3.2 均在各自步数达到上限后不再增长。

当 Agent 早期就变成了不实假定，迥殊的迭代多数只会空耗资源，并弗成转变底层领会偏差。

这也向上印证了：在正确的时机提供正确的会诊信号远比给 Agent 屡次数的契机重试有价值。

4、中枢要害：探索与活动中的界限

通过对每条轨迹要领预算的拆解分析，商议发现了个相联络数模子与框架的要道问题——凭证 - 活动界限（Evidence-to-Action Gap）：

失败轨迹中要领占比约 40，接近见效轨迹（22）的两倍；

正确情景变要领从 30 降至 21，而探索信息得回才智下跌并不明显。

这确认：Agent 失败并非找不到要道信息，而是法将有凭证革新为正确决议。

这种界限在 Qwen3-Coder-480B 与 Kimi-K2-Instruct 的身上体现得尤为卓绝，Claude-sonnet-4 和 GPT-5 则相对小，确认强的基本模子在凭证革新上的势。

这也恰是 CodeTracer 反想回放机制的想象初志：Agent 着实需要的不是多重试契机，而是了了的不实根因指示。

实验效力

后商议团队在 CodeTraceBench 上，以精准率 P、调回率 R、F1 值及 Token 耗尽为贪图，对比了纯 LLM、Mini-CodeTracer 与齐全 CodeTracer 三种定位案：

在种种基本模子上，CodeTracer 均大幅于径直 LLM 基线：F1 分数从 16 – 19 进步至 46 – 48，同期 Token 耗尽明显下跌。

中枢原因在于其树形结构落幕了凭证聚焦检索，避了对全量原始日记的低遍历。

不同模子的会诊格调相反明显：

GPT-5 追求率，精准率（45.0）且 Token 支出低（31.1k）；

Claude-sonnet-4 偏向检索，调回率（54.9），适严谨度场景；

DeepSeek-V3.2 精度与调回平衡，举座推崇隆重。

商议者在 Mini-CodeTracer 基础上平定类似组件，考据各模块的立孝顺：

加入"进化式索要"后，F1 进步约 9 个百分点；

再加入"树形索引"后，F1 向上进步约 18 个百分点，这解释了压缩式层航是落幕不实定位的要道，而非辅助。

将 CodeTracer 的定位凭证注入给原始失败的 Agent，在匹配的 Token 预算内从新履行，得到如下效力：

所有这个词主干模子的 Pass@1 均有权臣进步，且会诊 pass 自己的迥殊 Token 耗尽仅为 5k – 8k，价比。

这确认 CodeTracer 的会诊信号大要有匡助 Agent 修正早期的不实假定，避重试，将狡计资源汇集在要道要领。

总的来说，CodeTracer 是个开源、需训练的代码 Agent 轨迹回顾框架。

通过进化式日记索要、层化情景树索引、失败开端自动定位三位体的想象，系统照看了长履行轨迹中 "错在哪里、为何失败" 的中枢会诊难题，并通过反想回放机制，将会诊信息革新为任务能进步。

本商议的中枢孝顺可归纳为三点：

1、建议CodeTracer 框架，比拟径直 LLM 指示基线，F1 分数进步近 30 个百分点，同期有裁汰 Token 耗尽；

2、构建CodeTraceBench 评测基准，手脚个要领代码轨迹评测集，覆盖 4 种主流框架、5 种主干模子，包含数千条质地标注轨迹；

3、变成系列实证洞见，包括框架复杂度与见效力权臣线关系、凭证 - 活动界限、不实分散与履行阶段强关联等要道法例。

但现时使命仍存在多少局限：轨迹标注仍触及东说念主工判断，对复杂轨迹的分析存在定主不雅；评估基于离线轨迹，未能复当今线东说念主机融合场景；反想回放考据了不实收复的有，但尚未变成通用的训练信号生成范式。

瞻望改日，跟着代码 Agent 才智与任务复杂度不竭进步，让模子具备 "自知失败原因" 的才智，将成为动 AI 软件工程走向可靠、可解释的要道。

对商议者而言，CodeTraceBench 提供了前所未有的细粒度评测视角；对工程实践者而言，CodeTracer 的会诊框架则是个不错即插即用的调试用具。

二者共同为代码 Agent 从 "可用" 走向 "着实"提供了伏击的底层援救。

代码相连：https://github.com/NJU-LINK/CodeTracer

论文相连：https://arxiv.org/abs/2604.11641

键三连「点赞」「转发」「留心心」

迎接在探究区留住你的想法！

— 完 —

咱们正在招聘名眼疾手快、眷注 AI 的学术剪辑实习生 � �

感风趣风趣的小伙伴迎接眷注 � � 了解细则

� � 点亮星标 � �

科技前沿进展逐日见

相关词条:管道保温施工塑料挤出设备预应力钢绞线玻璃棉厂家保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定那曲光面钢绞线，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：张家界公路钢绞线信通院何波：已初步构建东谈主工智能法律规制框架

下一篇：威海钢绞线供应厂家郑智: 西海岸这几天直在复原, 赛程对每支球队皆对等