微言 | wyanassert
个人工作总结

一次服务器排查经历

2026-06-17T12:21:01.000Z

请输入密码

用 AI 做需求澄清：从「找问题」到「辅助决策」的演进

2026-06-01T03:24:42.000Z

背景：需求澄清是一个被低估的成本中心

做过研发的人都知道，需求评审会结束后，研发真正动手写代码，往往还要经历一轮”追着产品问”的过程。这些问题有时候很小（一个按钮文案），有时候很大（整个业务逻辑是否成立）。问题问得晚，代价是已经写了一半的代码要返工；问题没问到，代价是上线后出 bug 或功能偏差。

我们在 Codelix 中尝试用 AI 来解决这个问题。本文记录了从立项到多轮迭代的全过程，包括遇到的坑、做的取舍，以及最终效果。

第一阶段：打通主链路

最初的设计

最简单的思路：拿到 TAPD 需求单 → 调 AI 分析 → 输出澄清点列表 → 人工确认。

我们接入了内部的 Knot 智能体，它有联网和 RAG 能力，能结合代码库上下文分析需求。技术选型：

层次	方案
后端	Go，集成进 agent-server
Knot 通信	Go SSE 客户端
存储	本地 JSON 文件，按 storyId 分目录
前端	React SPA，新增路由 `/clarification`

第一个版本跑通了，但踩了几个坑。

SSE 解析的坑

Knot 的响应协议是 SSE，但格式和标准 SSE 不完全一样：

标准格式是 data: {...}（有空格），Knot 是 data:{...}（无空格）
某些单行内容超过 bufio.Scanner 默认的 64 KB，直接截断导致 JSON 解析失败
Knot 有时在一次响应里输出多个 JSON 数组，有时还用 ```json ``` 代码块包裹

解决方案：

扫描缓冲区从 64KB 扩到 4MB
解析时优先提取代码块，再回退到文本中所有 [...] 候选，取首个可解析的非空数组
兼容 content、delta、delta.content、delta.text 四种字段格式

还有一个问题：LLM 生成的 JSON 字符串里有时含未转义的英文双引号，导致反序列化失败。解决方法是先做一次轻量的 sanitizeJSONQuotes 修复再重试。

TAPD URL 兼容性

TAPD 需求单有两种 URL 格式：

旧版：https://tapd.woa.com/{workspaceId}/prong/stories/view/{storyId}
新版：https://tapd.woa.com/tapd_fe/{workspaceId}/story/detail/{storyId}

返回结构也有四种变体：带 Story 嵌套、直接字段 map、data 数组等。评论拉取失败时不阻断主流程，降级为”无评论”继续处理。

版本管理：patch-based 版本链

澄清点会被多人编辑，需要保留完整历史。我们设计了 patch-based 版本链：

versions[0] 是 Knot 分析的全量 baseline，只读
后续每次编辑追加 patch 版本，只记录 delta
Resolve(N) 从最近 checkpoint 起重放 patch 链还原到版本 N
patch 版本累计 10 个时，自动落一次全量 checkpoint

并发控制：前端提交 baseVersion，后端做 CAS 校验。不同 item 的修改自动 merge，同一 item 冲突返回 409，提示用户刷新重试。

Knot 凭证安全设计

用户首次使用时需要输入 Knot API Token，但不能把 token 直接存到 localStorage——在公用机上会造成泄露。

最终设计是服务端会话：

用户输入 Token + RTX 用户名 → 后端创建 clarification_session，写入 HttpOnly cookie（SameSite=Lax, Secure, Max-Age=15552000）
浏览器只保存 cookie，不保存 token 明文
会话有效期 6 个月，到期或 Knot 返回 401/403 时立即失效
检测到 token_invalid 时服务端主动清空 session 并清 cookie，前端自动弹凭证重新输入弹窗

这里有个细节：平台化后产物生成阶段使用 claude-internal CLI 时，需要把 knotApiToken 透传给远程机作为 CLI 鉴权凭证（映射为 CODEBUDDY_API_KEY）。所以 token 必须保留在服务端 session 里直到会话过期，不能在完成分析后就清掉。

第二阶段：平台化——从本地工具到协作平台

核心链路跑通后，几个问题开始暴露：

数据存在本地 JSON 文件，多人协作时一致性难保证
完成澄清后缺少产物生成的闭环
没有历史记录和指标

于是启动平台化改造：所有澄清数据迁入 platform-server 的数据库，本地不再是真源。

数据模型

核心表：

clarification_runs：每次分析一条记录，含状态机和 is_primary 标志
clarification_items：当前最新澄清点状态
clarification_item_versions：完整编辑历史，每次变更记 before_snapshot + after_snapshot（field_diffs 读时计算，避免三者不一致）
clarification_item_comments：每条澄清项的讨论回复
clarification_artifacts：生成产物（summary、tech_doc、各端技术文档、流程图、协议、tapd_update 等）
clarification_knowledge_records：完成澄清后的知识沉淀

状态机

1
2
3

editing → ready_to_complete → completing → completed
                                              ↓
                                          reopened → editing

所有澄清点非 pending 时自动推进到 ready_to_complete，允许点击”完成澄清”。完成后允许 reopen 重新进入编辑。

完成澄清的并发控制

多人协作时，”完成澄清”只能有一个人成功触发一次。用 DB CAS 实现：

1
2
3

UPDATE clarification_runs
SET status = 'completing', completing_by = ?, completing_started_at = NOW()
WHERE run_id = ? AND status = 'ready_to_complete'

RowsAffected = 0 说明已有其他人先点，前端提示”已有其他人正在完成澄清”。

大模型调用边界的划分

这里有一个关键设计决策：两类 LLM 调用必须严格分开。

场景	调用来源	原因
首次分析 TAPD 需求	Knot	需要联网、RAG、内部知识召回
完成澄清后的产物生成	内部 LLM（claude-internal）	只基于已确认澄清结论，避免引入未确认内容

协议是唯一例外——它需要结合真实协议仓上下文，允许单独调用 Knot 生成（见后文）。

产物生成

完成澄清后异步生成：澄清总结 + 整体技术文档 + 各端技术文档（iOS/Android/Kuikly/Web/后台，只在该端有已决策条目时生成）+ 业务流程图（Mermaid）+ 后台协议 + TAPD 正文更新内容（tapd_update）。

前端 4s 轮询直到所有产物就绪。单个产物失败不阻断其他产物。

TAPD 回写：状态必须持久化

完成澄清后，支持将澄清结论评论到需求单，并把 tapd_update 产物写回需求正文（展示左右 diff，人工确认后写回）。

这里有个重要设计：回写状态必须持久化，不能只存前端 UI 状态。

1 2	tapd_comment_sync_status: pending \| in_progress \| synced \| skipped tapd_content_sync_status: pending \| in_progress \| synced \| skipped

用户中途关页面后重新进入，应能恢复到正确状态：

弹窗未选就关页面 → 入口还在（pending）
点了自动更新，后端未完成就关页面 → 后端继续跑；回来看到 synced 或 pending（失败可重试）

有一个严格约束：diff 右侧只允许来自 tapd_update artifact，禁止用 tech_doc 或 summary 等替代写回。这些产物的生成目标不同，混用会导致需求正文变成技术文档风格。

第三阶段：体验升级——从「找问题」到「辅助决策」

问题的核心

平台化之后，真正使用时发现 AI 输出的澄清点质量有根本性问题。典型的旧格式：

阈值确定责任方和灰度策略未明确。

这种描述能指出风险，但产品拿到这句话之后还是不知道怎么决策——它指出了不确定性，但没有给决策路径。

归属体系扩展

原始归属只有”后台开发”，实际上算法团队（推荐排序、模型策略、置信度评估）与后台开发差异很大。本轮新增：

算法：独立于后台开发，用于 AI 能力、推荐系统相关澄清点
数产：数据产品团队，负责上报方案相关确认

同时 Knot prompt 新增了上报专项检查，6 类触发条件：

关键新增页面未提及曝光上报
重要点击行为未提及点击上报
描述了上报点但未给出上报 ID
上报触发时机含糊（”上报播放”未区分开始/结束/心跳）
上报字段不完整
已有类似点位，需确认复用或新增

命中任一条件，自动生成 module=数据上报, attribution=["产品","数产"] 的澄清项。

协议生成：从推测到 Knot 生成

原来协议产物是用当前上下文推测的，容易出现编造接口形态、字段结构不符合真实协议仓、忽略历史约束等问题。

本轮把 api_contract 从普通产物链路拆出，单独调用 Knot 生成，传入：需求原文 + 已确认澄清结论 + 相关后台代码 + 协议仓上下文 + 历史修改记录。协议内容中明确标注”待确认项”，不允许把不确定内容写成确定结论。

Knot 模型一致性

一个容易被忽略的问题：发起分析时选的 Knot 模型，在重新分析和协议生成时应该复用。否则用户会看到同一个 run 里不同阶段的产物风格迥异。

实现：clarification_runs 增加 knot_model 字段，分析时写入，重新分析和协议生成时从 run 读取。老数据没有该字段时，fallback 到系统默认 Knot 模型。

前端详情页显示”本轮分析模型：deepseek-v4-flash”，便于追溯。

澄清项评论

每条澄清点下方有独立的讨论回复区（clarification_item_comments）：

按新到旧排序，展示作者 · 时间 · 内容
卡片底部提供回复输入框，回车或点「回复」提交
生成澄清总结（summary artifact）时，会读取每条澄清点的回复评论，将用户在回复里补充的最终决策、原因或约束吸收进结论，避免”只复述原始问题”

工作量变化与 ROI 提醒

每条澄清点可以填写：

effort_delta_d：工作量变化（天数，可为负）
effort_reason：原因说明
roi_review_required：是否需要产品评估 ROI

当本次澄清累计开发工作量变化 > 0.5D 时，页面顶部显示显著警告横幅：

本次澄清带来超过 0.5D 的开发工作量变化，请提醒产品评估 ROI

这个信息同时出现在”完成澄清”按钮附近、TAPD 评论摘要里、以及数据看板的 ROI 风险报表中。

参考文档来源

每条澄清项下方支持展示 AI 分析时参考的来源（sourceRefs）：

{
  "type": "iwiki",
  "title": "xxx 系统设计文档",
  "url": "https://...",
  "snippet": "相关段落摘录"
}

支持 iwiki / gongfeng / tapd / doc / code 五种类型。Knot prompt 要求输出 sourceRefs 可选字段，解析后落库，前端在澄清点卡片中展示”参考来源”折叠区块。

产物重试

产物生成失败后，不需要重新完成整轮澄清，支持：

单个失败产物”重试”按钮
产物区”重试全部失败产物”
重试不新建同类型 artifact 记录，直接更新 status，保留 artifactId 不变，避免前端轮询引用失效
retry_count / last_retry_at 记录历史

并发保护：同一产物 pending 时不允许重复触发重试。

技术文档改为手动触发

完成澄清后，原来整体技术文档和各端技术文档（iOS/Android/Kuikly/Web/后台）会自动批量生成，token 成本较高，且模型质量口径和协议不一致（协议走 Knot，技术文档走内部 LLM）。

本轮调整：

tech_doc 及各端 tech_doc_* 从自动批量生成中剔除，改为 idle 状态预插入产物列表
产物区显示”未生成（手动触发）”+ 「生成」按钮，用户按需单独触发
技术文档同样改走 Knot 生成（和协议对齐），并追加”去过程化”约束（不输出 Knot 的检索/思考过程，直接出正文）
自动批量仍保留：summary / tapd_update / flowchart / api_contract

这个决策的核心是：技术文档的质量需要代码库上下文，Knot 更合适；但每次完成澄清后全自动生成 5-6 份文档成本太高，改为按需手动触发可以控制成本。

第四阶段：统计口径和 AI 效果度量

采纳率的坑

早期采纳率直接按条目算，同一个需求单重新分析几次、每次都上报，会重复计数。

修正口径：

按 story_id 去重，只取最近一次上报的结果
公式：采纳率 = (采纳 + 搁置) / (采纳 + 拒绝 + 搁置)，pending 不进分母
搁置视为”AI 建议未被否决”，计入分子

技术实现遇到了 MySQL 优化器 bug：用 IN (SELECT COALESCE(correlated_sub1, correlated_sub2)) 嵌套相关子查询时，MySQL 会静默返回空结果集，不报错不警告。改为非相关派生表 INNER JOIN 写法后解决。

漏报率

“漏报”定义为用户在 AI 初始分析之外手动新增的澄清点。

clarification_items 新增 origin 字段（ai / manual），漏报率 = 人工新增澄清点数 / 所有澄清点数，可以持续评估 AI 分析质量的变化趋势。

完成引导弹窗

典型用户行为问题：全部澄清点都确认完了，但忘记点”完成澄清”，导致产物没有触发生成。

解决：当最后一个 pending 澄清点被确认时，立即弹窗引导。触发条件严格限定为：本次更新前 pending > 0，更新后 pending = 0，且 run 未完成。刷新页面、在已完成的 run 上改判某项都不会误弹。

主按钮点击记 complete_now 埋点，进入 AI 效果漏斗统计。

各环节耗时统计

clarification_runs 表新增时间戳字段：

analysis_ms：Knot 分析耗时（毫秒）
first_confirmed_at：第一个澄清点被确认的时间
artifacts_generated_at：自动批量产物全部生成完成的时间
tapd_comment_synced_at / tapd_content_synced_at：TAPD 回写完成时间

这些字段在各状态变更点写入，支持看板展示：平均分析耗时、分析完成→首个确认间隔、完成→自动产物、完成→TAPD 评论等。

数据看板

最终包含三个维度（以纵向 Section 排列，不是 Tab 切换）：

质量：采纳率（按需求去重，口径 tooltip 说明）、按归属拆分采纳率、漏报率趋势、工作量 ROI 风险（触发次数 + 累计工作量变化）

效率：各环节耗时均值（分析时长、人工确认时长、产物生成时长、TAPD 同步时长）、完成趋势、流程漏斗（发起→完成→评论→写回）

AI 效果：曝光 → 操作 → 完成漏斗，推荐项 vs 非推荐项点击率，rewriteDescription 直接使用率（区分”直接使用”和”编辑再替换”）

埋点事件：suggestion_shown（曝光，按 session+澄清点 sessionStorage 去重）、reply_and_confirm、rewrite_and_confirm（直接使用）、rewrite_fallback（编辑再替换/无 rewriteDescription 的兜底）、complete_now（完成引导弹窗点击）。取消等未提交动作不记。

第五阶段：体验细节和 UX 打磨

主版本（Primary Run）

多次重新分析后，用户可能有多个 run，但之前确认过的那轮不应该因为”重新分析了一下”就从默认视图消失。

引入 is_primary 字段（clarification_runs.is_primary）：

首次分析自动设为主版本
后续重新分析产生的新 run 默认 is_primary=0，不抢占主版本
用户可手动”设为主版本”或”取消主版本”
进入详情页时，优先打开主版本；没有主版本时回退到最新 run

顶部”重新分析”按钮增加确认弹窗，明确说明：若当前正在查看主版本，分析完成后不会自动切走当前页面，新 run 只出现在下拉选择器里。

首页筛选：我的需求澄清 / 全部澄清

随着使用增多，首页全量列表变得难以查找。新增双选切换：

我的需求澄清：clarification_runs.created_by = 当前用户，默认选中
全部澄清：保持原有全量列表

接口扩展：GET /api/story-clarifications?scope=mine&username=xxx

UI 从工具页升级为 Dashboard

原来详情页是一个功能完整但视觉朴素的”工具页”。本轮参照设计稿做了改版，核心变化：

Sticky Header：需求标题、当前状态、澄清进度（已确认/总项）、右侧主操作区
Quick Nav：页内锚点导航（需求总览 → AI 分析摘要 → 澄清点矩阵 → 生成产物 → 需求更新）
Section 分组：白色卡片 + 浅灰背景 + 统一圆角阴影
采纳率指标卡：已采纳 / 不采纳 / 搁置 / 待确认的计数和简化采纳率
澄清点分组：按归属或状态分组折叠，高优先级标签醒目

改版策略是”套设计稿的页面叙事和视觉层级，保留我们现有更强的真实能力”——run/version 双层浏览、item 历史记录、sourceRefs 引用来源、完成澄清后的产物区都保留，不为了贴近设计稿而删掉。

知识沉淀

完成澄清后，异步将已决策条目写入 clarification_knowledge_records，沉淀：

澄清点描述、归属、最终决策（adopted/rejected/shelved）
决策原因、谁确认的、什么时间
工作量变化、ROI 是否触发
参考来源 refs

后续可基于这些沉淀做相似需求召回、高频模糊点归类、采纳模式分析。

几个关键设计决策的反思

JSON 是唯一真源，MD 是展示格式：MD 导入导出存在格式损失，不能成为系统真源。版本链、并发控制、历史重建都依赖 JSON 结构。

不允许物理删除澄清项：所有”不处理”的澄清点通过 confirmResult=rejected 表达，在列表中显示删除线。多人协作时如果有人删了一条其他人正在讨论的澄清点，会造成上下文丢失，很难恢复。所有确认状态都应可撤销。

Knot 只做分析，协议是例外：产物生成只用内部 LLM，避免引入未确认内容。唯一例外是接口协议，它需要结合真实协议仓上下文，允许单独调用 Knot 生成。技术文档后来也改走 Knot，但改为手动触发。

完成澄清不是终点，是第二阶段入口：所有澄清点非 pending → 可以完成澄清 → 触发产物生成 → 评论回写 TAPD → 更新需求正文。这条链路里每个节点都需要持久化状态和可恢复设计，不能只靠前端 UI 状态。

小结

这个方向从最初的”AI 找问题列表”演进到”AI 辅助决策工具”，核心变化：

澄清点从问题态变为结论态，推荐答案 + ABCD 选项 + rewriteDescription，产品可以直接选择采纳
每端输出推荐开发确认人（基于代码提交历史，不是需求单处理人）
上报专项检查自动发现需求里缺失的埋点说明
协议和技术文档改由 Knot 生成，质量更接近真实
澄清项下有独立评论区，总结生成时吸收评论内容
工作量变化 + ROI 提醒给产品早预警
数据看板让采纳率、漏报率、各环节耗时可量化追踪

最大的教训：功能上线不等于体验完成。第一版打通了主链路，但产品真正拿到 AI 输出后，”这句话告诉我了什么，但我还是不知道怎么决策”的反馈，才是后续所有体验升级的起点。

Codelix 客户端三端需求开发流水线设计：从 iOS 迁移到三端统一的工程实录

2026-06-01T03:24:36.000Z

背景

Codelix 最初是为后台服务设计的 AI 编码平台：给一个 TAPD 需求单，AI 自动完成需求分析、方案设计、代码生成、编译校验、Code Review 全流水线。后台场景相对规整，踩坑踩了几个月后，我们开始把这套流水线推广到 iOS、Android、Kuikly 三个客户端平台。

这篇文章记录了整个过程的技术细节，包括 iOS pipeline 从零到可用，Kuikly 接入时踩的低级 bug，Android 的广撒网问题，以及跨三端做统一优化的五轮演进。

一、iOS 流水线的设计：7 个 Agent 的协作链路

iOS 编码流水线在一个已有 AI 工具（iOSBugAutoFix）上迁移过来，核心思路是：复用 Codelix 的编排基建，只迁移 Agent 提示词。不重新实现 pipeline 引擎，不重新写 ACP 协议，只把 iOSBugAutoFix 的 agent 逻辑搬进 Codelix 的框架里。

最终链路是 7 个 Agent：

Agent	阶段	职责
`ios-requirement-analyst`	planning	需求分析 + 代码搜索 + 影响范围定位
`ios-design-interpret`	planning	解释设计稿 / D2C 信息
`ios-feature-impact`	planning	评估影响范围和风险
`ios-task-planner`	planning → coding	方案设计 + 任务拆分 + 调度 coder
`ios-coder`	coding	编码实现
`ios-validate`	test	编译验证 + 语义评估
`ios-code-reviewer`	git	代码审查

阶段之间靠结构化 artifact 传递上下文，而不是把所有历史对话塞给下一个 agent。ios-task-planner 完成后调用 add_coder_dispatch MCP 工具，前端监听后自动拉起 ios-coder。

二、iOS coder 的性能灾难

第一个版本跑起来后，效果非常糟糕。以「歌手主页视觉优化」需求为例：

需求分析耗时：**~25 分钟**
代码生成耗时：**~1 小时**
代码生成费用：**~$30**
实际完成进度：5 个 TODO 中只完成 1 个

对比来源系统 iOSBugAutoFix：20 分钟 / $10 / 全部完成。

根因一：路径搜索空转

优化前 ios-coder 的实际执行顺序：

get_artifact(tech_design) 读取技术方案（4000+ token）
从方案中推断文件路径（不可靠）
Bash(grep) / Bash(find) 搜索确认路径
Read 文件内容
最终才 Edit

两次相邻 Edit 之间间隔 10 分钟（17:31 → 17:41）。Session 重启 4 次，每次都重读技术方案，累计浪费约 16,000 token。

根因二：工具白名单过宽

ios-coder 的 AllowedTools 原来是 Bash(*)，模型可以自由使用 find/grep/ls 等所有搜索命令。提示词里写了”Read 已知路径直读，不要用 find/grep 搜索”，但这是软约束，在高噪声场景下模型根本不遵守。

根因三：没有轮次收敛机制

虽然有 MaxTurns=40，但没有剩余轮次催促，没有 Edit 失败预校验，model 只有硬上限，不知道”快用完了”。

解决方案

P0-1：路径硬注入

ios-task-planner 在给 coder 派发任务时，coder_prompt 里必须包含已确认文件路径表格（绝对路径 + 方法名/selector + 行号辅助）以及每个文件的具体变更意图。coder 收到后路径已知，第一步直接 Read 目标文件，无需推断。

P0-2：路径守卫

ios-coder/system-prompt.md 中增加路径守卫：

若 prompt 中包含”已确认文件路径”表格，严禁对表格中的文件使用 Bash(find)/Bash(grep)/Bash(ls) 进行路径搜索。直接使用表格中的绝对路径调用 Read。

与 planner 侧形成双侧约束。

P1-1：工具白名单收紧

ios-coder：Bash(*) → Bash(git *)，从能力层物理封口搜索类命令
ios-requirement-analyst：Bash(grep/find) → 原生 Grep + Glob（无 fork 开销）

P1-2：轮次收敛提示注入

在 ws_channel.go 里，coder 启动时注入催促：剩 5 轮停止搜索，剩 3 轮强制收敛。

实测效果

指标	优化前	优化后
两次 Edit 间隔	~10 分钟	首轮直接 Edit
Session 重建 token 浪费	~16,000 token	路径已注入，无需重推断
需求分析耗时	~25 分钟	~5 分钟

三、iOS 编译验证：5 轮假设才找到真正根因

ios-validate agent 在大型 iOS 工程（QQMusic）上反复出现漏报编译错误：本地 Xcode 能看到的错误，agent 报告里显示”目标文件 0 errors”。

整个排查经历了 5 个假设：

假设	结论
`tail -80` 截断了关键错误	部分成立，但改掉后仍漏报
`changePlan` 漏列改动文件	部分成立，但改掉后仍漏报
`git diff HEAD~1 HEAD` 看不到未提交改动	部分成立，三路 git 后目标文件正确了，但仍漏报
DerivedData 增量缓存跳过改动文件	部分成立，`touch` 目标文件后仍漏报
scheme manual target order 串行阻断	加 `-parallelizeTargets` 后仍有 `database is locked`

最终真正的根因（第 6 轮）：

用户的 Xcode GUI 在运行，DerivedData 的 build.db 被 GUI 占用。

具体机制：

用户配置了 IDECustomDerivedDataLocation = DerivedData（工程内相对路径）
Xcode GUI 编译时占用 DerivedData/build.db
命令行 xcodebuild 启动后，43 秒内就因 database is locked 退出
这 43 秒里依赖图都没建完，主 target 一行代码都没编译
build log 里只有 xcframework 警告，没有任何 CompileC 记录
agent 之前报告的”12 个 QMMoveView.swift 错误”是残留的旧 build log 内容

实测对比：

场景	结果
Xcode GUI 在跑 + 命令行 xcodebuild	43 秒后 `database is locked`，0 个 CompileC，主 target 未编译
Xcode GUI 关闭 + 命令行 xcodebuild	11 分钟完整编译，9000+ CompileC，捕获到真实错误 ✅

核心教训

当 agent 报告的错误”很奇怪”（总是同一组无关错误）时，第一步应该是直接看 build log 里有什么（grep -c CompileC、grep "error:"），而不是改 prompt。

最终可靠的编译命令关键参数：

不带 -quiet（会吞掉关键错误信息）
加 -parallelizeTargets（防止 manual order 串行阻断）
-destination 'generic/platform=iOS'（真机架构，避免模拟器差异漏报）
CODE_SIGNING_ALLOWED=NO（跳过签名）
检测到 database is locked 立即报错，而不是继续给出误导性结论

四、Fix Mode 的设计：编译、语义、CR 三类修复

编译验证之后，需要把”发现编译错误 → 修复 → 再验证”这条链路做顺。原来用户需要：看 validate 报告 → 复制错误信息 → 切回 coder tab → 自己拼修复 prompt → 修完再回 validate 重跑。5 个手动步骤。

Fix Mode 独立 Agent

ios-coder-fix 从 ios-coder 完全拆分出来，独立 system-prompt + 独立工具白名单：

AllowedTools: []string{
    "Read", "Edit", "Write",
    "mcp__codelix__get_artifact",
    "mcp__codelix__save_artifact",
    // ❌ 无 Bash，无 get_workspace_context
},

物理移除 Bash，模型无法调用 find/ls/git log/git show。

优化前的实测数据（22:30 那一轮）

时刻	工具调用	累计耗时
22:30:09	prompt 启动	0s
22:31:01	`find` 探文件	52s
22:32:44	又一次 `find` 同样文件	+103s
22:33:03	`ls -la /Users/xxx/worktrees/`	+19s
22:33:25	`get_workspace_context`	+22s
22:34:08	`git checkout --` 撤销改动	+43s
22:38:22	4 次连续 Edit 同一文件	+234s
22:39:02	end_turn	8m53s

三个根因：①白名单仍有 Bash(git *)，模型把 find/ls 当宽松 git 子命令提交，被 auto-approve；②prompt 体积 15KB，模型忽略注入的文件内容，主动跑 git show 读历史；③同一文件多 error 连发 4 次 Edit。

优化后效果

指标	优化前	优化后	改善
总耗时	8m53s	50.1s	↓ 90.6%
首次工具调用	`find` 探文件	`Edit` 改代码	✅
Bash 调用次数	11 次	0 次	物理切断
同文件 Edit 次数	4 次	1 次	合并

三类 Fix 统一设计（Unified Fix Mode）

后来把 Fix Mode 扩展成三类，统一放在验证 tab 底部：

fixType	触发条件	问题来源	用户控制
`compile`	有 `targetFileErrors`	`test_report`	自动注入，无需输入
`semantic`	编译通过但有 medium/high `semanticRisks`	`test_report`	自动注入，无需输入
`cr`	CR 完成，有 `criticalIssues`	`commit_reviews.critical_issues`	必须经用户输入框确认

CR fix 必须经用户确认的原因：编译错误和语义缺失影响功能，必须解决。CR 问题不一定——可能是误报，可能推后处理。

CR Fix 引入了新编译错误

Unified Fix Mode 上线后，第一次真实使用 CR 快修就踩坑了：

agent 把 insertOrReplaceObjects 改为了 WCDB 属性级 UPDATE，但用错了调用对象：

❌ Agent 的修复：[self.database updateTable:onProperties:withObject:where:]（不存在于此版本 WCTDatabase）
✅ 正确写法：先 [self.database getTableOfName:withClass:] 拿到 WCTTable *t，再 [t updateRowsOnProperties:withObject:where:]

根本原因：ios-coder-fix 的 AllowedTools 没有 Grep，在 CR/semantic fix 模式下，agent 无法查询头文件验证 API 是否存在。

修复：AllowedTools 加 Grep + Glob，同时 prompt 加规则”使用第三方框架 API 之前，先 Grep 对应头文件确认 selector 存在”。

五、Kuikly 接入：一个低级 bug 导致所有 Agent 全部被拦截

Kuikly 接入后，出现了一个诡异的现象：

kuikly-task-planner 多次启动，每次很快结束，没有产出 tech_design artifact，没有拆 TODO，也没有触发 coder
手动点「进入代码实现」后页面无响应

查看 agent 日志，发现大量：

1
2

BLOCKED tool="mcp__codelix__mcp__codelix__get_workspace_context" kind="other" agentRole=kuikly-task-planner (not in AllowedTools)
BLOCKED tool="mcp__codelix__mcp__codelix__save_artifact" kind="other" agentRole=kuikly-requirement-analyst (not in AllowedTools)

双重前缀。

根因：codelix-mcp 的 handleToolsList 在 manifest 里把工具名注册为 mcp__codelix__（已带前缀）。Regular claude 和 tme-claude 收到这个 manifest 后，按 MCP 协议惯例再加一次 mcp__codelix__ 前缀，最终工具名变成 mcp__codelix__mcp__codelix__。

ACP 服务端的 IsToolAllowedByACPPermission 拿双重前缀名去匹配 AllowedTools（单前缀），完全匹配不上，所有 codelix 工具被全部拦截。

影响范围：所有平台（backend / kuikly / iOS / Android）所有使用 codelix MCP 工具的 agent。

修复：

acp/manager.go — IsToolAllowedByACPPermission：进入白名单检查前先归一化，检测 mcp__X__mcp__X__foo 模式并折叠为 mcp__X__foo
mcp-server/main.go — handleToolsCall：循环剥前缀，兼容双重前缀调用

另外还有一个配套 bug：startCodingFromPlanning 切换到 coding tab 时，没有清除 activeRun（仍指向 task-planner 的旧 run）。coder 启动后，WS 事件被旧的 planning 视图抢走，coding tab 收不到任何输出，UI 上表现为”进不去”。修复：切 tab 之前先执行 setActiveRun(null); setActiveRunTab(null); clearSingleAgentMemory()。

六、Android 需求分析：21 分钟 4 次 Compacting

Android 的「韶音二期体验优化」需求（12 条子需求）：

需求分析耗时：21 分钟（13:38:28 → 13:59:34）
累计约 250 次工具调用

时间线：

时间	事件
13:38:28	开始
13:39:44	第 1 次 Compacting（开始后仅 1.5 分钟）
13:43:19	第 2 次 Compacting
13:50:00	第 3 次 Compacting
13:54:45	第 4 次 Compacting
13:59:34	输出完成

4 次 Compacting 合计消耗 10–14 分钟，占总耗时 50–67%。第 1 次 Compacting 在开始后 仅 1.5 分钟就触发，说明文件读入速度极快地撑满了上下文。

最严重的一个批次：单轮读取 18 个文件 + 12 次搜索。

方案设计阶段更夸张：22 分钟，两轮探索合计读取 129 个文件、107 次搜索、614 次 Tool 调用——task-planner 把”方案核验”做成了全仓重新分析。

七、五轮跨三端统一优化

以上这些问题的解法，最终在 platform/05-multi-platform-analysis-design-optimization.md 做了三端统一规范，经历了五轮演进：

第一轮：收敛广撒网

核心原则：把”全面覆盖”和”全面阅读”解耦。覆盖率靠”逐条需求都处理过”保证，阅读量靠”证据分级”收敛。

硬约束：先 Grep 后 Read，单轮 Read ≤ 5 个文件，大文件只精确匹配符号，同一条需求连续 3 轮无命中则停止扩散。

收益：iOS 需求分析从 ~20 分钟降到 ~5 分钟。

副作用：约束过强时，部分需求定位不准或漏掉边缘影响面。

第二轮：为了补覆盖率，耗时再次劣化

有人为了提高定位准确性，重新强化了”每个候选文件都要读内容验证”、”发现路径立即读取”、”无法判断时扩大搜索范围”。iOS 需求分析从 ~5 分钟退回到 ~20 分钟。

教训：提示词优化有回归风险。没有工程层面的约束，只靠 prompt 软规则，容易被后来的”优化”盖过。

第三轮：三端统一 + 方案设计约束

把第一轮 iOS 经验统一推广到 Android / Kuikly，同时限制方案设计阶段：

最多 2 轮补充搜索；单轮 Read ≤ 3 个文件；整个方案设计阶段累计 Read ≤ 8 个文件
默认信任并消费上游 artifact，不重新做全仓目标文件定位

时间收住了，但规则没有区分”普通不确定点”和”主链路断点”。Kuikly 的 ASR 搜索需求：commonMain → native bridge → plugin/service → callback → UI 展示 这条链有没有接通才是关键，搜不到就写 risk 的规则导致主链路断点被当成普通风险，coder 继续局部实现，代码看似覆盖不少文件，但关键能力没有真正连上。

第四轮：Contract Gate

主链路必须 blocker 化，而不是 risk 化。

规则：涉及跨层能力时（bridge/native/plugin/callback/route/jump/状态链路），必须输出 contracts[]，记录 entry / transport / consumer / result / ui 五个关键节点。任一节点缺失或未知 → 进入 blockingGaps[] + 阻塞 TODO，不得降级为普通 risk。

各端触发词（命中任一词即启动 Contract Gate 检查）：

Android：Activity / Fragment / ViewModel / Repository / UseCase / Flow / StateFlow / module interface / broadcast / intent / callback / SDK / native
iOS：delegate / notification / block / protocol / Manager / Service / native / SDK / callback / jump / router
Kuikly：bridge / native / plugin / callback / route / page param / jump / locate / ASR / WVS / FC

副作用：缺口落在跨仓时（宿主 App / 独立仓 / 预编译库，当前工作区无源码），被判 blockingGaps 会连带阻塞本仓本可编码的部分；Contract Gate 也只管到”规划”，编码阶段仍有大撒网。

第五轮：把闭环延伸到编码 + 校验

问题一：编码阶段大撒网

实测某次 Kuikly 代码实现，27 分钟里前 ~14 分钟，coder 并行读了 60+ 文件、Grep 64 次。coder 提示词写了”禁止搜索”，但不起作用。

根因：ACP 模式下工具是通过运行时 request_permission + AutoApprovePermission 放行的，AllowedTools 白名单只在 CLI --print 生效，不是真正的物理门禁。

修复：HardBlockByAllowedTools（acp/manager.go）对 claude 形态 agent 拦下白名单外的工具。但原来的匹配器只认 Bash(git:*) 冒号写法，不认三端 coder 用的 Bash(git *) 空格写法，导致硬门会误杀 coder 的 git 命令。修掉这个 bug 后，硬门才真正对三端 coder 可用。

问题二：跨仓缺口过度阻塞

宿主 App / 预编译 xcframework / AAR / SDK 等，当前工作区无源码，修不了。改为 human_action TODO（coder 自动跳过、留人工），**不进 blockingGaps[]**。

问题三：校验→修复闭环断开

覆盖缺口只写进 designCoverage.missing[]，但”语义修复”按钮只认 semanticRisks[]。编译通过、只差覆盖时，用户没有可点的修复入口，只能盲目”重做”，coder 拿不到缺口信息，必然复现同样结果。

实测 Kuikly ASR 需求重做两次仍缺同样 2 处 [语音] 前缀 Span。

修法：校验 prompt 统一要求，designCoverage.missing[] 中本仓可改的缺口，同时在 semanticRisks[] 镜像一条（fixable=true, severity=medium），让现成的”语义修复”按钮能识别并驱动 coder 修复。仅在本轮编译通过时镜像（有编译错误优先走”编译修复”），逻辑天然隔离。

八、工程保障：为什么不能只靠提示词

最重要的教训：提示词软约束在 ACP 模式下不稳定。

iOS 需求分析速度从 5 分钟回归到 20 分钟，就是因为有人在提示词里加了覆盖率相关约束，把广撒网逻辑写了回去。解决方案：

预算片段放 prompt 第一屏：约束必须在 system prompt 顶部，模型读到约束前就已决定”先探索”
运行时催促：ws_channel.go 在 requirement-analyst（MaxTurns 20）、task-planner（MaxTurns 15）剩余轮次不足时，注入”剩 5 轮停止搜索 / 剩 3 轮强制收敛”
AllowedTools 物理切断：必须禁止的行为先从工具白名单切断，再用 prompt 双侧重复约束。Fix Mode 无 Bash 白名单是物理约束，比 prompt 写”禁止 find”强得多

前两条治分析/规划阶段，第三条治编码/修复阶段。改 prompt 治”标”，工程约束治”本”。

九、首轮试点数据

首次在 Kuikly / iOS / Android 三端完整跑通 Codelix 流水线，4 个真实需求：

需求	端	估算工作量	总耗时	输入 Token	总费用	完成度
Kuikly A	Kuikly	1D	69 min	21,451,917	$11.69	95%
Kuikly B	Kuikly	7D	97 min	16,532,406	$15.77	92%
iOS	iOS	2D	~85 min	16,801,822	$11.00	100%
Android	Android	2.5D	~99 min	23,118,214	$17.10	89%

数据为首轮试点、样本量小，仅作量纲参考，不代表稳定均值。

Android 阶段明细（最复杂的一单）

阶段	耗时	费用
需求分析	21 min	$3.47
方案设计	22 min	$4.54
代码实现	17 min	$3.40
校验 + CR + 多轮修复	~38 min	$4.69

这里有个典型问题：CR 快修顺手新增了 2 个 override，但没先验证编译，导致引入了 4 个编译错误，额外多出两轮”编译错误→快修”循环。后来通过在 coder prompt 中明确禁止”未经验证的顺手新增改动”来规避。

关键观察

代码生成是 Token / 费用大头：四个样本中代码生成阶段占总费用 30%–65%，是最大优化空间
需求单质量直接影响分析成本：Kuikly A 需求单含大量代码名/模糊路径，分析阶段确认点偏多；iOS/Android 需求分析都在 20 min 量级，输入 token 很高
多轮校验/快修常态化：几个样本都经历 2–4 轮”校验→快修”，单轮成本不高但累加可观

十、几个核心设计决策

Fix Mode 必须和首次实现分开：修复轮次是机械修补，不是重新分析。两者混在同一个 agent 里会浪费 token、混淆模型决策，且无法针对 fix 场景单独收紧工具白名单。

上下文传递要主动，不要靠 Agent 重新推断：ios-task-planner → ios-coder 的调度路径上，路径信息从技术方案（自然语言）变成硬注入（结构化表格），消除了”推断 → 搜索确认”这一环。这个原则后来推广到三端。

不引入 orchestrator：iOS validate/fix 闭环不使用后端 orchestrator / 状态机。当前 codelix 是”前端 tab + artifact 串联”模式，引入 orchestrator 会出现两套并行编排模型，维护成本不成比例。编译修复闭环完全可以靠结构化 artifact + 前端按钮 + prompt 模板实现。

编译结果提取交给确定性程序：LLM agent 自由执行 shell + 解析文本本质不可靠。长期方案是新增 mcp__codelix__ios_build_verify MCP tool，由 Go 后端确定性实现——LLM 只做语义判断，不做 xcodebuild 输出解析。

小结

客户端三端流水线从无到有，踩了大量坑：

iOS coder 路径搜索空转导致 1 小时 / $30 只完成 1/5 的任务
iOS validate 漏报编译错误，排查了 5 个假设才找到真正根因（Xcode GUI 占用 DerivedData）
Fix Mode 优化把单轮耗时从 8 分 53 秒降到 50 秒
Kuikly 接入时 MCP 双重前缀 bug 导致所有工具全部被拦截
Android 需求分析触发 4 次 Compacting，耗时 21 分钟
五轮跨三端统一优化，从广撒网约束到 Contract Gate，再到编码阶段物理硬门

目前的方案在 4 个真实需求样本上跑通了端到端闭环，成本在 $11–$17 / 需求、耗时在 70–100 分钟 / 需求的量级。对于一个 1–7D 的真实客户端需求，这个量级在可接受范围内。

后续主要优化方向：首轮 coder 的 token 消耗（目前占 30%–65%）、需求分析输入 token（iOS/Android 单次 600–700 万输入）、以及把编译验证从”LLM 解析 build log”升级为 MCP tool 确定性实现。

iOS AutoFix Agent 阶段性收尾：可迁移的 Agent 工程经验沉淀

2026-05-29T12:00:00.000Z

前言

从最早思考《为什么要做一个 iOS bug 自动修复的 agent 程序》，到 V3 把单文件原型重构成 AgentEngine 引擎、V4 把领域知识结构化、V5 把「完成需求开发」提成唯一 P0 并引入 Pipeline 编排基座，这个项目断断续续做了两个月。之前我写过一篇《从 Bug 修复到需求开发：iOS AutoFix Agent 的 V3-V5 演进之路》，把版本演进的脉络讲清楚了。

接下来我的重心会转到和其他同学共建另一个 Agent 项目上。所以趁记忆还热乎，给 iOS AutoFix 做一份阶段性收尾——这篇不再复述版本演进，而是把这一年踩过坑、验证过的与领域无关、可以直接搬到下一个 Agent 项目的工程经验沉淀下来。

一句话定位整个项目的终态：

V4 解决「能不能定位/修复一个 Bug」，V5 把「完成一个需求开发」提升为唯一 P0，并引入 Pipeline Orchestrator（流水线编排基座），让 分析 → 设计 → 闸门 → 实现 → 验证 → 评审 以声明式、可配置、支持闸门与智能回退的流水线串起来。

V5 走到了哪里

V5 围绕三条主线展开：

主线	名称	角色
主线 0	Pipeline Orchestrator	架构基座：声明式流水线引擎 + 闸门（Gate）+ 智能回退（Rollback）+ 状态持久化 + 可观测性
主线 A	定位与修复质量	继续打磨 Bug 定位/修复/经验复用，在 V5 中承担「基础设施 + 壁垒」角色
主线 B	需求开发能力	从需求分析、改动点识别、多文件写入到限定场景的完整需求实现 —— V5 唯一 P0

落地形态是一条六阶段需求开发流水线，以一个真实 TAPD 需求为例，全程约 65 分钟、中间两次人工确认：

1 2	① 需求分析 → ② 方案设计 [HumanGate] → ③ 影响评估 → ④ 代码实现 [事务写入 + 自动回滚] → ⑤ 编译验证 → ⑥ 代码审查

到 V6 雏形，需求开发已经从「勾哪端就各自独立跑 Pipeline」演进到「一个需求、一次整体分析、按涉及端分别落地」——iOS / Android / Kuikly 三端共享一次跨端分析，再并发分端实现，保证跨端协议字段/事件名一致。

当前的分层架构

收尾时整个系统稳定在 5 层。理解这张图，就理解了这个 Agent 的全部骨架：

入口层（CLI / GUI / 企微机器人）
    ↓
Pipeline Orchestrator   —— 按什么顺序跑、卡在哪个闸门、错了怎么退
    ↓
AgentEngine             —— 单个 Agent 怎么跑：循环控制 / 工具分发 / Scratchpad / 对话压缩 / 置信度退出
    ↓
TaskProfile             —— 这一步跑什么：BugLocate / Fix / FeatureAnalyze / FeatureDesign / FeatureImplement / CodeReview / ImpactAnalysis
    ↓
知识 & RAG 层           —— ModuleDoc + CaseDoc + FixRecord，7 路并行召回 + Knot 知识库

最关键的一组抽象，也是这一年最值钱的设计决策：

Engine 管「怎么跑」，Profile 管「跑什么」。通用的 Agentic Loop（循环、工具分发、压缩、容错）沉到 Engine，场景差异（角色、工具集、退出条件、领域知识）放进 Profile。十几种 Profile 复用同一个 Engine，新增一种任务类型只要写一个新 Profile。
Pipeline 管「编排」。Engine 只关心单个 Agent 跑完一轮，Pipeline 负责把多个 Stage 串起来，并在阶段转换处插闸门。

可迁移的工程经验

下面这些是我打算带去下一个 Agent 项目的「行李」。它们大多与「修 iOS Bug」这件具体的事无关，是做任何 LLM Agent 都会遇到的问题。

1. 先有编排框架，再往里插能力

最容易犯的错是：先把一个个能力（分析、设计、实现）写成独立脚本，最后再用胶水代码串起来。结果就是回退、重试、断点续跑这些横切逻辑散落在各处。

V5 的做法是反过来——先建 Pipeline 编排基座，每个能力作为一个 Stage 插进去。回退、状态持久化、崩溃恢复、可观测性都由编排层统一提供。Pipeline First 是 V5 九条核心原则里的第一条，事后看这个顺序定对了。

2. 闸门是一等公民 + 智能回退

关键阶段转换处一定要设闸门（Gate），不通过则携带反馈智能回退，而不是直接失败。闸门分三类：

MetricGate：置信度 / 编译结果等硬指标
AIGate：用一次独立的 LLM 调用评估上一阶段产物质量
HumanGate：人工确认（GUI 里做成倒计时确认弹窗）

回退用的是循环模型而非递归：每个 Gate 维护独立的回退计数，避免「设计→实现→验证失败→回设计→又失败」无限套娃。状态用原子写入持久化，进程崩溃能恢复到中断处。

3. 上下文工程：三个反直觉的结论

这是 Agent 工程里水最深的部分，几条经验都和直觉相反：

超长 system prompt 会「中段失忆」（Lost in the Middle）。主 Orchestrator 的 prompt 一度超过 350 行，模型对中间部分的遵循率明显下降。解法是分阶段注入：探索阶段只给角色+工具+方向，搜索完才注入评估规则和退出条件，准备提交时才注入「自我质疑」清单。瘦身后 exploration prompt 减了约 70%。
压缩会丢掉关键证据。每 5 轮压缩一次对话，会把搜索过程中发现的文件路径、行号、调用链一起压没，导致 Agent 重复搜已经找过的文件。解法是给 Agent 配一个不会被压缩的小本本（Scratchpad）：通过 note_finding 工具写入关键发现，标记 _isScratchpad，压缩时跳过，每轮作为 system message 重新注入。
结构化数据 > 报告文本。子代理给主代理传「文本报告」会有信息损失且容易被误解，改成结构化的 keyFiles / codeSnippets / callChains / hypotheses / coverage 后，主代理可以直接引用具体发现。

4. 置信度驱动早停，而不是机械计时器

最初的轮次控制是「第 8 轮提醒、第 12 轮强制提交」这种机械计时器——Agent 可能第 3 轮就找到答案还在空转烧 token，也可能第 12 轮没找到被强行提交。

改成置信度驱动早停：每轮自评置信度，但触发早停要三个条件同时满足——置信度 ≥ 0.8、总发现 ≥ 3、剩余方向全为低优先级。任一不满足就继续，宁可多跑也不「差点找到」漏掉根因。强制提交时打 low_confidence 标记，让下游知道定位可能不准。

5. 工具使用纪律：双层约束

让 Agent 别乱用工具，单靠 prompt 不够。有效的是双层约束协同：

工具 description 层（「什么时候该用」）：写前置条件「使用前先 ripgrep 确认目标位置」、范围指引「命中行 ±20 行」、红线「禁止无目标读取 >100 行」。
Prompt 层（「什么不能做」）：明确列反模式——没 grep 就直接读大段、对低相关匹配反复扩大读取范围、重复读已读过的区域。

两层叠加后，ripgrep 调用从 7 次降到 4 次（**-43%**），平均每次工具调用数从 7 降到 5。

6. 写入安全是红线

只要 Agent 会改用户的代码，写入安全就不能妥协。V5 的红线是四件套：**--confirm 确认 + 事务写入 + 编译验证 + 自动回滚**。代码实现阶段所有写入打包成事务，编译不过就整体回滚，绝不留下半成品。这条在「修 Bug」时还能商量，到「需求开发」要改多文件时就是底线。

7. 改动的「精准性」比「成功率」更重要

修 Bug 最大的风险不是没修好，而是改出新 Bug 或改错位置。让 LLM 生成 diff 时，强制 search 块带上前后 1-2 行上下文确保唯一匹配，而不是只给变更行（LLM 从记忆重建代码会有细微偏差，导致静默匹配失败）。

就这一个约束 + 「最小修改原则」，让修复阶段 Token 从 60K 降到 26K（**-57%**），LLM 调用从 6 次降到 3 次。

8. 可观测性要覆盖事前/事中/事后

事前：靠工具 description 和 prompt 预防低效行为；
事中：检测工具使用比例（read_file / ripgrep > 2:1 报警）、重复搜索同一文件；
事后：earlyTerminationSnapshot 记录早停时跳过了哪些方向，配合 evidenceHitRate / searchEfficiencyRatio / evidenceConsistencyScore 等场景级指标，做基线保存和回归检测。

一组综合优化前后的实测对比（质量指标全部持平的前提下）：

指标	优化前	优化后	改善
总 Token	107,951	67,098	-37.9%
总耗时	272.9s	191.0s	-30.0%
LLM 调用	18	13	-27.8%
主循环收敛轮次	3	2	-33.3%

9. 多模型评测与降级链

不要押注单一模型。V5 建了一套 10 分制的多模型评测框架（评估维度：文件定位 25% / 分析深度 25% / 实现计划 20% / 风险识别 15% / 执行效率 15%），跑同一个需求对比：

配置	综合得分	特点
claude-opus + 内置引擎	8.8	覆盖最广，风险识别最深
deepseek-4 + ACP	8.5	行号级精度，零幻觉
claude-4.6 + claude-internal	8.2	流程最稳，但会跑偏去搜 Android 代码（项目类型上下文注入不足）
glm-5 + CodeBuddy SDK	6.7	最快（105s），质量尚可

线上则用降级链（CodeBuddy Claude → GLM → DeepSeek）保可用性，并对不支持 function calling 的模型做 JSON 解析降级。评测决定选型，降级链保底。

10. 知识沉淀要分类，并设晋升路径

知识库不是把文档堆一起。V5 把知识分四类——案例 / 经验 / 记忆 / 索引，共享知识库走独立 git 仓、个人记忆落本地，每条知识带 confidence 和晋升路径（被多次验证的经验才升级为共享知识），并设入库准入条件和触发器。这样知识库才不会越长越脏。

诚实的局限：为什么在这个点暂停

核心闭环已经成形，剩下的是打磨，所以这是个合理的暂停点。但有几处确实没做完，留个记录：

跨端 analyze 还没真正复用（Phase B）：V6 目前是把跨端整体方案作为 additionalContext 注入各端，各端仍会冗余跑一遍自己的 analyze，时间有浪费。彻底的做法是用 preloadedAnalysis 直接跳过各端 analyze stage，但那会侵入 PipelineEngine 内部，风险大，所以先用了轻耦合方案。
粗筛权重是手工拍的：5 策略加权（直接路径 100 / SQLite 索引 10-40 / 目录推断 8 / Git 热点 5 / Bug 类型专项 12-15）很难对所有项目通用。正解是用历史定位数据做权重调优，或者干脆让 LLM 直接做粗筛——现在的模型能力够用了。
并发统计口径会串：多端并发时 token / 日志统计可能互相累加，不影响功能，但口径乱。
旧入口还没收尾：三个分端独立 Tab 仍可见，等新的统一入口稳定后再隐藏。

下一站：共建另一个 Agent

回头看，这一年真正沉淀下来的，不是「怎么修 iOS Bug」，而是「怎么造一个能干活的 Agent」。这两件事可迁移的程度完全不同：

可以直接搬过去的（与领域无关）：Pipeline 编排 + 闸门 + 智能回退、Engine/Profile 解耦、上下文工程那三条、置信度早停、写入安全四件套、事前/事中/事后可观测性、多模型评测与降级、知识分类沉淀。
必须重做的（iOS 特化）：仓库索引与页面映射表、编译验证（xcodebuild / gradle / KMP）、各端的 Profile 与领域知识。

下一个项目是和其他同学一起共建，正好可以把上面这套「与领域无关的 Agent 骨架」当成共识的起点，少走一遍弯路。iOS AutoFix 这边先告一段落，等下一个 Agent 跑起来，应该还有新的东西可以反哺回来。

总结

如果只能带走三句话：

先有编排，再插能力——横切逻辑（回退/续跑/可观测）必须沉到编排层。
Engine 管怎么跑，Profile 管跑什么——这组解耦让一套引擎服务十几种任务。
上下文工程 + 写入安全是 Agent 能不能用的两道生死线——前者决定它聪不聪明，后者决定你敢不敢让它动你的代码。

从 Bug 修复到需求开发：iOS AutoFix Agent 的 V3-V5 演进之路

2026-05-24T14:03:17.000Z

从 Bug 修复到需求开发：iOS AutoFix Agent 的 V3-V5 演进之路

在上一篇文章里，我解释了为什么选择自建 Agent 架构，而不是做 IDE 插件——核心在于要拥有”流程控制权”，而不是”平台适配权”。

那篇文章写完后，系统先后经历了 V3、V4、V5 三个大版本的迭代。我打算在这篇里把这段演进过程讲清楚：每一版做了什么、为什么这么做、踩了什么坑、优化思路是什么。

一、V3：从单文件到引擎架构

问题起点

V2 的核心问题是：代码全部堆在一个 1100+ 行的 PreciseLocator.ts 文件里。prompt 编排、工具分发、Agent 循环、评估逻辑全部混在一起，新增任何功能都要触碰这个巨型文件。更重要的是，V2 在复杂 Bug 上能力不足——8 轮搜索子代理、每轮只有 2-3 个工具调用，对于需要追踪多层调用链的 Bug，搜索深度明显不够。

架构重构：AgentEngine + TaskProfile

V3 的首要任务是拆文件，但不是机械地拆，而是找到正确的分层方式：

AgentEngine（通用执行核心）
  ├── 循环控制
  ├── 工具分发
  ├── 对话压缩
  └── 容错与重试

TaskProfile（场景差异层）
  ├── BugLocateProfile
  ├── CodeLocateProfile
  └── CodeAnalysisProfile

Engine 负责”怎么跑”，Profile 负责”跑什么”。新增任务类型只需实现新 Profile，不用改 Engine。这个模式后来证明极其有价值——V4、V5 的十几种 Profile 都复用了同一个 Engine。

子代理能力强化

架构拆完之后，重点放在增强子代理的搜索能力：

维度	V2	V3	变化
搜索轮次	8 轮	12 轮	+50%
每轮工具调用	2-3 个	5-9 个并行	+200%
工具执行方式	串行 for	限流并发（limit=4）	token -37%
搜索工具	ripgrep + read_file	+ find_files	增加文件名维度

其中最有意思的是强制提交轮的上下文压缩。V2 时，子代理在强制提交轮（第 14-15 轮）拿到的是完整的历史消息，约 100K tokens。LLM 面对这么大的上下文，实际有效处理率只有 33%。V3 把强制提交轮的 context 压缩为约 15K 的结构化摘要，有效率直接从 33% 拉到 100%。

渐进式催促机制

V2 只有两段式控制：第 8 轮”给你个激励”，第 14-15 轮”强制提交”。V3 换成了 4 级渐进催促：

Round 1-7:   自由搜索
Round 8:     💡 中途评估，收敛方向
Round 9:     ⚠️ 剩余轮次不多
Round 10:    🚨 最后搜索机会
Round 11-12: 🔒 移除搜索工具，仅保留 submit_result

从用户体验角度看，这很像给实习生分配任务时的跟进节奏——不是一上来就催，而是在关键节点给出提示，让他有机会自我调整。

性能对比

指标	V2	V3
总耗时	~283s	~163s（-42%）
LLM 调用次数	~22 次	~17 次（-23%）
Token 消耗	~125K	~95K（-24%）

二、V4：领域知识沉淀与可观测性

V4 是个大版本，做的事情很多，但有一条清晰的主线：**从”能定位”到”知道自己在做什么”**。

引擎内核的四个关键优化

基于对 V3 的深度审查（是的，我用 LLM 跑了一次完整的 Code Review），发现了四个核心问题，V4.3 全部解决：

1. 分阶段 Prompt 注入

V3 的主 Orchestrator 有 350+ 行系统 prompt，角色定义、工具说明、bug 类型分类、退出条件全部揉在一起。LLM 在超长 prompt 中有著名的”Lost in the Middle”问题——中间部分指令遵循率明显下降。

解决方案是把 prompt 按任务阶段动态注入：

探索阶段：只给角色 + 工具 + bug 类型
分析阶段：注入评估规则
提交阶段：注入三问法和退出条件

2. Scratchpad 结构化草稿板

V3 每 5 轮压缩一次对话，问题是关键的文件路径、行号、调用链会在压缩中丢失，Agent 可能在后续轮次重复搜索已经找过的文件。

V4 引入了 Scratchpad：Agent 可以通过 note_finding 工具主动记录关键发现，这些记录被标记为 _isScratchpad: true，压缩时跳过，每轮注入为 system message。等于给 Agent 配了一个不会被压缩的小本本。

3. 置信度驱动退出

把”第 12 轮强制停”改为”置信度 ≥ 0.85 时可提前停”。不只是节省 token，更重要的是让 Agent 的退出决策与任务完成质量真正绑定，而不是靠”计时器”。

4. 结构化搜索结果传递

V3 的子代理提交一份文本报告，主 Agent 从文本里提取发现——有信息损失，且可能误解。V4 改为结构化数据传递：

interface StructuredSearchResult {
  keyFiles: Array<{ path: string; relevance: number; summary: string }>;
  findings: Array<{ file: string; lines: [number, number]; content: string }>;
  hypotheses: Array<{ description: string; confidence: number; evidence: string[] }>;
}

BugTypePolicy：领域知识结构化

V3 有 11 种 bug 类型的支持，但相关的搜索策略、分析维度、退出条件都硬编码在一个巨大的 switch-case 里。V4 把它重构为 BugTypePolicy 注册表——每种 bug 类型有独立的策略文件，PolicyRegistry 负责查找和组合。

这解决了一个本质问题：领域知识和执行逻辑分离。现在增加一种新的 bug 类型，只需要写一个策略文件，不用改 Agent 循环代码。

RAG 知识库

V4 引入了两层知识系统：

ModuleDoc：模块级别的架构文档，通过 DocGen 命令自动生成
CaseDoc / FixRecord：历史成功修复案例，每次 fix 成功后自动入库

RAG 检索有 7 条并行路径（全文检索 / 路径匹配 / 符号检索 / 依赖关系 / 案例模块 / 历史修复记录 / Knot 知识库），每条路径独立计算命中率，可以在 Metrics 里看到哪条路径最有价值。

Metrics 可观测性体系

V4 构建了完整的可观测性体系：

搜索质量指标：工具调用分布、计划命中率、方向利用率、证据一致性分数
成本效率指标：每结果 Token 消耗、按模型估算 USD 花费
历史聚合报告：npm run metrics，按命令/日期汇总，sparklines 趋势可视化
基线评测：--save-baseline 保存基线，--check-baseline 回归检测

这套体系解决了一个关键问题：不再靠”感觉”来判断系统有没有在变好。每次改动都能用数据说话。

多架构 TrackingModel

iOS 项目有 MVC、MVVM、VIPER 等多种架构，每种架构的数据流层次不同，定位路径也不同。V4 把追踪模型做成了可配置的 ArchitectureProfile：

1
2
3

MVC_CGI:    UI → 数据装配 → Model → CGI 层
MVVM_CGI:   UI → ViewModel → Model → CGI 层
VIPER:      View → Presenter → Interactor → Entity

在 autofix.config.json 里指定 projectArchitecture，系统自动选用对应的追踪策略。

三、V5：从 Bug 修复到需求开发

V5 是一次战略转向。V4 解决了”能不能修 Bug”的问题；V5 的目标是：能不能让系统完成一个完整的 iOS 需求开发任务。

Pipeline Orchestrator：声明式流水线

V5 引入了 Pipeline Orchestrator 作为核心架构基座。这是把”一组命令串起来执行”升级为”声明式流水线编排”的关键一步。

一条 Pipeline 长这样：

1	[需求分析] → Gate → [方案设计] → Gate → [影响评估] → [代码实现] → [编译验证] → [代码审查]

每个 Gate 可以是三种类型之一：

MetricGate：置信度阈值、编译结果等指标判断
AIGate：LLM 评估方案可行性或代码质量
HumanGate：人工确认（复用 acknowledge 机制，不打断 terminal）

Gate 失败时，系统不是直接报错，而是带着失败反馈回退到指定阶段重新执行。回退上限是双层计数（每个 Gate 独立计数 + 全局总计数），防止死循环。

一个设计细节：纯 Nullability 编译错误（Swift 的 optional 相关警告）不消耗有效 retry 配额。这是因为这类错误往往是模型生成代码时的习惯问题，让它多试几次通常能自己修好，不应该把宝贵的 retry 机会浪费在这上面。

需求开发流水线实战

以一个真实案例说明整个流程：【歌手主页】歌手写真切换交互+基础体验优化（TAPD 需求）。

流水线六个阶段：

① Analyze（需求分析）
  → 输出: 核心文件列表 + 风险点 + 参考实现

② Design（方案设计）
  → 输出: 每个文件的改动路径 + 数据流梳理

③ Impact（影响评估）
  → 输出: 关联模块、上下游影响面

④ Implement（代码实现）
  → 事务写入，编译失败自动回滚重试

⑤ Validate（编译验证）
  → xcodebuild 静态编译 + 语义覆盖率校验

⑥ Review（代码审查）
  → CodeReviewProfile 驱动，critical/warning 级别问题可打回 Implement

全程大约 1 小时 5 分钟，中间两次人工确认（方案设计后、代码实现前），其余步骤全部自动执行。

多模型评测框架

V5 做了一件有意思的事：用同一个需求，分别跑 5 种不同的模型 + 接入方式组合，用 Claude Sonnet 4.6 进行 10 分制精评，验证不同配置下的效果差异。

评估维度：文件定位准确性（25%）、分析深度（25%）、实现计划质量（20%）、风险识别（15%）、执行效率（15%）。

结论很有意思：

配置	综合得分	特点
claude-opus + 内置引擎	8.8	覆盖最广、风险识别最深
deepseek-4 + ACP	8.5	行号级精度、零幻觉
claude-4.6 + claude-internal	8.2	流程最稳定，但效率问题（搜索了大量 Android/Kotlin 代码）
glm-5 + CodeBuddy SDK	6.7	最快（105s），质量尚可

V2 效率垫底的根因很清楚：项目类型上下文注入不足——LLM 不知道这是 iOS/ObjC 项目，搜索方向跑偏了。这类问题很容易修，但靠人工 review 日志才能发现。有了系统化的评测框架，这类问题能够被量化追踪。

四、优化思路总结

经历三个版本的迭代，我对 Agent 系统优化形成了几个比较稳定的判断：

1. 双层约束优于单层

改 LLM 行为有两个层面：工具 description 和 Prompt。只改其中一层，效果有限。

以工具使用纪律为例，V5 在工具的 description 里加了明确的使用边界（”使用前先 ripgrep 确认位置，禁止无目标读取 >100 行”），同时在 Prompt 里加了反模式禁止列表。两层协同，ripgrep 调用减少了 43%。

工具层侧重”什么时候该用”，Prompt 层侧重”什么不能做”，互相补充。

2. 保守设计比激进触发安全

以早停机制为例，V5 的场景 B（高质量证据早停）有三个条件必须同时满足：

至少有一个方向置信度 ≥ 0.8
总发现数 ≥ 3
剩余方向全为低优先级

任何一个条件单独满足，都不触发早停。这个保守设计多次避免了因为”差点找到了”而漏掉根因的情况。

3. 事前 + 事中 + 事后的可观测性层次

优化 Agent 有三个时机：

事前：通过工具 description 和 Prompt 预防低效行为
事中：检测工具使用比例（如 read_file / ripgrep 比 > 2:1 报警）
事后：早停快照记录跳过了哪些方向，用于效果回溯

这个分层体系比单纯看”成功率”有价值得多，因为它告诉你为什么成功或失败。

4. 修复精准性比修复成功率更值得关注

V5 优化前，修复阶段 LLM 调用 6 次，Token 60K+，核心原因是搜索块（search block）匹配到了多个位置，修错了地方，然后重试。解决方案很简单：要求 search 块必须包含前后 1-2 行上下文，确保唯一匹配。

改动 10 行代码，修复阶段 Token 下降 57%，LLM 调用从 6 次降到 3 次。

真正的成本不是模型调用费，而是重试浪费的时间。 把匹配精准度做好，比提升模型能力更有效率。

五、当前架构全景

经过 V3-V5 的演进，系统的层次结构已经比较清晰：

┌──────────────────────────────────────┐
│         入口层                        │
│  CLI / GUI 桌面端 / 企微机器人        │
│         ↓ Intent Router              │
├──────────────────────────────────────┤
│       Pipeline Orchestrator          │
│  声明式流水线 + Gate + 智能回滚        │
│  Bug 修复流水线 / 需求开发流水线       │
│         ↓                            │
├──────────────────────────────────────┤
│       AgentEngine 通用引擎            │
│  循环控制 / 工具分发 / Scratchpad     │
│  对话压缩 / 置信度退出                │
│         ↓                            │
├──────────────────────────────────────┤
│       TaskProfile 策略层             │
│  BugLocate / Fix / FeatureAnalyze    │
│  FeatureDesign / FeatureImplement    │
│  CodeReview / ImpactAnalysis         │
│         ↓                            │
├──────────────────────────────────────┤
│       知识 & RAG 层                   │
│  ModuleDoc + CaseDoc + FixRecord     │
│  7 路并行召回 + Knot 知识库           │
└──────────────────────────────────────┘

入口层做薄，Pipeline 层负责编排，Engine 层通用复用，Profile 层封装差异，知识层持续沉淀。

六、下一步

还有几件事没做完：

1. 并行搜索方向：目前搜索方向是串行执行的，彼此独立的方向完全可以 Promise.all。预期对 3+ 方向的任务，总耗时能再降 40-60%。

2. 搜索结果缓存：同一仓库对同一 pattern 的搜索结果，绑定 Git commit 做缓存。对重复出现的 Bug 类型（比如 accessibility 问题），可以显著减少重复检索。

3. 模型分级调度：现在不同环节用的模型没有明显区分。提取结构化信息、消息摘要这类简单任务，用小模型足够了；精确定位和代码生成，才需要最强模型。分级后成本可以进一步下降。

4. 反馈闭环：CR 通过或拒绝的结果，目前没有系统性地回流到知识库。这个闭环一旦建起来，系统会越来越像”会学习的故障处理平台”。

七、一些反思

回看这三个版本的演进，有几个观察：

架构重构的价值超出预期。 V3 把 1100 行单文件拆成 Engine + Profile 模式，当时以为只是”代码整洁”的问题。但到 V4 需要支持 11 种 bug 类型策略、10+ 种 Profile，到 V5 需要在 Pipeline 里复用这些 Profile 时，这个架构决策带来的红利远远超过了重构的成本。

可观测性不是锦上添花。 没有 Metrics 之前，优化靠直觉。有了 Metrics 之后，每个优化都能量化，失败案例能被追溯，回归能被检测。这套体系建得越早越好。

领域知识的密度决定系统价值。 通用 Agent 框架（循环、工具分发、压缩）是基础设施，可以替换；BugTypePolicy、多架构 TrackingModel、修复策略库、历史案例这些领域资产，才是真正的壁垒。前者越薄越好，后者越厚越值钱。

从”工具”到”流水线”是个重要的认知跃迁。 单个命令（locate / fix / cr）组合使用时需要大量手工协调；Pipeline 把这些步骤声明式地串起来，加上 Gate 和回退，系统才真正具备”替程序员执行一整套流程”的能力，而不只是”帮程序员在 IDE 里更快操作”。

这条路还很长，但方向是对的。

Android Studio 新版本与 Gradle 7.x 构建报错解决方案

2026-05-11T09:39:44.000Z

问题现象

在 Android Studio 中 Build / Sync 报错：

Could not compile initialization script '.../ijMapper1.gradle'.
> startup failed:
  General error during conversion: Unsupported class file major version 65

java.lang.IllegalArgumentException: Unsupported class file major version 65
    at groovyjarjarasm.asm.ClassReader.(ClassReader.java:199)
    ...
    at com.intellij.gradle.toolingExtension.impl.modelAction.GradleModelFetchAction...

从命令行直接执行 ./gradlew tasks 完全正常，只有通过 Android Studio 触发构建时才报错。

根本原因

这是一个 Android Studio 版本 × Gradle 版本 的二进制不兼容问题，与项目代码无关。

层级	说明
class file major version 65	Java 21 编译产物的标识（Java 11 = 55，Java 17 = 61，Java 21 = 65）
Android Studio Koala（2024.1）及更新版本	自带 JDK 21，其 Tooling Extension JARs（如 `GradleOpenTelemetry`、`GradleModelFetchAction`）使用 Java 21 编译
Gradle 7.4.2 内置 Groovy 3.0.9 / ASM 9.1	ASM 9.1 最高只能解析 Java 17（class version 61）的 class 文件，无法读取 Java 21 产物

Android Studio 每次构建会向 Gradle 注入一个临时 init script（ijMapper1.gradle），Groovy 编译这个脚本时需要解析 classpath 上的 Android Studio Tooling JARs。新版 AS 的这些 JAR 是 Java 21 编译的，Gradle 7.x 内置的 ASM 读不了，直接崩溃。

命令行不受影响的原因：直接执行 ./gradlew 不经过 Android Studio 的 Tooling API，不会注入这个 init script。

解决方案

✅ 方案一：在 Android Studio 中指定 Gradle JDK 为 JDK 11（本文实际采用，推荐）

修改项目的 .idea/gradle.xml，将 gradleJvm 改为 JDK 11 的路径（路径需已在 Android Studio 的 JDK Table 中注册）：

1 2	<option name="gradleJvm" value="$USER_HOME$/Library/Java/JavaVirtualMachines/corretto-11.0.19/Contents/Home" />

注意：这里必须使用 $USER_HOME$ 变量形式，而非绝对路径，否则 Android Studio 在 jdk.table.xml 中匹配不到对应条目，报 “Undefined jdk.table.xml entry” 错误。

配置完成后，Android Studio 会：

用 JDK 11 启动 Gradle daemon
选用与 JDK 11 兼容的 Tooling Extension JARs（class version ≤ 61），避免 ASM 解析失败

此方案不影响其他同事（.idea/gradle.xml 中的路径是各自机器上注册过的条目，不同机器只要都注册了 JDK 11 即可）。

方案二：升级 Gradle 到 8.4+（需团队协调）

Gradle 8.x 采用 Groovy 4.x / ASM 9.5+，原生支持 Java 21 class 文件，从根本上消除兼容问题。

1 2	# gradle/wrapper/gradle-wrapper.properties distributionUrl=https\://services.gradle.org/distributions/gradle-8.9-all.zip

代价：AGP 7.x 不兼容 Gradle 8.x，需同步将 AGP 升级到 8.x，改动较大，需要团队统一升级。

方案三：降级 Android Studio（临时方案）

降回 Android Studio Jellyfish（2023.3.1） 或更早版本，其 Tooling Extension JARs 基于 Java 17 编译（class version 61），Gradle 7.x 的 ASM 9.1 可以正常解析。

排查思路总结

遇到此类问题时，快速定位的关键线索：

只在 IDE 内报错，命令行正常 → 问题出在 IDE 注入的 init script，而非项目构建脚本本身
Unsupported class file major version 65 → 某个依赖/工具 JAR 用 Java 21 编译，运行时的 ASM/JVM 版本不支持
错误堆栈含 com.intellij.gradle.toolingExtension → 确认是 Android Studio Tooling Extension 和 Gradle 的版本兼容性问题

兼容性速查表

Android Studio 版本	内置 JDK	Tooling JAR class version	最低兼容 Gradle
Jellyfish 2023.3.1 及以前	JDK 17	61（Java 17）	Gradle 7.x 可用
Koala 2024.1.1 及以后	JDK 21	65（Java 21）	需 Gradle 8.4+ 或手动指定 Gradle JDK 为 17/11

为什么要做一个 iOS bug 自动修复的 agent 程序

2026-03-24T08:07:04.000Z

为什么要做一个 iOS Bug 自动修复的 Agent 程序

一、为什么不直接做 IDE 插件

如果目标只是”在 IDE 里更方便地写代码”，那直接基于 CodeBuddy 这类 Agent IDE 做插件，通常更快、更省成本。

但我的目标不止于此：

把”修复/分析/定位/验证”沉淀成可复用能力
让 Agent 不依赖某个 IDE 才能工作
把人的经验流程产品化、平台化、自动化
围绕 iOS 问题定位、日志分析、修复建议形成领域能力

这些目标决定了我需要一套自建的 Agent 架构，而不是一个 IDE 插件。

二、自建 Agent 架构的核心优势

1. 掌握的是”工作流”，不是”某个 IDE 的扩展点”

基于 Agent IDE 做插件，本质上是在它既有能力上”加一层”。而自建 Agent 架构，本质上是在定义：

任务如何拆解
上下文如何收集
工具如何选择
失败如何回退
结果如何验证
多轮推理如何收敛

这意味着我拥有的是流程控制权。

这个差别很大：

插件模式：在别人的操作系统上写 App
Agent 架构模式：在定义自己的操作系统

未来我想做的事情——自动读取崩溃日志、自动定位可疑代码、自动生成 patch、自动跑校验、自动输出修复报告、自动接入 CI / 工单 / IM / 代码平台——自建 Agent 架构会比 IDE 插件自然得多。

2. 沉淀的是”领域智能”，不是通用编程助手能力

CodeBuddy 这类 Agent IDE 的强项是通用编码协作：补全、重构、对话式改代码、搜索代码、生成测试。

而我的系统围绕 iOS Bug Auto Fix 在做，重点是：

崩溃堆栈理解
符号/模块/调用链关联
Objective-C / Swift / Pod 生态理解
特定业务代码结构的定位
历史问题模式复用
修复策略模板化

这些能力，通用 Agent IDE 不会天然替我做好。我做 Agent 架构的真正价值不是”我也能调用 LLM 了”，而是：把特定领域的高价值决策流程封装成了 Agent。 这会形成自己的护城河。

3. 能做”非交互式自动化”，而不只是”人在 IDE 里点来点去”

IDE 插件天然偏向人在本地、打开工程、交互式提问、临场辅助。而自建 Agent 更容易扩展到命令行、批处理、服务化、CI/CD、机器人触发、定时任务、工单驱动修复。

未来完全可以做成这种链路：

1	崩溃日志/工单 → 问题归类 Agent → 代码定位 Agent → 修复策略 Agent → 生成 Patch → 验证 Agent → 提交 PR / 输出报告

这类能力，不是 IDE 插件的主战场。

4. 更强的”可解释性”和”可观测性”

自建 Agent 架构时，可以记录每一步：

为什么选这个工具
为什么判定这个文件相关
哪一步检索到了关键证据
哪次修复失败了
哪种策略成功率最高
每种 Bug 类型平均耗时多久

这带来几个重要价值：便于调试 Agent、便于持续优化 prompt / 工具策略、便于做质量评估、便于做企业内部合规审计。而很多 Agent IDE 内部流程只能”感觉它这么做了”，但很难完整掌控它的决策细节。

5. 模型、工具、供应商解耦

基于某个 Agent IDE 插件体系开发，通常会受到模型支持、上下文拼装方式、工具协议、权限边界、升级兼容性等限制。而自建 Agent 架构，可以自由决定用哪个模型、不同子任务切哪个模型、怎么做路由、缓存、检索、工具编排、降级和兜底。获得的是架构主导权，而不是平台适配权。

6. 能把”经验”复用到 IDE 之外

如果只是写成 IDE 插件，很多价值会被锁死在 IDE 内。但做成独立 Agent 能力，以后这些东西都能复用到 Web 界面、命令行、VSCode / JetBrains / 自研 IDE、Slack / 飞书 / 企业微信机器人、服务端 API、测试平台、发布平台、缺陷平台。投入更像是在建设能力中台，而不是做一个单点入口。

7. 更适合做多 Agent 分工

当任务复杂到需要角色分工时，自建架构优势更明显。可以拆成：

Agent	职责
Planner Agent	任务拆解
Retriever Agent	找代码和上下文
Diagnoser Agent	判断根因
Patch Agent	生成修复代码
Verifier Agent	运行验证
Reporter Agent	输出报告

IDE 插件当然也能”伪多 Agent”，但一般都会受限于宿主产品的交互模型。自建则可以真正把分工、状态、上下文边界、交接协议做清楚。

三、这条路的代价

1. 在重复造很多”基础设施轮子”

包括上下文管理、工具调用协议、提示词编排、重试/超时/回退、文件读写安全、结果验证、token 成本控制、观测和日志、会话状态管理。这些在成熟 Agent IDE 里很多已经做好了。短期看，肯定更慢、更贵、更累。

2. 需要自己为”效果稳定性”负责

自建后，要自己解决：为什么这次检索不到、为什么上下文污染了、为什么选错工具、为什么 patch 不可执行、为什么修复建议不稳定、为什么不同仓库表现差异大。获得自由的同时，也接管了复杂性。

3. 如果场景主要是”本地编码辅助”，ROI 未必更高

如果用户核心诉求只是在 IDE 里聊天、改改代码、顺手做点搜索、生成一些 patch，那自建 Agent 架构带来的收益可能并不明显。可能出现架构先进了，但用户体感未必更强的情况。

四、与通用 Agent IDE 的差异化定位

一句话定位

不是”更会写代码的 IDE 助手”，而是”面向 iOS Bug 定位、诊断、修复与验证的专用智能执行系统”。

差异对比表

维度	我的 Agent 架构	CodeBuddy / Cursor / Copilot Workspace
核心目标	解决特定领域问题（iOS bug 定位、分析、修复、验证）	提升通用编码效率
核心对象	问题处理流程	代码编辑过程
工作单元	一次完整的缺陷处理链路	一次对话、一段代码修改
触发方式	日志、崩溃堆栈、工单、CI、命令行、服务调用	IDE 内交互、选中代码、对话输入
能力重点	诊断、定位、决策、修复策略、验证闭环	补全、解释、生成、搜索、重构
领域知识密度	很高，内置 iOS/Crash/工程结构知识	偏通用，领域知识较浅
自动化深度	半自动甚至全自动链路	多数以人机协作为主
可观测性	记录每一步证据、推理、工具调用、成功率	通常黑盒程度更高
可扩展性	可接日志系统、工单系统、测试系统、CI、PR 流程	主要受限于 IDE 插件边界
平台依赖	独立能力层，不依赖单一 IDE	依赖宿主 IDE/平台生态
长期资产	沉淀为组织级问题处理能力	沉淀为某 IDE 内的使用体验
护城河来源	领域流程、知识、验证闭环、历史反馈	产品体验、模型集成、编辑器生态

五、哪些是真壁垒，哪些是在重复造轮子

判断标准

这个模块如果明天被一个成熟框架替换掉，我的核心价值会不会下降？
不会明显下降：大概率是基础设施
会明显下降：可能是壁垒层

真正值得重点投入的壁垒层

1. iOS 问题理解与归因知识

崩溃堆栈解析、符号/模块/类/调用链映射、OC/Swift 混编上下文理解、生命周期/线程/内存/KVO/通知/Block/主线程 UI 更新等问题模式、常见崩溃类型到修复策略的映射。这类能力沉淀好了，不是通用 IDE 随便能替代的。强壁垒。

2. 问题处理 SOP

稳定的处理链路：读取错误信号 → 归类问题类型 → 缩小嫌疑范围 → 关联代码上下文 → 选择修复策略 → 生成 patch → 执行验证 → 输出结论与风险。这个流程代表了团队如何排查问题、如何做决策分层、如何降低误修概率。强壁垒。

3. 修复策略库 / 模式库

沉淀 CrashType → RootCauseCandidates → VerificationSteps → PatchTemplate → RiskHints 这种结构。覆盖数组越界、空指针、野指针、线程竞争、主线程违规调用、通知/KVO 生命周期遗漏、容器并发修改、异步回调释放时序问题等。每一类问题对应典型特征、定位信号、修复范式、验证点。可复利的核心资产。

4. 验证闭环

改完代码后做静态检查、跑定向测试、检查编译影响范围、输出风险说明、对修复结果做置信度评估。从”助手”进入”执行系统”。关键护城河。

5. 历史案例反馈系统

积累哪类问题最常见、哪类修复策略成功率最高、哪些模块最容易出问题、哪种上下文组合最容易定位成功、哪类 patch 最容易被 reject。系统会越来越像”会学习的故障处理平台”。长期壁垒。

有价值但不要过度自研的中间层

模块	建议
任务拆解器 / Planner	可以做，但必须领域化，否则容易沦为通用壳子
多 Agent 分工	多 Agent 本身不是壁垒，领域化分工才是壁垒
上下文组装系统	保留策略，少造基础设施

大概率属于”重复造轮子”的部分

模块	建议
通用聊天壳 / UI 壳	够用就行
通用代码读写工具封装	稳定优先，不要过度精雕
通用 ReAct / Agent Loop	不要把”有 loop”误认为”有壁垒”
通用记忆系统	通用 memory 尽量轻，重点做 case memory
通用 Prompt 编排器	prompt 系统化可以有，但别把它当主产品

六、系统架构收敛

我把整个系统收敛成三层：

┌─────────────────────────────────────────┐
│              入口层（做薄）               │
│     IDE  /  CLI  /  CI工单  /  服务API    │
├─────────────────────────────────────────┤
│           领域决策层（持续加厚）            │
│  iOS缺陷分类 / 上下文选择策略 / 根因分析   │
│     修复策略选择 / 风险评估               │
├─────────────────────────────────────────┤
│           执行与验证层（够稳就行）          │
│  代码检索编辑 / Patch生成 / 构建测试       │
│     结果验证 / 报告输出                   │
└─────────────────────────────────────────┘

入口层：不要重投太多
执行与验证层：够稳就行
领域决策层：最该持续加厚的地方

七、最容易出现的风险

把大量精力花在让 Agent 看起来更像 Agent，而不是让它更会解决 iOS 问题。

典型表现：角色越来越多、prompt 越来越复杂、tool 越来越多、框架越来越完整，但定位成功率没上升、修复成功率没上升、验证能力没增强、真实用户价值不明显。

判断功能优先级时，统一用三个指标：

定位准确率是否提升
修复成功率是否提升
端到端处理时间是否下降

只要不能提升这三项之一，就谨慎做。

八、投入优先级

优先级	方向
第一优先级	把 `iOS bug 分类 → 根因 → 修复策略 → 验证` 做成稳定闭环
第二优先级	把历史案例沉淀成可复用知识
第三优先级	把入口做薄，支持 IDE / CLI / CI 复用
第四优先级	尽量复用通用 Agent 基础设施，不要在壳层卷复杂度

九、结论

我不是在做另一个通用 AI 编码助手，而是在做 iOS 缺陷处理的领域执行系统。
真正的壁垒不在 Agent 外壳，而在领域知识、决策流程、修复策略和验证闭环。
通用的对话、工具调用、Planner、Memory 更多是基础设施，应尽量复用而非重造。
后续投入应聚焦提升定位准确率、修复成功率和端到端效率，而不是继续增加通用 Agent 复杂度。

分水岭在于：我的系统是在”帮助程序员在 IDE 里更快操作”，还是在”替程序员执行一整套 iOS 问题处理流程”。答案是后者，所以自建 Agent 架构是正确的选择。

[转载] 移动端开发稳了？AI 目前还无法取代客户端开发，小红书的论文告诉你数据

2026-03-09T05:32:52.000Z

原文地址

近期，由小红书联合多伦多大学等高校的研究人员发布了《SWE-Bench Mobile》（2602.09540）论文，内容主要是评估 LLM 智能体在处理真实生产级移动端应用开发任务时的能力，并提出了首个针对该领域的基准测试——SWE-Bench Mobile。

这个论文对比之前那些简单的需求场景，明显更具备说服力，最重要的是，用真实的数据给目前的 AI 狂热浇一浇冷水。

目前的编程基准测试大多集中在孤立的算法问题，而 SWE-Bench 则是关注 GitHub 上的 Bug 修复，然而真实的工业级移动端开发汪汪更为复杂：

多模态输入：开发者需要根据产品需求文档（PRD）和 Figma 设计稿等来写代码
复杂的工程环境：中大厂的移动端代码库通常规模巨大（ 5GB 以上），且涉及 Swift 与 Objective-C 混编、特定系统 API 及复杂的 UI 交互，还有编译环境影响
任务类型多样化：不限于 Bug 修复，更多是功能开发和 UI 增强

所以研究团队从目前小红书自己的真实产品流水线中提取了 50 个具有代表性的开发任务，构建了该基准测试：

数据集组成 ：
- 50 个真实任务：源自实际的产品需求
- 449 个人工验证的测试用例：平均每个任务 9.1 个测试点，用于评估功能正确性
- 多模态支持：70% 的任务附带 Figma 设计链接，92% 附带参考图
代码库规模：基于约 5GB 大小的真实 iOS 生产代码库（Swift/Objective-C）
任务复杂度：平均每个任务涉及修改 4.2 个文件，远超之前的基准测试

整个基准的规则是：

70% 任务包含 Figma
92% 包含参考图片
平均 PRD 长度 450 字

每个任务包含：

一个统一 diff 补丁（patch）输出
综合测试套件（平均 9.1 个测试案例）
任务难度分级：从简单 UI 调整到复杂跨模块改造

对于任务两个关键指标：

任务成功率：所有测试通过的任务比例
测试通过率：所有测试案例通过的比率

而对于 LLM，论文评估了 22 种 不同的“智能体-模型”配置，涵盖了四个主流框架：

商业智能体：Cursor、Codex (由 DeepSeek/OpenAI 等模型驱动)、Claude Code
开源智能体：OpenCode

评估维度包括：任务完成率、任务复杂度影响、成本效果对比、多次运行稳定性、Prompt 设计影响等。

而根据论文可以得出结论：当前 AI 在生产级的软件工程力存在巨大局限性：

成功率极低 ：表现最好配置的成功率仅为 12% ，大多数任务以“实现不完整”告终，但测试通过率最高可到 28%，说明部分任务可以部分正确生成，但没能完全部署成功
智能体架构十分重要 ：同一个底层模型，在 Cursor 框架下的成功率为 12%，但在 OpenCode 下仅为 2%，智能体的工具调用、上下文管理等设计与模型本身同等重要
商业模型占优：商业闭源智能体在处理大型代码库时的稳定性和正确性显著优于开源方案
复杂度陷阱：任务涉及 1-2 个文件时成功率为 18%，但当涉及 7 个以上文件时，成功率骤降至 2% ，显示出模型在跨文件长程推理方面的短板
“防御性编程”提示词更有效：研究发现，使用基于“防御性编程”（原则的简洁提示词，比复杂的提示词能让成功率提升 7.4%

对于失败，论文还针对失败类型归类：

缺失关键功能标志位或 Feature Flag 是主要的失败原因
其次是 数据模型缺失；
再者是 incomplete patch（文件覆盖不足）等问题

这些失败的类似，在一定程度上反映了智能体对真实工程流程、跨文件依赖、与视觉设计的理解严重不足，也就是这些问题是“工程级问题”，而不是“语言问题”：

所以哪怕换成 Android / Flutter，这类跨文件工程理解问题仍然存在。

基于这些数据，论文认为当前 LLM Agent 尽管在单一代码生成上有突破，但在端到端工程上下文（包含设计、代码库理解、工程流程）仍远未达到企业生产标准。

另外，论文也有一个有趣的结论数据，主要统计了各 Agent + Model 的每任务成本（美元）和平均耗时（分钟），例如：

Cursor + Opus 4.5 ： $3.50 / 15 min
Codex + GLM 4.6 ： $1.30 / 13.3 min
OpenCode + GLM 4.6 ： $0.13 / 32.5 min
OpenCode + Opus 4.5 ： $9.33 / 8.2 min

对此可以看出来：

Codex + GLM 4.6 是性价比最高
OpenCode 极便宜但成功率低
OpenCode + Opus 4.5 是最贵但效果很差（2%）

最后，下图是论文的最终结果对比，例如在 Success 和 Pass 上：

Cursor + Opus 4.5 → 12% / 28.1%
Codex + GLM 4.6 → 12% / 19.6%
OpenCode + GLM 4.6 → 8%

这么看，OpenCode 的实际数据表现是真的一般。

这个在同一个模型，在不同 agent 上的成功率也有所体现，OpenCode 再一次被鞭尸：

所以，可以看出来，目前的 AI 智能体离独立完成中大型移动开发还有很大距离，主要瓶颈在于多模态理解、大规模代码导航和跨文件逻辑一致性等。

另外，SWE-Bench Mobile 采用了托管基准挑战（Hosted Benchmark）模式 ，不公开测试集答案，以防止数据泄露到未来的模型训练中。

最后，论文只针对原生 iOS 开发进行测试，没有测试 Android 原生、Flutter、RN 等其他情况，按照一般直觉，这些框架的 AI 表现应该会好于 iOS 原生，当然这也只是我的个人直觉，真实数据还是得有企业做过 Benchmark 才知道。

不过至少从目前看，在移动端开发领域写代码上，至少比前端安全性高一些？你怎么看？

大型 iOS 项目的简单 bug 自动修复实践

2026-03-06T14:26:09.000Z

工具概述

iOS Bug AutoFix 是一个基于 AI 的 iOS 代码 Bug 自动定位工具。它从自然语言 Bug 描述出发，通过三步流水线（信息提取 → 粗筛定位 → 精确定位）自动定位到问题代码的具体文件和行号。本次分析以两条实际命令的运行为例。

命令一：`index` — 构建代码索引

执行命令

1	npx ts-node src/index.ts index

加载配置

入口文件 index.ts 的 main() 函数首先调用 loadConfig() 读取配置文件：

配置路径: tool/config/autofix.config.json
读取结果:
- repoRoot → /Users/wyan/Develop/Code/branch/Bugfix
- openai.model → deepseek-chat
- index.includeDirs → ["Classes/Modules"]

同时在构造 BugAutoFixer 时，基于 repoRoot 设置了运行时目录：

.autofix/ 根目录
.autofix/index.db — SQLite 索引数据库
.autofix/results/ — 定位结果目录
.autofix/logs/ — 日志目录（预留）

加载页面映射表

BugAutoFixer 构造函数中创建 FileLocator，而 FileLocator 构造时会创建 PageMapper。 page-mapper.ts 会按优先级搜索 page-mapping.json 文件：

1	✓ 已加载页面映射表: .../page-mapping.json (14 个页面)

映射表内容示例（来自 page-mapping.example.json）：

{
  "个人主页": ["QMPersonalInfoViewController", "QMGeneralUserHeaderView", "QMGeneralUserV2TabVC"],
  "播放页": ["QMAudioPlayerVC", "QMPlayingSongPage", ...],
  ...
}

页面映射表同时构建了反向映射（类名 → 页面名），共 14 个页面。

索引构建流程

code-indexer.ts 的 buildFullIndex() 方法执行以下步骤：

数据库初始化

创建 SQLite 数据库（WAL 模式），包含：

表	用途
`file_index`	文件级索引（类名、方法名、协议、UI 类、无障碍标记等）
`class_hierarchy`	类继承关系
`file_fts` (FTS5)	全文搜索虚拟表，通过触发器自动同步

扫描源文件

使用 find 命令扫描仓库，由于配置了 includeDirs: ["Classes/Modules"]，实际执行的命令相当于：

1	find "/Users/wyan/Develop/Code/branch/Bugfix" -type f $ -name ".swift" -o -name ".m" -o -name ".h" $ -and $ -path "/Classes/Modules/*" $

1	Found 17522 source files to index

逐文件解析

在一个 SQLite 事务中，对每个文件进行解析。根据文件扩展名分别调用：

.swift 文件 → parseSwiftFile(): 用正则提取 class/struct/enum/extension 声明、func 方法名、协议、UI* 类使用、accessibility* 属性、@IBOutlet
.m / .h 文件 → parseObjCFile(): 用正则提取 @interface/@implementation（含 Category）、方法名（-/+ (type)methodName）、协议、UI* 类指针声明、accessibility* 属性

每个文件还会：

生成raw_summary ：取前 30 行 + 所有关键声明行（class/func/@interface/@implementation/accessibility 等），控制在 2000 字符以内
推断 pod_name ：从路径中匹配 Pods/ModuleName/ 或 Modules/ModuleName/ 模式
提取类继承关系 ：存入 class_hierarchy 表

FTS5 全文索引自动同步

FTS5 是 Full-Text Search version 5 的缩写，即 SQLite 内置的第 5 版全文搜索引擎。
本项目用它来对 17522 个源文件的类名、方法名等元数据建立倒排索引，让 Step 2 的关键词搜索可以在毫秒级完成。

通过 SQLite 触发器，file_index 表的 INSERT/UPDATE/DELETE 操作会自动同步到 file_fts 全文搜索虚拟表，支持后续的 MATCH 全文搜索。

最终结果

1 2	Indexed: 17522, Skipped: 0 Index built successfully!

17522 个源文件全部成功索引。

命令二：`locate` — 定位 Bug

执行命令

1	npx ts-node src/index.ts locate "个人主页导航栏更多按钮无障碍响应错误"

整个 locate 流程分为三个 Step，总耗时 73.7 秒。

Step 1: 信息提取（LLM 调用 #1）

执行者: bug-info-extractor.ts

构建 Prompt

将 bug 描述嵌入一个结构化 prompt 中，要求 LLM 以 JSON 格式输出提取结果。Prompt 关键指令：

“keywords 要包含各种可能的命名变体，比如中文’播放页’对应可能的类名 PlayerViewController, PlayViewController, PlayerVC…”

调用 DeepSeek API

使用 OpenAI SDK 的 chat.completions.create：

模型: deepseek-chat
温度: 0.1（低温度确保输出稳定）
响应格式: json_object（强制 JSON 输出）
重试机制: 最多 3 次，指数退避（1s → 2s → 4s）

LLM 返回结果（解析后）

Type:       accessibility
Summary:    个人主页导航栏更多按钮的无障碍响应功能存在错误
Keywords:   ProfileViewController, ProfileVC, PersonalHomeViewController,
            HomeViewController, NavigationBar, NavBar, MoreButton, MoreBtn,
            RightBarButtonItem, UIBarButtonItem, accessibilityLabel,
            accessibilityHint, accessibilityTraits, isAccessibilityElement,
            ProfileModule, UserProfile, PersonalCenter
Module:     个人主页/用户资料
Page:       个人主页
VCs:        ProfileViewController, PersonalHomeViewController,
            UserProfileViewController, HomeViewController

关键观察：LLM 从简短的中文描述中猜测了大量可能的英文类名/属性名变体，这些关键词将在 Step 2 中被用于多策略搜索。

Step 2: 粗筛定位（纯本地，无 LLM 调用）

执行者: file-locator.ts

6 种策略全部并行执行（Promise.allSettled），互不影响：

策略 1: 直接路径匹配

逻辑：检查 bugInfo.codeScanIssue?.filePath 是否存在
本次结果：无（bug 描述中没有直接给出文件路径）
权重：100 分（未触发）

策略 2: ripgrep 全文搜索（异步并行）

逻辑：对 keywords 中长度 ≥ 3 的关键词，逐个并行执行 ripgrep：

1	rg -l --type swift --type objc "ProfileViewController" "/Users/wyan/Develop/Code/branch/Bugfix" 2>/dev/null \| head -50

本次匹配到的关键词（从结果中可以看到）：
- NavBar → 匹配到 QMPersonalInfoViewController.m, QMGeneralUserHeaderView.m
- MoreButton → 匹配到 QMPersonTitleView.m, QMPersonHeaderCell.m, QMPersonalInfoViewController.m
- MoreBtn → 匹配到多个文件
- accessibilityHint → 匹配到 QMPersonalInfoViewController.m
- accessibilityTraits → 匹配到 QMPersonTitleView.m, QMPersonHeaderCell.m, QMPersonalInfoViewController.m
- ProfileViewController → 匹配到 ProfileViewController_V3Pad.m, ProfileViewController_V3+Follow.m 等
- ProfileVC → 匹配到多个 Profile 相关文件
- UserProfile → 匹配到 QMPersonalInfoViewController.m, QMPersonalInfoViewController+JumpAction.m
每个匹配得 6 分

策略 3: 数据库索引查询

页面映射匹配（最高权重 40 分）：
- bugInfo.pageName = "个人主页"
- 查映射表 → ["QMPersonalInfoViewController", "QMGeneralUserHeaderView", "QMGeneralUserV2TabVC"]
- SQL: SELECT file_path FROM file_index WHERE class_names LIKE '%QMPersonalInfoViewController%'
- 匹配到所有 QMPersonalInfoViewController 的 .m/.h 及 Category 文件，每个 40 分
类名 FTS5 匹配（30 分）：
- 对 viewControllers 列表（ProfileViewController, PersonalHomeViewController 等）执行全文搜索
- SQL: SELECT file_path FROM file_fts WHERE class_names MATCH 'ProfileViewController' LIMIT 30
- 匹配到 ProfileViewController_V3Pad.m 等文件，每个 30 分
关键词 FTS5 匹配（8 分）：
- 对长度 ≥ 4 的关键词（如 MoreBtn, accessibilityLabel, accessibilityTraits, isAccessibilityElement）执行全文搜索
- 匹配到 QMPersonTitleView.m, QMPersonHeaderCell.m 等

策略 4: 目录结构推断

逻辑：对 pageName（”个人主页”）和 moduleName（”个人主页/用户资料”）执行 find 命令搜索匹配的目录
由于中文名和目录命名不匹配，本次可能未产生有效结果

策略 5: Git 修改热点

逻辑：

1	git log --since="2 weeks ago" --name-only --pretty=format: \| sort \| uniq -c \| sort -rn \| head -100

获取最近 2 周频繁修改的文件，每个 2 分
低权重兜底策略

策略 6: Bug 类型专项搜索

bugType = “accessibility” → 调用 searchAccessibilityIssues()

逻辑：在索引中查找包含特定 UI 元素但缺少无障碍属性的文件

1	SELECT file_path FROM file_index WHERE has_accessibility = 0 AND ui_classes LIKE '%UIButton%' LIMIT 30

每个匹配 15 分

分数合并与交叉验证加分

所有策略结果通过 candidateMap 合并。同一文件多次命中的分数会叠加。

关键的交叉验证加分机制：

1 2	// 命中策略数 > 1 时，每多一种策略额外加 5 分 const bonus = extraStrategies * 5;

例如 QMPersonalInfoViewController.m：

策略 2 (ripgrep): 匹配了 NavBar, MoreButton, MoreBtn, accessibilityHint, accessibilityTraits, UserProfile → 6×6 = 36 分
策略 3 (索引): 页面映射 40 分
交叉验证加分: 2 种策略命中 → +5 分
总分: 81 分（排名第 1）

最终排序输出 Top 20

结果按 score 降序排序，取前 MAX_CANDIDATES = 20 个文件：

排名	分数	文件	主要得分来源
1	81	`QMPersonalInfoViewController.m`	ripgrep(6项) + 页面映射 + 交叉验证
2	57	`QMPersonalInfoViewController+JumpAction.m`	ripgrep(ProfileVC,UserProfile) + 页面映射 + 交叉验证
3	55	`ProfileViewController_V3Pad.m`	ripgrep + 索引类名 + 索引关键词 + 交叉验证
4	55	`ProfileViewController_V3+Follow.m`	同上
5	55	`QMPersonTitleView.m`	ripgrep(MoreButton,MoreBtn,accessibilityTraits) + 索引关键词(多个) + 交叉验证
6	55	`QMPersonHeaderCell.m`	同上
…	…	…	…

Step 3: 精确定位（LLM 调用 #2 ~ #7）

执行者: precise-locator.ts

这是整个流程中消耗 token 最多的阶段，通过漏斗式两轮筛选来控制成本。

读取文件内容 + 生成摘要

对 Top 10（MAX_SCREENING_FILES = 10）候选文件，调用 loadFileSummaries()：

读取完整文件内容：fs.readFileSync(filePath, "utf-8")
生成摘要：extractSummary(content) — 取前 30 行 + 所有关键声明行（class/func/@interface/@implementation/accessibility 等），约控制在 ~500 token/文件

private extractSummary(content: string): string {
    const importantLines = lines.filter(line => {
        return /^(class |struct |func |@interface|@implementation|@IBOutlet|@IBAction|import |#import)/.test(trimmed)
            || /accessibility/i.test(trimmed);
    });
    const header = lines.slice(0, 30).join("\n");
    return `${header}\n\n// === Key declarations ===\n${keyDeclarations}`;
}

第一轮：摘要筛选（LLM 调用 #2）

目的：用低 token 成本快速排除无关文件。

构建 Prompt：将 bug 描述 + 10 个文件的摘要和匹配原因拼接成一个 prompt：

你是 iOS 开发专家。以下是一个 bug 的描述和几个候选文件的摘要。
请判断哪些文件最可能包含问题代码，返回文件路径列表（按可能性从高到低排序）。

Bug 描述：个人主页导航栏更多按钮无障碍响应错误

候选文件：
--- /path/to/QMPersonalInfoViewController.m ---
匹配原因: ripgrep 匹配关键词: NavBar, MoreButton, ...
摘要:
[前30行 + 关键声明]

--- /path/to/QMPersonTitleView.m ---
...

LLM 返回：JSON 格式的相关文件列表

1	{ "relevantFiles": ["path1", "path2", "path3", "path4", "path5"] }

结果：从 10 个文件筛选到 5 个真正相关的文件。

1 2	Round 1: Screening with file summaries... Screened to 5 relevant files

“关键声明”是什么

在这个工具中，**”关键声明”（Key Declarations）** 是指源代码中以特定模式开头的、具有结构性意义的代码行。具体来说，就是通过正则表达式匹配出的以下内容：

匹配规则

在 precise-locator.ts 的 extractSummary 方法（第 371 行）中：

const importantLines = lines.filter((line) => {
  const trimmed = line.trim();
  return (
    /^(class |struct |enum |extension |func |@interface|@implementation|@IBOutlet|@IBAction|import |#import)/.test(trimmed)
    || /accessibility/i.test(trimmed)
  );
});

也就是说，关键声明行 = 匹配以下任一模式的代码行：

模式	含义	示例
`class`	Swift 类声明	`class MyViewController: UIViewController`
`struct`	Swift 结构体声明	`struct Config { ... }`
`enum`	枚举声明	`enum State { ... }`
`extension`	Swift 扩展声明	`extension UIView { ... }`
`func`	Swift 函数声明	`func viewDidLoad() { ... }`
`@interface`	ObjC 类/分类声明	`@interface QMPersonalInfoViewController`
`@implementation`	ObjC 实现声明	`@implementation QMPersonTitleView`
`@IBOutlet`	Storyboard 关联	`@IBOutlet weak var moreBtn: UIButton!`
`@IBAction`	Storyboard 事件	`@IBAction func didClickMore()`
`import` / `#import`	导入语句	`#import "QMPersonalInfoViewController.h"`
`/accessibility/i`	任何包含 accessibility 的行	`moreBtn.accessibilityLabel = @"更多";`

摘要的组成结构

最终生成的摘要格式为：

[文件前 30 行原文]

// === Key declarations ===
[所有关键声明行]

用一个具体例子来说明，对于 QMPersonTitleView.m，摘要大概长这样：

// 前 30 行（包含 #import、文件注释等）
#import "QMPersonTitleView.h"
#import "UIView+Frame.h"
...

// === Key declarations ===
@implementation QMPersonTitleView
- (void)addMoreBtnWithTitle:...        // ← func/method 声明
@IBOutlet ...                          // ← IBOutlet
moreBtn.accessibilityLabel = moreBtnTitle;   // ← accessibility 相关
moreBtn.accessibilityTraits &= ~UIAccessibilityTraitSelected;
moreBtn.accessibilityLabel = @"更多";

为什么这么设计

这个设计的目的是用极少的 token（约 500 token/文件）让 AI 快速理解一个文件的”骨架”：

前 30 行 → 了解文件是什么（import 了什么、类名是什么）
关键声明行 → 了解文件做了什么（有哪些类、方法、UI 关联）
accessibility 行 → 专门针对无障碍类 Bug，直接暴露相关代码

这样 Round 1 用 20 个文件 × 500 token ≈ 10,000 token 就能完成初筛，而不需要发送 20 个完整文件（可能要 200,000+ token）。

Token 优化策略

这里的漏斗设计是整个工具的核心性能优化：

Step 2: 20个候选文件（纯本地，0 token）
    ↓
Round 1: 20个文件的摘要（~500 token/文件 = ~5000 token）→ 筛选到 5 个
    ↓
Round 2: 5个文件的完整内容（每个独立调用）

如果直接对 20 个文件都发送完整内容，token 消耗将极其巨大（一个 ObjC 文件可能有数千行）。

第二轮：逐文件精确定位（LLM 调用 #3 ~ #7）

对筛选出的 Top 5（MAX_PRECISE_FILES = 5）文件，逐个调用 locateInFile()：

大文件智能截取：对超过 500 行的文件（ObjC 文件通常非常长），不是简单截断前 500 行，而是使用 smartExtract() 进行智能截取：

保留头部 50 行（imports、类声明）
从 bug 描述中提取搜索关键词：extractKeywordsFromDescription()
- 提取英文标识符：accessibility, button, more, navigation 等
- 提取中文关键词：导航栏, 更多, 按钮, 无障碍 等
搜索关键词在文件中的出现位置，取前后各 15 行上下文
合并重叠区间，避免重复
如果关键词匹配不到，回退为均匀采样关键声明行

最终生成带行号的截取内容：

1: #import "QMPersonalInfoViewController.h"
2: ...
...
50: ...

... (skipped to line 5660) ...

5660: // 导航栏更多按钮
5661: ...
5667: UIButton *button = [ComHelper createCustomButtonByImageName:@"personal_info_header_more"
...
5673: button.accessibilityLabel = QMLocalizedString(@"SVCC_SHOW_MORE", nil);

... (total 6000 lines, showing 350 relevant lines)

构建 Prompt：

你是 iOS 开发专家。请在以下代码中精确定位 bug 所在位置。

Bug 描述：个人主页导航栏更多按钮无障碍响应错误

文件：/path/to/QMPersonTitleView.m
```code
[带行号的文件内容/智能截取内容]

请返回 JSON:
{
  "lineStart": 问题代码起始行号,
  "lineEnd": 问题代码结束行号,
  "confidence": 0到1之间的置信度数值,
  "explanation": "定位原因的详细说明"
}

5 个文件的 LLM 返回结果：

文件	行号	置信度	核心发现
`QMPersonTitleView.m`	189-195	90%	`accessibilityLabel` 被设置后又被硬编码为 `@"更多"` 覆盖
`QMPersonHeaderCell.m`	70-70	90%	`accessibilityLabel = moreBtnTitle` 但缺少完整的无障碍配置
`QMPersonalInfoViewController.m`	5667-5673	85%	导航栏更多按钮创建处，可能存在本地化字符串问题
`ProfileViewController_V3Pad.m`	1010-1013	85%	`accessibilityLabel:atIndex:` 方法始终返回空字符串 `@""`
`ProfileViewController_V3+Follow.m`	176-200	85%	关注按钮点击处理缺少无障碍属性更新

结果排序

所有定位结果按 confidence（置信度）降序排序：

1	return results.sort((a, b) => b.confidence - a.confidence);

90% 的两个结果排在前面，85% 的三个排在后面。

提取代码片段

对每个定位结果，根据 lineStart 和 lineEnd 从完整文件内容中截取代码：

1 2	const contentLines = content.split("\n"); const codeSnippet = contentLines.slice(lineStart - 1, lineEnd).join("\n");

结果保存

定位结果同时输出到终端和 JSON 文件：

1 2	const timestamp = new Date().toISOString().replace(/[:.]/g, "-"); const resultFile = path.join(RESULTS_DIR, `result-${timestamp}.json`);

1	Results saved to: .../result-2026-03-06T14-04-42-624Z.json

API 调用汇总

本次 locate 命令总共进行了 7 次 LLM API 调用：

次序	阶段	输入	输出	预估 Token
1	Step 1: 信息提取	bug 描述 + prompt模板	BugInfo JSON	~500
2	Step 3 Round 1: 摘要筛选	10个文件摘要	5个相关文件路径	~6000
3-7	Step 3 Round 2: 精确定位	每个文件的内容(智能截取)	行号 + 置信度 + 解释	~3000-8000/次

Step 2 完全在本地执行（ripgrep + SQLite + find + git），无 API 调用，0 token 消耗。

关键设计决策总结

多策略并行 + 分数融合

graph TD
    A[Bug 描述] --> B[Step 1: LLM 提取 BugInfo]
    B --> C1[策略1: 直接路径]
    B --> C2[策略2: ripgrep 搜索]
    B --> C3[策略3: 索引查询+页面映射]
    B --> C4[策略4: 目录推断]
    B --> C5[策略5: Git 热点]
    B --> C6[策略6: 类型专项]
    C1 --> D[分数合并 + 交叉验证加分]
    C2 --> D
    C3 --> D
    C4 --> D
    C5 --> D
    C6 --> D
    D --> E[Top 20 候选文件]
    E --> F[Round 1: 摘要筛选 → Top 5]
    F --> G[Round 2: 逐文件精确定位]
    G --> H[按置信度排序输出]

分数体系设计

来源	分值	设计意图
直接路径	100	代码扫描报告给出的路径几乎必中
页面映射	40	人工维护的映射最可靠
索引类名匹配	30	FTS5 匹配到类名，可信度高
Bug 类型专项	15	有针对性的搜索
索引关键词匹配	8	关键词范围更广，可能有噪声
目录推断	8	目录名和模块名可能不完全对应
ripgrep	6	全文搜索覆盖广但噪声多
Git 热点	2	纯统计信息，低权重兜底
交叉验证加分	+5/策略	多策略命中说明文件高度相关

Token 优化漏斗

17,522 源文件
    ↓ 本地 6 策略并行筛选（0 token）
20 候选文件
    ↓ 读取 Top 10 文件摘要（~500 token/文件 × 10）
10 → 5 文件（Round 1 筛选，~6000 token）
    ↓ 逐文件精确定位，大文件智能截取
5 个定位结果（Round 2，~5000 token/文件 × 5）

总 token 消耗约: 30,000-40,000 token，相比直接将 20 个大文件发给 AI（可能 500,000+ token），节省了 90% 以上。

大文件智能截取 vs 简单截断

简单截断前 500 行的问题：ObjC 文件头部通常是 #import 和属性声明，真正有 bug 的代码可能在第 5000+ 行。智能截取通过关键词搜索 + 上下文窗口（前后各 15 行）确保问题代码被覆盖。

本次案例中 QMPersonalInfoViewController.m 的问题代码在第 5667 行，如果简单截断前 500 行将完全漏掉。

本次定位效果评价

对于 bug 描述 **”个人主页导航栏更多按钮无障碍响应错误”**：

Step 1 准确识别为 accessibility 类型，正确推断了 个人主页 页面名，关键词覆盖了 MoreButton/MoreBtn/accessibilityLabel/accessibilityTraits 等关键变体
Step 2 的 Top 1 就是主文件 QMPersonalInfoViewController.m（81 分），得益于页面映射（40分）+ ripgrep 多关键词命中（36分）+ 交叉验证加分（5分）
Step 3 最终输出了 5 个定位结果，最高置信度 90% 的两个结果精确指向了 accessibilityLabel 被错误覆盖和不完整设置的代码行

VSCode 插件全部无法激活？一次从日志到根源的排查记录

2026-03-03T08:34:38.000Z

VSCode 插件全部无法激活？一次从日志到根源的排查记录

引言

某天，你像往常一样打开 Visual Studio Code，却发现所有已安装的插件都失效了——代码补全没了、Git 信息不见了、主题也变回了默认。更诡异的是，重装软件、清理缓存、升级版本……常规手段统统无效。插件市场明明显示已安装，但就是无法激活。这究竟是怎么回事？

最近我就遇到了这样的棘手问题，经过一番抽丝剥茧，终于揪出了幕后黑手——一个看似无害的 GitBlame 扩展。下面我将完整还原整个排查过程，希望能为遇到类似问题的朋友提供一份实用的“避坑指南”。

第一阶段：基础排查（全军覆没）

当所有插件都无法激活时，首先排除环境因素：

检查 VSCode 位置：确保 Visual Studio Code.app 位于“应用程序”文件夹，而非“下载”或桌面（权限问题会导致插件加载失败）。

清理缓存与配置文件：

1
2
3

rm -rf ~/.vscode
rm -rf ~/Library/Application\ Support/Code
rm -rf ~/Library/Caches/com.microsoft.VSCode

彻底重装：删除上述所有文件后，从官网下载最新版重装。

然而，这一套组合拳下来，问题依旧。看来不是简单的缓存损坏。

第二阶段：启用“侦探模式”——挖掘日志

常规手段无效，就需要让 VSCode 自己“开口说话”。打开帮助 → 切换开发人员工具（或 Cmd+Option+I），在 控制台（Console） 和 输出（Output） 面板中寻找线索。

果然，一条醒目的红色错误映入眼帘：

1 2	ERR Extension 'TME.continuecode CANNOT USE these API proposals 'extensionRuntime'. You MUST start in extension development mode or use the --enable-proposed-api command line flag

这里出现了一个陌生的扩展 TME.continuecode，它试图使用 提案 API（Proposed API）——这是 VSCode 内部开发中的接口，普通扩展无权调用。这种错误可能导致扩展半激活，甚至阻塞整个扩展宿主进程。

同时，日志中还发现了两个 CMake 扩展的冲突警告：

1	WARN [twxs.cmake]: 无法注册“cmake.cmakePath”。此属性已注册。

多个扩展争夺同一配置项，虽不致命，但加剧了环境的不稳定性。

初步行动：移除问题扩展

1 2	rm -rf ~/.vscode/extensions/tme.continuecode-* rm -rf ~/.vscode/extensions/twxs.cmake-*

重启 VSCode 后，TME.continuecode 的错误消失了，但……扩展宿主依然无响应！日志中只剩下：

1	INFO Extension host (LocalProcess pid: 12485) is unresponsive.

看来凶手不止一个。

第三阶段：终极排查法——禁用所有扩展，逐个启用

当错误日志无法直接定位时，就要用最原始也最有效的方法：控制变量法。

1. 以禁用所有扩展的模式启动

1	code --disable-extensions

启动后，VSCode 响应迅速，所有内置功能正常。这证实问题 100% 出在某个第三方扩展上。

2. 二分法逐个启用扩展

退出纯净模式，正常打开 VSCode（此时所有扩展仍处于禁用状态）。然后进入扩展面板，每次启用一个扩展，重启观察是否复现无响应。这个过程需要耐心，但能精确锁定目标。

经过几轮测试，当启用 GitBlame 后，扩展宿主再次卡死。卸载该扩展，一切恢复如初。

第四阶段：真相大白

GitBlame 是一个提供 Git 逐行注释（blame）信息的扩展，功能简单但实用。但是十小时前这个插件更新后, 导致了问题.

替代方案

GitLens：功能强大且持续维护的 Git 工具，不仅能显示 blame，还提供丰富的仓库浏览功能。
Git History：轻量级替代品，专注于文件历史和逐行注释。

安装 GitLens 后，一切功能正常，再无卡顿。

总结：排查思路回顾

基础检查：确保 VSCode 安装位置正确，清理缓存。
日志分析：打开开发者工具，查看控制台和“扩展宿主”输出，寻找显式错误。
处理明显错误：如提案 API 滥用、扩展冲突，先移除可疑扩展。
禁用所有扩展：用 code --disable-extensions 确认问题是否由扩展引起。
二分法逐个启用：定位具体肇事扩展。
寻找替代或更新：对于老旧扩展，果断换用维护活跃的同类工具。

一些有用的命令

用途	命令
以最大日志级别启动	`code --log trace --verbose`
禁用所有扩展	`code --disable-extensions`
使用临时用户数据目录	`code --user-data-dir ~/Desktop/vscode-temp`
删除指定扩展	`rm -rf ~/.vscode/extensions/扩展名-*`

心得

日志是第一生产力：遇到诡异问题，先看日志，往往能直接定位。
老旧扩展是定时炸弹：长期未更新的扩展可能与新版 VSCode 不兼容，尽量选用维护活跃的替代品。
控制变量法永不过时：当错误信息模糊时，通过排除法缩小范围是最可靠的手段。

希望这次分享能帮助你快速解决类似的插件故障。如果你也有过奇葩的排查经历，欢迎留言交流！

Tapd需求单自动创建分支拉流水线 Skill

2026-02-06T11:31:04.000Z

Tapd需求单自动创建分支拉流水线 Skill

一、技能概述与价值

1.1 技能定位

这是一个专为Q音iOS团队设计的自动化工具，旨在解决日常开发中的重复性工作：

痛点：每次处理新需求时，需要手动创建分支、配置流水线、添加权限
方案：通过自动化工具实现一键完成全流程
价值：单个需求节省15-20分钟，降低人工操作错误率

1.2 核心功能矩阵

┌─────────────┬─────────────────────────────┬─────────────────┐
│ 阶段         │ 功能模块                    │ 传统耗时        │
├─────────────┼─────────────────────────────┼─────────────────┤
│ 需求获取     │ TAPD自动登录与信息提取      │ 3-5分钟         │
├─────────────┼─────────────────────────────┼─────────────────┤
│ 代码管理     │ 工蜂分支自动创建            │ 2-3分钟         │
├─────────────┼─────────────────────────────┼─────────────────┤
│ 流水线配置   │ 蓝盾流水线创建与配置        │ 5-8分钟         │
├─────────────┼─────────────────────────────┼─────────────────┤
│ 权限管理     │ 自动添加相关人员权限        │ 2-3分钟         │
└─────────────┴─────────────────────────────┴─────────────────┘

二、技术选型：为什么选择Playwright？

2.1 Playwright核心优势

graph TD    A[Playwright技术选型] --> B[多浏览器支持]    A --> C[自动化能力]    A --> D[调试工具]    A --> E[跨平台兼容]        B --> B1[Chromium]    B --> B2[Firefox]    B --> B3[WebKit]        C --> C1[页面自动化]    C --> C2[网络拦截]    C --> C3[文件操作]        D --> D1[代码生成器]    D --> D2[调试器]    D --> D3[追踪查看器]        E --> E1[Windows]    E --> E2[macOS]    E --> E3[Linux]

2.2 与传统方案的对比

特性	Playwright	Puppeteer	Selenium
浏览器支持	3种主流引擎	Chromium为主	多种但配置复杂
执行速度	快，支持并发	中等	较慢
API设计	现代、直观	简洁但有限	复杂、冗长
调试工具	内置强大工具	基础调试	依赖第三方
跨平台	完美支持	良好	良好
社区生态	快速增长	成熟稳定	最成熟

2.3 在我们的场景中的实际优势

可靠的选择器系统：支持文本、CSS、XPath等多种定位方式
自动等待机制：内置智能等待，减少时序问题
网络拦截能力：可以模拟各种网络条件
截图与录屏：方便调试和记录问题
并行执行：支持多页面同时操作

三、核心流程架构

3.1 整体流程图

flowchart TD    Start([输入TAPD链接]) --> Auth[登录TAPD]    Auth --> Info[提取需求信息]        Info --> Branch[生成分支名]    Info --> Version[确定版本号]        Branch --> CreateBranch[创建Git分支]    Version --> CreateBranch        CreateBranch --> DevOps{DevOps创建}        DevOps --> |成功| Perm[添加权限]    DevOps --> |失败| Retry[重试机制]    Retry --> DevOps        Perm --> Result[输出结果]    Retry --> |超过重试次数| Skip[跳过DevOps]    Skip --> Result        Result --> End([流程结束])        subgraph "关键决策点"        Branch        Version        DevOps    end        subgraph "容错处理"        Retry        Skip    end

3.2 各阶段详细流程

3.2.1 登录与信息提取阶段

sequenceDiagram    participant User as 用户    participant Script as 自动化脚本    participant TAPD as TAPD系统    participant Git as 工蜂系统        User->>Script: 提供TAPD链接    Script->>TAPD: 访问登录页面    TAPD-->>Script: 返回登录页    Script->>TAPD: 模拟点击登录    TAPD-->>Script: 登录成功    Script->>TAPD: 访问需求详情页    TAPD-->>Script: 返回页面内容        par 并行提取        Script->>TAPD: 提取需求ID        Script->>TAPD: 提取标题        Script->>TAPD: 提取相关人员        Script->>TAPD: 提取版本分类    end        Script->>Git: 获取最新开发分支    Git-->>Script: 返回分支列表    Script-->>User: 返回完整信息

四、关键技术实现详解

4.1 智能分支名生成策略

4.1.1 分支名生成流程图

flowchart TD    Start([开始生成分支名]) --> Extract[提取需求标题]    Extract --> AI{DeepSeek可用?}    AI -->|是| DeepSeek[调用AI生成]    AI -->|否| Translate[Google翻译]    DeepSeek --> ProcessAI[AI处理]    ProcessAI --> FormatAI[格式化]    Translate --> ProcessTrans[翻译处理]    ProcessTrans --> FormatTrans[格式化]    FormatAI --> Rules[应用命名规则]    FormatTrans --> Rules    Rules --> Validate[验证分支名]    Validate -->|合法| Return[返回分支名]    Validate -->|非法| Adjust[调整命名]    Adjust --> Validate    Return --> End([完成])    subgraph NamingRules[命名规则]        R1[小写字母]        R2[驼峰式]        R3[最多3个单词]        R4[长度小于等于30字符]    end

4.1.2 实现策略对比

生成方式	优点	缺点	适用场景
DeepSeek AI	语义准确，智能化	依赖API，可能有延迟	优先使用
Google翻译	免费，无需API Key	语义可能不准确	AI失败时备用
规则拼接	稳定可靠	缺乏语义理解	简单需求

4.1.3 代码实现关键点

// 1. 优先使用AI生成
async function callDeepSeek(prompt) {
  const fullPrompt = `${prompt}\n\n要求：
  1. 只能包含英文单词
  2. 使用驼峰命名（camelCase）
  3. 最多三个单词
  4. 只返回分支名，不要任何解释`;
  
  // API调用逻辑...
}

// 2. 备用翻译方案
async function translateToBranchName(chineseText) {
  // Google翻译API调用
  // 清理和格式化逻辑...
}

// 3. 最终分支名组合
const branchName = `feature/${tapdId}-${generatedName}`;

4.2 版本号确定机制

4.2.1 版本号确定流程图

flowchart TD    Start([开始确定版本号]) --> Input{有输入版本?}        Input --> |是| UseInput[使用输入版本]    Input --> |否| CheckTAPD[检查TAPD分类]        CheckTAPD --> FoundTAPD{TAPD有版本?}    FoundTAPD --> |是| ParseTAPD[解析TAPD版本]    FoundTAPD --> |否| CheckGit[查询工蜂最新]        ParseTAPD --> NormalizeTAPD[标准化版本号]        CheckGit --> FoundGit{工蜂有版本?}    FoundGit --> |是| ParseGit[解析工蜂版本]    FoundGit --> |否| UseDefault[使用默认版本]        ParseGit --> NormalizeGit[标准化版本号]    UseDefault --> Default[20.0.0]        NormalizeTAPD --> Validate[验证版本格式]    NormalizeGit --> Validate    UseInput --> Validate        Validate --> |有效| Return[返回版本号]    Validate --> |无效| Fallback[使用默认]        Fallback --> Return    Return --> End([完成])

4.2.2 版本源优先级

1	优先级1: 用户手动输入 → 优先级2: TAPD分类字段 → 优先级3: 工蜂最新分支 → 优先级4: 默认20.0.0

4.2.3 版本标准化处理

// 统一版本格式为 x.x.x
function parseAndNormalizeVersion(text) {
  const patterns = [
    /(\d+\.\d+\.\d+)/,  // 匹配 20.1.5
    /(\d+\.\d+)/        // 匹配 20.2
  ];
  
  for (const pattern of patterns) {
    const match = text.match(pattern);
    if (match) {
      const parts = match[1].split('.');
      // 补全为三位版本号
      while (parts.length < 3) {
        parts.push('0');
      }
      return parts.join('.');
    }
  }
  return null;
}

4.3 蓝盾流水线创建容错方案

4.3.1 蓝盾问题解决流程图

flowchart TD    Start([开始创建流水线]) --> Try[尝试创建]    Try --> Success{创建成功?}    Success -->|是| Perm[继续添加权限]    Success -->|否| Diagnose[诊断问题]    Diagnose --> CheckMemory{内存不足?}    CheckMemory -->|是| FreeMem[释放内存]    CheckMemory -->|否| CheckBrowser{浏览器崩溃?}    CheckBrowser -->|是| Restart[重启浏览器]    CheckBrowser -->|否| CheckNet{网络问题?}    CheckNet -->|是| WaitNet[等待重试]    CheckNet -->|否| Unknown[未知错误]    FreeMem --> Retry[重试创建]    Restart --> Retry    WaitNet --> Retry    Unknown --> Skip[跳过此步骤]    Retry --> Attempt{第几次尝试?}    Attempt -->|小于等于3次| Try    Attempt -->|大于3次| Manual[建议手动创建]    Manual --> Skip    Perm --> End([完成])    Skip --> End

4.3.2 常见问题及解决方案

问题现象	可能原因	解决方案
页面闪退	内存不足	关闭Xcode等内存大户，增加 `--disable-dev-shm-usage` 参数
元素找不到	页面加载慢	增加等待时间，使用 `networkidle` 等待状态
登录失败	网络问题	检查网络连接，增加重试次数
权限错误	会话过期	重新登录，检查cookie有效期

4.3.3 代码中的重试机制

// 重试逻辑实现
const maxRetries = 3;
const retryDelay = 5000; // 5秒延迟

for (let attempt = 1; attempt <= maxRetries; attempt++) {
  try {
    // 尝试创建流水线
    devopsUrl = await createDevopsPipeline(page, devVer, prdName, branchName);
    break; // 成功则跳出循环
  } catch (error) {
    if (attempt < maxRetries) {
      Logger.warn(`第 ${attempt}/${maxRetries} 次失败，${retryDelay/1000}秒后重试`);
      
      // 创建新页面实例，避免状态污染
      page = await context.newPage();
      page.setDefaultTimeout(CONFIG.timeout.page);
      
      // 延迟后重试
      await new Promise(resolve => setTimeout(resolve, retryDelay));
    } else {
      Logger.warn(`已重试 ${maxRetries} 次，跳过此步骤`);
      Logger.info('请手动创建 DevOps 流水线');
    }
  }
}

4.3.4 内存优化配置

// Playwright启动配置优化
browser = await chromium.launch({
  headless: false,
  slowMo: 500, // 放慢操作速度，便于观察
  args: [
    '--disable-gpu',           // 禁用GPU加速
    '--disable-dev-shm-usage', // 避免/dev/shm内存问题
    '--no-sandbox',           // 禁用沙箱（谨慎使用）
    '--disable-setuid-sandbox',
    '--disable-accelerated-2d-canvas',
    '--disable-web-security'  // 仅测试环境使用
  ]
});

4.4 权限用户识别机制

4.4.1 权限识别流程图

flowchart TD    Start([开始识别权限用户]) --> Parse[解析需求页面]        Parse --> Designer{有设计师?}    Designer --> |有| GetDesigner[获取设计师信息]    Designer --> |无| SkipDesigner[跳过设计师]        Parse --> PM{有产品经理?}    PM --> |有| GetPM[获取产品经理信息]    PM --> |无| SkipPM[跳过产品经理]        Parse --> CC{有抄送人?}    CC --> |有| GetCC[获取抄送人信息]    CC --> |无| SkipCC[跳过抄送人]        GetDesigner --> Combine[合并用户列表]    GetPM --> Combine    GetCC --> Combine        SkipDesigner --> Combine    SkipPM --> Combine    SkipCC --> Combine        Combine --> Filter[过滤空值]    Filter --> Format[格式化为字符串]    Format --> Apply[应用到权限配置]        Apply --> End([完成权限识别])

4.4.2 权限字段映射表

TAPD字段	蓝盾权限角色	是否必需	说明
设计师	执行者	可选	UI/UX设计人员
产品经理	执行者	推荐	需求负责人
抄送人	查看者	可选	需要知悉进展的人员
开发人员	执行者	自动添加	脚本执行者自动包含

4.4.3 代码实现

// 获取字段值的通用函数
async function getFieldValue(page, fieldName) {
  try {
    // 定位包含特定字段名的容器
    const container = page.locator('.entity-detail-right-col').filter({
      has: page.locator(`span:text-is("${fieldName}")`)
    });
    
    const count = await container.count();
    if (count === 0) {
      Logger.warn(`未找到字段: ${fieldName}`);
      return null;
    }
    
    // 提取字段值（通常字段名在第一行，值在第二行）
    const fullText = await container.first().innerText();
    const lines = fullText.split('\n');
    const value = lines[1]?.trim() || null;
    
    Logger.data(fieldName, value || '空');
    return value === '-' ? null : value; // 处理空值标记
  } catch (error) {
    Logger.error(`获取 ${fieldName} 失败: ${error.message}`);
    return null;
  }
}

// 收集所有相关人员
const designer = await getFieldValue(page, '设计师');
const producer = await getFieldValue(page, '产品经理');
const copyTo = await getFieldValue(page, '抄送人');

// 合并并去重
const devNames = [designer, producer, copyTo]
  .filter(Boolean) // 移除null/undefined
  .join(','); // 拼接为逗号分隔的字符串

4.4.4 权限配置最佳实践

最少权限原则：只添加必要的人员
角色分离：区分执行者和查看者
定期清理：建议定期审查权限列表
审计日志：记录所有权限变更操作

五、完整执行流程示例

5.1 成功执行时间线

00:00 - 输入TAPD链接，启动脚本
00:05 - 自动登录TAPD成功
00:15 - 获取需求信息完成（标题、ID、相关人员）
00:25 - 生成分支名：feature/20420710-userLoginOptimization
00:35 - 确定版本号：20.1.0
00:45 - 创建工蜂分支成功
01:15 - 创建蓝盾流水线成功
01:30 - 添加权限完成（设计师：张三，产品经理：李四）
01:35 - 输出完整结果，流程结束

5.2 错误处理时间线

00:00 - 输入TAPD链接，启动脚本
00:05 - 自动登录TAPD成功
00:15 - 获取需求信息完成
00:25 - 生成分支名成功
00:35 - 确定版本号成功
00:45 - 创建工蜂分支成功
01:00 - 第一次创建蓝盾失败（内存不足）
01:05 - 释放内存，重启浏览器实例
01:10 - 第二次尝试创建蓝盾
01:25 - 第二次创建成功
01:40 - 添加权限完成
01:45 - 输出结果（包含重试记录）

六、部署与集成建议

6.1 环境要求

Node.js ≥ 14.0.0
Playwright 浏览器环境
网络访问权限（TAPD、工蜂、蓝盾）
足够的系统内存（建议≥8GB）

6.2 安装步骤

# 1. 克隆代码库
git clone 
cd qqmusic-ios-tapd-automation-skill

# 2. 安装依赖
npm install

# 3. 安装Playwright浏览器
npx playwright install chromium

# 4. 配置环境变量（可选）
export TAPD_USERNAME=your_username
export TAPD_PASSWORD=your_password

6.3 集成到CI/CD

# GitLab CI示例
stages:
  - automation

tapd-automation:
  stage: automation
  script:
    - npm install
    - npx playwright install chromium
    - node scripts/tapd-story-automation.js $TAPD_URL $VERSION
  artifacts:
    paths:
      - logs/
      - screenshots/
  only:
    - triggers

七、总结与展望

7.1 当前成果

✅ 全流程自动化：从需求到部署的完整闭环
✅ 智能决策：AI辅助分支命名，多源版本确定
✅ 健壮性：完善的错误处理和重试机制
✅ 可维护性：模块化设计，易于扩展

7.2 未来规划

更多平台支持：扩展Android、Web端自动化
智能分析：基于历史数据的复杂度预测
集成扩展：与更多内部系统对接
可视化界面：提供Web管理界面
性能优化：并行处理多个需求

7.3 经验总结

选择合适的工具：Playwright在Web自动化领域表现出色
设计容错机制：重试、降级、跳过等策略很重要
保持代码可读性：良好的日志和注释便于维护
持续优化：根据实际使用反馈不断改进

技术栈: Node.js + Playwright + DeepSeek API + Google Translate API
适用场景: iOS团队需求处理自动化

通过这个自动化技能，我们成功将平均需求处理时间从20分钟+降低到2分钟以内，同时减少了人为操作错误，提升了团队的整体开发效率。

[转载] 一文读懂 Skills｜从概念到实操的完整指南

2026-01-27T03:05:31.000Z

转载一文读懂 Skills｜从概念到实操的完整指南

原文地址

Agent 正在经历从“聊天机器人”到“得力干将”的进化，而 Skills 正是这场进化的关键催化剂。

你是否曾被 Agent 的“不听话”、“执行乱”和“工具荒”搞得焦头烂额？

本文将带你一文弄懂 Skills ——这个让 Agent 变得可靠、可控、可复用的“高级技能包”。

我们将从 Skills 是什么、如何工作，一路聊到怎样写好一个 Skills，并为你推荐实用的社区资源，带领大家在 TRAE 中实际使用 Skills 落地一个场景。

无论你是开发者还是普通用户，都能在这里找到让你的 Agent “开窍”的秘诀。

你是否也经历过或者正在经历这样的“ Agent 调教”崩溃时刻？

规则失效： 在 Agent.md 里写下千言万语，Agent 却视若无睹，完全“已读不回”。
执行失控： 精心打磨了无数 Prompt，Agent 执行起来依旧像无头苍蝇，混乱无序。
工具迷失： 明明集成了强大的 MCP 工具库，Agent 却两手一摊说“没工具”，让人摸不着头脑。

如果这些场景让你感同身受，别急着放弃。终结这场混乱的答案，可能就是 Skills。

什么是 Skills

“Skills” 这个概念最早由 Anthropic公司提出，作为其大模型 Claude的一种能力扩展机制。简单来说，它允许用户为 Claude 添加自定义的功能和工具。随着这套做法越来越成熟，并被社区广泛接受，Skills 如今已成为大多数 Agent 开发工具和 IDE 都支持的一种标准扩展规范。

一个 Skills 通常以一个文件夹的形式存在，里面主要装着三样东西：一份说明书（SKILL.md）、一堆操作脚本（Script）、以及一些参考资料（Reference）。

你可以把一个 Skill 想象成一个打包好的“技能包”。它把完成某个特定任务所需的领域知识、操作流程、要用到的工具、以及最佳实践全都封装在了一起。当 AI 面对相应请求时，就能像一位经验丰富的专家那样，有条不紊地自主执行。

一句话总结： 要是把 Agent 比作一个有很大潜力的大脑，那 Skills 就像是给这个大脑的一套套能反复用的“高级武功秘籍”。 有了它，Agent 能从一个“什么都略知一二”的通才，变成在特定领域“什么都擅长”的专家。

Skill 原理介绍

📚 官方解释：Agent Skills

Skill 的架构原理：渐进式加载

Skill 的设计很巧妙，它运行在一个沙盒环境里，这个环境允许大模型访问文件系统和执行 bash 命令（可以理解为一种电脑操作指令）。在这个环境里，一个个 Skill 就像一个个文件夹。Agent 就像一个熟悉电脑操作的人，通过命令行来读取文件、执行脚本，然后利用结果去完成你交代的任务。这种“按需取用”的架构，让 Skill 成为一个既强大又高效的“工具箱”。

为了平衡效果和效率，Skill 设计了一套聪明的三层分级加载机制：

Level 1：元数据（始终加载）

元数据就像是 Skill 的“名片”，里面有名称（name）和描述（description），是用 YAML 格式来定义的。Claude 在启动的时候，会把所有已经安装的 Skill 的元数据都加载进来，这样它就能知道每个 Skill 有什么用、什么时候该用。因为元数据很轻量，所以你可以安装很多 Skill，不用担心把上下文占满。

Level 2：说明文档（触发时加载）

SKILL.md 文件的正文就是说明文档，里面有工作流程、最佳实践和操作指南。只有用户的请求和 Skills 元数据里的描述相符时，Claude 才会用 bash 指令读取这份文档，把内容加载到上下文里。这种“触发式加载”能保证只有相关的详细指令才会消耗 Token。

Level 3：资源与代码（按需加载）

Skills 还能打包一些更深入的资源，比如更详细的说明文档（FORMS.md）、可执行脚本（.py）或者参考资料（像 API 文档、数据库结构等）。Claude 只有在需要的时候，才会通过 bash 去读取或执行这些文件，而且脚本代码本身不会进入上下文。这样一来，Skills 就能捆绑大量信息，几乎不会增加额外的上下文成本。

Skills 的调用逻辑：从理解意图到稳定执行

那么，Agent 是如何智能地选择并执行一个 Skill 的呢？整个过程就像一位经验丰富的助理在处理工作：

意图匹配（找到对的人）： Agent 首先聆听你的需求，然后快速扫一眼自己手头所有 Skill 的“名片夹”（元数据），寻找最匹配的那一张。
读取手册（看懂怎么干）： 找到合适的 Skills 后，Agent 会像模像样地翻开它的“操作手册”（SKILL.md），仔细研究详细的执行步骤和注意事项。
按需执行（动手开干）： 根据手册的指引，Agent 开始工作。如果需要，它会随时从“工具箱”里拿出脚本或工具来完成具体操作。
反馈结果（事毕复命）： 任务完成后，Agent 向你汇报最终结果，或者在遇到困难时，及时向你请教。

Skills vs. 其他概念的区别

为了更清晰地理解 Skills 的独特价值，我们不妨把它和另外两个容易混淆的概念——快捷指令（Command） 和 原子工具（MCP）——放在一起做个对比。用一个厨房的例子就很好懂了：

我们也列举了几个大家容易混淆的其他功能，一起来对比看看。

📚 官方博客解释：Skills explained: How Skills compares to prompts, Projects, MCP, and subagents

什么是好的 Skills：从“能用”到“好用”

Good Skills vs Bad Skills

如何写好 Skills

原子性（Atomicity）： 坚持单一职责，让每个 Skill 都像一块积木，小而美，专注于解决一个具体问题，便于日后的复用和组合。
给例子（Few-Shot Prompting）：这是最关键的一点，与其费尽口舌解释，不如直接给出几个清晰的输入输出示例。榜样的力量是无穷的，模型能通过具体例子，秒懂你想要的格式、风格和行为。
立规矩（Structured Instructions）：
1. 定角色：给它一个明确的专家人设，比如“你现在是一个资深的市场分析师”。
2. 拆步骤：把任务流程拆解成一步步的具体指令，引导它“思考”。
3. 画红线：明确告诉它“不能做什么”，防止它天马行空地“幻觉”
造接口（Interface Design）：像设计软件 API 一样，明确定义 Skill 的输入参数和输出格式（比如固定输出 JSON 或 Markdown）。这让你的 Skill 可以被其他程序稳定调用和集成。
勤复盘（Iterative Refinement）：把 Skills 当作一个产品来迭代。在实际使用中留心那些不尽如人意的“Bad Case”，然后把它们变成新的规则或反例，补充到你的 Skills 定义里，让它持续进化，越来越聪明、越来越靠谱。

📚 一些官方最佳实践指南：技能创作最佳实践

社区热门 Skills 推荐

刚开始接触 Skills，不知从何下手？不妨从社区沉淀的这些热门 Skills 开始，寻找灵感，或直接在你的工作流中复用它们。

Claude 官方提供的 Skills

📚 官方 Skills 仓库：https://github.com/anthropics/skills

学习 Claude 官方的 Skills 仓库可以帮助我们最快的了解 Skills 的最佳实践，便于我们沉淀出自己的 Skills。

如何快速使用官方 Skills？
大多数官方 Skills 都能直接下载，或者通过 Git 克隆到本地。在 TRAE 等工具里，一般只需把这些 Skills 的文件夹放到指定的 Skills 目录，接着重启或刷新 Agent，它就会自动识别并加载这些新能力。具体操作可参考工具的使用文档。
更多细节可参考下面这部分内容：如何在 TRAE 里快速用起来

Claude 官方提供的 Skills 列表

社区其他最佳实践

如何在 TRAE 里快速使用

理论说再多，不如亲手一试。我们先讲一下如何在 TRAE SOLO 中创建并应用一个 Skill 并以基于飞书文档的 Spec Coding为例讲解一下如何利用 Skills 快速解决一个实际问题。

Skill 创建

方式一：设置中直接创建

TRAE 支持在设置页面可以快速创建一个 Skill

按下快捷键 Cmd +/ Ctrl + 通过快捷键打开设置面板。

在设置面板左侧找到「规则技能」选项

找到技能板块，点击右侧的「创建」按钮。

你会看到一个简洁的创建界面，包含三要素：Skill 名称、Skill 描述、Skill 主体。我们以创建一个“按规范提交 git commit”的 Skill 为例，填入相应内容后点击「确认」即可。

填入我们需要的内容「确认」即可

方式二：直接解析 SKILL.md

在当前项目目录下，新增目录.trae/Skills/xxx 导入你需要文件夹，和 TRAE 进行对话，即可使用。

可以在「设置 - 规则技能」中看到已经成功导入

方式三：在对话中创建

目前 TRAE 中内置了 Skills-creator Skills ，你可以在对话中直接和 TRAE 要求创建需要的 Skills

Skill 使用

在 TRAE 里使用技能很容易，你加载好需要的技能后，只需在对话框中用日常语言说明你的需求就行。

例如，输入“帮我设计一个有科技感的登录页面”，系统就会自动调用“frontend-design”技能。
例如，输入“帮我提取这个 PDF 里的所有表格”，系统会自动调用“document-Skills/pdf”技能。
例如，输入“帮我把这片技术文档转为飞书文档”，系统会自动调用“using-feishu-doc”技能。

系统会自动分析你的需求，加载技能文档，还会一步步指导你完成任务！

实践场景举例

还记得引言里提到的那些问题吗？比如说，项目规则文件（project\_rules）有字符数量的限制；又或者，就算你在根规则文件里明确写好了“在什么情况下读取哪个文件”，Agent 在执行任务时也不会按照要求来做。

这些问题的根本原因是，规则（Rules）对于 Agent 而言是固定不变的，它会在任务开始时就把所有规则一次性加载到上下文中，这样既占用空间，又不够灵活。而 技能（Skill）采用的是“逐步加载”的动态方式，刚好可以解决这个问题。所以，我们可以把之前那些复杂的规则场景，重新拆分成一个个独立的技能。

接下来，我们通过一个基于飞书文档的“Spec Coding”简单流程，来实际操作一下如何用技能解决问题。

什么是 Spec Coding？

Spec Coding 提倡“先思考后行动”，也就是通过详细定义可以执行的需求规范（Specification）来推动 AI 开发。它的流程包含“需求分析、技术设计、任务拆解”的文档编写过程，最后让 AI 根据规范来完成编码。这种一步步的工作流程能保证每一步都有依据，实现从需求到代码的准确转化。

让我来分析一下这个场景

上面提到将开发过程划分为四个关键阶段，所以要完成 “需求分析、技术设计、任务拆解” 的飞书文档撰写，还有最终的代码实现。为此，我们需要不同的技能来满足不同场景下的文档编写需求，并且要教会 Agent 如何使用飞书工具进行创作协同。

下面我们就一起完成上面提到的 Skills 的设计实现。

多角色专家 Skills

通过实现多角色 Skills 通过创建多个交付物过程文档，约束后续的编码，为编码提供足够且明确的上下文，每个Skill 专注完成一件事

下面让我们进一步详细设计

按照上述的表格我们就可以大致明确我们需要的 Skills 该如何实现了。

本次只作为一个例子大家可以参考上面创建 Skill 的教程自己完成一下这个多角色 Skills 的创建和调试，当然正如上面所述好的 Skill 需要在实践中逐渐优化并通过场景调用不断进行优化的

飞书文档使用 Skill

飞书文档的格式是 markdown 的超集，我们 Skill 的目的则是教会 Agent 飞书文档的语法，便于 Agent 写出符合格式的 md 文件。并通过约束 Agent 行为，充分利用飞书文档的评论的读写完成多人协作审阅的过程，用户通过在飞书文档评论完成相关建议的提出，Agent 重新阅读文档和评论，根据建议进一步优化文档，实现文档协作工作流。

Spec Coding Skill

上面我们实现了多个角色 Skills 和一个功能 Skill，但实际使用时，还需要有一个能统筹全局的技能，来实现分工协作。把上述多个技能组合起来，告诉智能体（agent）整体的规格编码（spec coding）流程，完成工具技能和角色技能的组合与调度。

如此我们就能快速搭建一个规格编码工作流程，完成基础开发。当然也可以参考上面的逻辑，用技能来重新复刻社区里的规格编码实践（如 SpecKit、OpenSpec 等）。

总结

上述场景提到了两种不同风格的 Skill（角色型，工具型），利用 Skill 的动态加载机制（取代固定规则的一次性加载方式），完成了复杂场景下的任务分解；通过 不同角色技能的分工协作（避免 Agent 什么都做导致执行混乱）；尝试借助飞书文档形成协作闭环（打通人机交互的最后一步），有效解决了 Agent “不听话、执行乱、工具少” 的问题，让 AI 从 “对话助手” 真正转变为 “可信赖的实干家”，实现从需求提出到代码产出的高效、精准、协作式交付。

Q & A | 一些常见问题

为什么我写的 Skills 不生效，或者效果不符合预期？

那十有八九是你的“名片”（Description）没写好。

记住，Agent 是通过读取 Skills 的 Description 来判断“什么时候该用哪个 Skill”的。要是你的描述写得含糊不清、太专业或者太简单，Agent 就很难明白你的意思，自然在需要的时候就不会调用这个 Skill。所以，用大白话写的清晰、准确的Description，对 Skill 能否起作用至关重要。

使用 Skills 的效果，会受到我选择的大语言模型（LLM）的影响吗？

会有影响，不过影响的方面不一样。

一个更强大的模型，主要影响“挑选”和“安排”技能的能力。 它能更准确地明白你的真实想法，然后从一堆技能里挑出最适合的一个或几个来解决问题。它的优势体现在制定策略方面。
而技能本身，决定了具体任务执行的“最低水平”和“稳定性”。 一旦某个技能被选中，它里面设定好的流程和代码是固定的，会稳定地运行。所以，技能编写得好不好，直接决定了具体任务能不能出色完成。。

Skills 是不是万能的？有什么它不擅长做的事情吗？

当然不是万能的。 Skills 的主要优势是 处理那些流程明确、边界清晰的任务。 在下面这些情况中，它可能就不是最好的选择了：

需要高度创造力的任务： 像写一首饱含情感的诗，或者设计一个全新的品牌标志。这类工作更需要大模型本身的“灵感”。
需要实时、动态做决策的复杂策略游戏： 比如在变化极快的金融市场中做交易决策。
单纯的知识问答或开放式闲聊： 如果你只是想问“文艺复兴三杰是谁？”，直接问大模型就可以，不用动用 Skills 这个“大杀器”。

我发现一个社区的 Skills 很好用，但我可以修改它以适应我的特殊需求吗？

当然可以，我们强烈建议你这么做！

大多数共享的 Skill 都支持用户“Fork”（也就是“复制一份”）并进行二次开发。你可以把通用的 Skill 当作模板，在自己的工作空间里复制一份，然后修改里面的逻辑或参数，以适应你自己的业务需求。这对整个生态的共建和知识复用很重要。

结语｜让 Agent 成为你真正的“行动派”

Skill 的出现，为 AI 从“对话式助手”转变为“可信赖的执行者”搭建了关键的技术桥梁。它用结构化的方法把领域知识、操作流程和工具调用逻辑封装起来，解决了 Agent 规则失效、执行失控的混乱问题，让 AI 的能力输出变得可以控制、值得信赖且高效。

Skill 的核心价值在于：

精准实际痛点： 通过巧妙的三级加载机制（元数据→说明文档→资源）平衡上下文效率与功能深度，在功能深度和上下文效率之间找到了一个绝佳的平衡点，既避免了宝贵 Token 的浪费，又确保了任务执行的精准性，实现了 Agent 上下文的动态加载能力。
生态赋能，降低门槛： 无论是官方还是社区，都提供了丰富的资源（如 Claude 官方仓库、SkillsMP 市场等），让普通用户也能轻松站在巨人的肩膀上，快速复用各种成熟的能力。

虽然 Skill 不是万能的，但它在“确定性流程任务”上的优势无可替代。未来，随着 AI 模型能力的提升与 Skill 生态的进一步完善，我们有望看到更多跨领域、可组合的 Skill 出现——让 AI 从“样样懂一点”的通才，真正进化为“事事做得好”的专家协作伙伴。

不妨从今天开始，尝试创建你的第一个 Skill：将你最擅长的领域经验封装成可复用的能力，让 AI 成为你延伸专业价值的放大器。

[转载] 认知重建：Speckit用了三个月，我放弃了——走出工具很强但用不好的困境

2026-01-10T04:27:48.000Z

[转载] 认知重建：Speckit用了三个月，我放弃了——走出工具很强但用不好的困境

原文地址

2025 年 AI 编程工具遍地开花，但一个尴尬的现实是：工具越来越强，预期越来越高，落地却越来越难——speckit 的规范流程在企业需求的”千层套路”、海量代码面前显得理想化，上下文窗口频繁爆满让复杂任务半途而废，每次做类似需求还是要花同样的时间因为知识全在人脑里。本文记录了我从踩坑规范驱动工具，到借鉴 Anthropic 多 Agent 协作架构、融合上下文工程与复合工程理念，最终实现边际成本递减、知识持续复利的完整历程。如果你也在”AI 工具明明很强但就是用不好”的困境中挣扎，或许能找到一些共鸣。附带还有新的工作流下人的工作模式转变思考～

起点：规范驱动开发的美好承诺

1.0 团队的 AI Coding 起点

先交代一下背景：我所在的是一个后端研发团队，日常工作以存量项目迭代为主，涉及多个微服务的协作开发。

2024 年中，团队开始尝试 AI 辅助编程。最初的体验是：

短上下文场景效果不错：

写一个独立函数、实现一个工具方法——AI 表现良好
简单的代码补全、格式化、注释生成——确实提效

但规模化复用始终没起来：

当时只有三种触发类型的 rules（早期 rules 时代）
虽然提出过”在基础 agent 之上封装 agent”的想法
但几个月过去，仍然没有太多人真正动起来

原因分析：

规范没有形成共识——每个人对”怎么用好 AI”理解不同
对 AI 工程化没有标准认识——不知道该往哪个方向努力
提示词复用习惯没建立——好的 prompt 停留在个人经验，没有沉淀

这个困境促使我开始探索外部方案：有没有已经成熟的”AI 编程工程化”方法论？有没有可以直接借鉴的最佳实践？

带着这些问题，我遇到了 speckit 和 openspec。

遇见 speckit：AI 编程的”正确打开方式”？

2024 年开始，AI 编程助手如雨后春笋般涌现。Copilot、Cursor、Claude 让很多人第一次体验到了”AI 写代码”的魔力。但兴奋之后，问题也随之而来：

AI 生成的代码质量参差不齐
需求理解经常偏离预期
缺乏持续性，上下文丢失严重
改一处坏十处，维护成本高

正当我被这些问题困扰时，遇到了 speckit——一个规范驱动开发（Spec-Driven Development, SDD）工具包。

speckit 的理念很吸引人：

1
2
3

规范即代码 → 规范直接生成实现，而非仅作为指导文档
权力倒置 → 代码服务于规范，而非规范服务于代码
测试优先 → 强制 TDD，不可协商地要求先写测试

它定义了一套清晰的 5 阶段流程：

1 2	Constitution → Specify → Plan → Tasks → Implement (宪章) (规范) (计划) (任务) (实施)

每个阶段对应一个命令，依次执行：创建项目宪章和开发原则 → 定义需求和用户故事 → 创建技术实现计划 → 生成可执行的任务列表 → 执行所有任务构建功能。

再加上 9 条不可变的架构原则（库优先、CLI 接口、测试优先、简洁性、反抽象…），7 层 LLM 输出约束机制，防止过早实现、强制标记不确定性、结构化自检…

这不就是 AI 编程的”工程化正确答案”吗？

带着这样的期待，我开始在项目中尝试落地。

openspec：另一种优雅的尝试

除了 speckit，我还研究了 openspec——一个更轻量的规范驱动框架：

1
2
3

Specs as Source of Truth → specs/ 目录始终反映系统当前真实状态
Changes as Proposals → 所有修改先以提案形式存在，经确认后实施
Lock Intent → AI 编码前通过明确规范锁定意图

openspec 的 Delta 机制设计得很巧妙：不同于直接存储完整的”未来状态”，它只存储变更操作本身（ADDED/MODIFIED/REMOVED/RENAMED）。归档时通过语义名称匹配来定位需求，避免了 Git Merge 常见的位置冲突问题。同时采用 Fail-Fast 机制，在写入前做完整冲突检测，保证不会产生半完成状态。

两个工具，两种风格，但都指向同一个目标：让 AI 编程更可控、更规范。

碰壁：理想流程遭遇企业现实

一个真实需求的”千层套路”

让我用一个真实的 12 月活动需求来说明问题：

协作复杂度：

跨 BG、跨前后端、跨 FT、跨项目、跨小组、跨服务
跨部门合作接口因合规要求变来变去，迟迟给不到位
雅典娜平台上接近 20 种商品类型，全得人工一个个配
活动流程必须按”玩法引擎”的方法论来拆解
技术方案得按习惯写在 iWiki 里

并行任务流：

同时处理：
├── 找产品确认商品细节
├── 找运营确认玩法逻辑
├── 找跨团队研发对齐接口
├── 找跨项目研发对齐交互
└── 内部技术方案评审

方案设计的”考古”需求：

某个商品创建、资产查看以前有什么坑？
现在的玩法能力有哪些？能不能直接用？
导航小结页到底是啥？怎么让它弹 Banner？

**写代码前的”九九八十一难”**：

前置任务链：
├── 玩法引擎：依赖数据、激励动作要在引擎仓库里实现
├── 外部依赖：关联的代码改动在其他服务里
├── 配置中心：要去阿波罗（Apollo）配配置
├── 雅典娜：商品场景得先配好（早期没数据还得 Mock）
└── 数据库：涉及表变更，得去测试环境操作

执行中的细节坑：

阿波罗配置有个坑，该怎么绕过去？
规则引擎的语法到底怎么写？
商品发放操作是重点，具体发到哪个钱包？

speckit 流程 vs 企业现实

把 speckit 的理想流程放到这个场景里：

speckit 假设的流程：
Constitution → Specify → Plan → Tasks → Implement
     ↓            ↓        ↓       ↓         ↓
  一次性定义   一次性写清   线性规划   任务分解   按序实施

企业现实：
多方博弈 → 动态调整 → 并行推进 → 持续扯皮 → 边做边改
    ↓          ↓          ↓          ↓          ↓
 需求会变   方案会改   依赖会卡   资源会抢   意外会来

核心矛盾：speckit 假设需求是清晰的、可一次性规划的，但企业真实需求是动态的、多方博弈的、持续变化的。

openspec 的 Delta 机制也救不了

openspec 的”提案→审查→归档”流程看起来更灵活，但：

**假设需求可以”提案化”**：实际上外部接口因合规变来变去，5 个维度同时推进相互依赖，评审中发现问题需要立即改方案
人工介入成本高：Delta 与主 Spec 冲突时报错终止，复杂冲突需要人工解决，而人的认知窗口有限。具体来说，openspec archive 会在以下情况直接报错退出：
- MODIFIED 引用的需求在主 Spec 中不存在（可能被别人删了或改名了）
- ADDED 的需求在主 Spec 中已存在（别的分支先合入了同名需求）
- RENAMED 的源名称不存在，或目标名称已被占用
- 同一个需求同时出现在 MODIFIED 和 REMOVED 中（逻辑矛盾）

这些冲突没有自动解决策略，CLI 只会打印类似 MODIFIED failed for header "### Requirement: xxx" - not found 的错误信息，然后终止。你需要：手动打开两个文件对比、理解冲突原因、决定保留哪个版本、手工修改 Delta 文件、重新执行归档。整个过程要求你同时在脑中持有”主 Spec 当前状态”和”Delta 期望变更”两套信息——这对认知负担是很大的挑战

强依赖命名的脆弱性：产品叫”用户激励”，运营叫”活动奖励”，研发叫”商品发放”——同一个需求在不同阶段有不同表述

最致命的问题：无法应对”考古”需求

speckit 和 openspec 都有一个共同盲区：流程从零开始。

speckit 流程：
Constitution 定义原则 → Specify 定义需求 → Plan 设计方案 → ...

但真实需求必须"考古"：
├── 这个商品创建以前有什么坑？
├── 现有玩法能力有哪些？
├── 导航小结页的 Banner 怎么弹？
├── Apollo 配置有什么特殊处理？
└── 雅典娜 20 种商品类型的配置方式各不同

缺失能力：没有”上下文检索”机制，无法自动关联历史经验、已有能力、已知陷阱。

AI 生成 spec 时能看到的：

✅ 代码仓库
✅ project.md/Constitution
✅ 用户意图

AI 看不到（但需要知道）的：

❌ 业务边界（涉及哪些服务？）
❌ 历史经验（以前怎么做的？有什么坑？）
❌ 配置规范（Apollo 特殊要求？）
❌ 平台知识（雅典娜 20 种商品配置注意事项）
❌ 协作约束（依赖其他团队接口？合规要求？）

结果：依赖人 review 时逐步想起来告诉 AI，45 分钟 + 持续的认知负担。

AI 工程化如何破局？（预告）

面对上述问题，AI 工程化的解决思路是什么？这里先做个预告，详细方案见第五节。

企业现实问题	speckit/openspec 的困境	AI 工程化的解法
需求动态变化	假设一次性规划，变更成本高	需求以”进行中”状态管理，支持随时调整，阶段性沉淀
多线并行博弈	线性流程，Delta 冲突报错终止	Agent 自主决策路由，Skill 独立执行，不强依赖顺序
考古需求	无上下文检索，AI 只能看到代码	context/ 分层管理历史经验，按阶段自动加载
配置/平台知识	需要人 review 时口述	沉淀为 context/tech/，AI 执行时主动提醒
冲突解决成本	人工对比、手工修改、认知负担重	不依赖”合并”，而是”覆盖+沉淀”，冲突时 AI 辅助决策
边际成本恒定	每次 45 分钟，无复利	首次建立 context，后续复用，边际成本递减

核心差异：

speckit/openspec 的思路：
规范化流程 → 约束 AI 行为 → 期望产出质量
    ↓
问题：流程本身不适配企业现实，约束越多越僵化

AI 工程化的思路：
上下文完整性 → AI 决策质量 → 自动沉淀经验 → 下次更好
    ↓
解法：不是约束 AI，而是给 AI 完整信息 + 让知识复利

一个具体例子——同样是”商品发放”需求：

speckit 模式（第 3 次做）：
1. Constitution → 写项目原则（已有，跳过）
2. Specify → 写需求规范（45 分钟，人逐步想起遗漏告诉 AI）
3. Plan → 写技术方案（人提醒：Apollo 有坑、钱包要区分）
4. Tasks → 生成任务（人补充：雅典娜配置注意事项）
5. Implement → 执行（遇到问题再排查）
耗时：45 分钟 + 排查时间，知识留在人脑

AI 工程化模式（第 3 次做）：
1. /req-dev "商品发放需求"
2. Agent 识别意图 → 自动加载 context/experience/商品发放历史问题.md
3. Agent 提醒："历史上有钱包选择、Apollo 配置、雅典娜商品类型三个坑点"
4. 人确认："对，继续"
5. Skill 执行 → 自动校验 → 生成代码 → 沉淀新发现
耗时：10 分钟，知识沉淀到 context/

后续章节将详细展开这套方案的设计原理和落地实践。

反思：从第一性原理重新审视

人的认知局限是刚性约束

实话实说，我的脑容量有限：

记性不好：只能记住关键的大方向，具体细节过脑就忘
专注窗口小：同时关注的信息有限，必须采用”专注单任务+全局索引”策略

我的日常工作模式（经过各种场景检验的最优路径）：

任务管理（外挂大脑）：Todo List 分优先级（红色紧急/黄色进行中/绿色完成/无色未开始）
备忘录：记录死记硬背的内容（打包命令、数据库 IP 密码、文档散落信息）
桌面即上下文：N 个桌面窗口，每个窗口对应一个垂直领域
复杂任务 SOP 化：脑内计划 + 执行机器模式 + 文档跟踪
简单任务 Fire and Forget：低频低思考成本事项秒回即忘

这套土办法是经过检验的最优路径。如果硬套 speckit/openspec 的范式，反而会丢掉这些 SOP，得不偿失。

执行过程的知识价值被忽视

speckit 和 openspec 都只关注”规范”（Spec）和”结果”（Code），忽视”过程”（Process）。

但真实价值恰恰在过程中：

执行 → 有问题 → 验证 → 排查 → 继续执行
                    ↓
            排查信息往往没被记录
                    ↓
        时间一久或换人，下次重新排查

这个循环中的排查信息，才是最宝贵的知识！

边际成本恒定是致命缺陷

Speckit 模式：
第 1 次商品发放需求：45 分钟（人逐步想起遗漏）
第 2 次商品发放需求：45 分钟（人 AGAIN 逐步想起遗漏）
第 n 次商品发放需求：45 分钟（还是要想，还是那么久）

边际成本恒定，无复利效应。
知识在哪里？在人脑里，每次都要重新想起来。

这与我期望的”越用越快”完全相反。

转折：遇见复合工程与上下文工程

复合式工程：让每一步都成为下一步的基石

在探索过程中，我接触到了”复合式工程”（Compounding Engineering）的理念。这个概念来自 Claude Code 团队与 Every 团队的实践交流，并在 Every 团队开源的 Compound Engineering Plugin 中得到了系统化实现——这是一个包含 27 个 Agent、19 个 Command、13 个 Skill 的完整 AI 辅助开发工具包。

定义”复合式工程”

“复合式工程”的核心目标非常明确：让每一单元的工程工作使后续工作变得更容易，而非更难。

1
2

传统开发：累积技术债务 → 每个功能增加复杂性 → 代码库越来越难维护
复合工程：每个功能产出文档模式 → 创建可复用组件 → 建立减少决策疲劳的约定 → 知识在团队中复合增长

与传统工程中每增加一个功能都会增加系统复杂度和维护成本不同，”复合式工程”追求的是一种”复利”效应，让系统的能力随着时间推移指数级增长。

核心工作流循环：Plan → Work → Review → Compound

Compound Engineering Plugin 设计了一个闭环的工作流循环：

Plan ──────→ Work ──────→ Review ──────→ Compound
详细规划     执行工作     质量检查       知识沉淀
   ↑                                       │
   └───────────────────────────────────────┘
            知识复合：下次规划更精准

Plan：多代理并行研究仓库模式、最佳实践、框架文档，输出结构化计划
Work：系统性执行计划，边做边测，质量内建
Review：多代理并行审查（安全、性能、架构等），输出分级 Todo
Compound：这是复合工程的核心——将解决的问题结构化记录，形成团队知识资产

完整实现参见：Compound Engineering Plugin

为什么叫”Compound”？

第一次解决 "N+1 query in brief generation" → Research (30 min)
文档化 → docs/solutions/performance-issues/n-plus-one-briefs.md (5 min)
下次类似问题 → Quick lookup (2 min)
知识复合 → Team gets smarter

Each unit of engineering work should make subsequent units of work easier—not harder.

实现机制：知识复合的典型场景

实现复合工程的关键，在于建立系统化的知识沉淀机制。以下是几个典型场景：

场景 1：Agent 重复犯同类错误

1
2
3

触发：发现 Agent 在某类问题上反复出错
沉淀：将教训写入 AGENTS.md / CLAUDE.md / 系统提示词
效果：该类错误不再发生，无需人工提醒

场景 2：某类问题需要频繁人工检查

1
2
3

触发：Code Review 时反复指出同类问题
沉淀：创建 Lint 规则 / Pre-commit Hook / CI 检查
效果：问题在提交前自动拦截，减少人工负担

场景 3：复杂流程被多次执行

1
2
3

触发：某个多步骤操作被团队重复执行
沉淀：封装为 Skill / Command / Agent
效果：一键触发标准化流程，新人也能执行专家级操作

场景 4：解决了一个有价值的问题

1
2
3

触发：花了较长时间解决某个棘手问题
沉淀：结构化记录到 context/experience/ 目录
效果：下次遇到类似问题，Agent 自动加载相关经验

这些场景的共同特点是：在问题解决的当下立即沉淀，而不是事后补文档。

Claude 团队的复合工程应用案例

以下是 Every 团队和 Anthropic 内部使用复合工程的真实案例：

案例 1：”@claude，把这个加到 claude.md 里”

当有人在 PR 里犯错，团队会说：”@claude，把这个加到 claude.md 里，下次就不会再犯了。”或者：”@claude，给这个写个测试，确保不会回归。”通过这种方式，错误转化为系统的免疫能力。

案例 2：100% AI 生成的测试和 Lint 规则

Claude Code 内部几乎 100% 的测试都是 Claude 写的。坏的测试不会被提交，好的测试留下来。Lint 规则也是 100% Claude 写的，每次有新规则需要，直接在 PR 里说一句：”@claude，写个 lint 规则。”

案例 3：十年未写代码的经理

经理 Fiona 十年没写代码了，加入团队第一天就开始提交 PR。不是因为她重新学会了编程，而是因为 Claude Code 里积累了所有团队的实践经验——系统”记得”怎么写代码。

案例 4：内置记忆系统

把每次实现功能的过程——计划怎么制定的、哪些部分需要修改、测试时发现了什么问题、哪些地方容易遗漏——全部记录下来，编码回所有的 prompts、sub-agents、slash commands。这样下次别人做类似功能时，系统会自动提醒：”注意，上次这里有个坑。”

成果：一个自我进化的开发伙伴

这一范式带来的最终效果是惊人的。它将 AI 从一个被动执行命令的工具，转变为一个能够从经验中持续学习、并让整个开发流程效率不断”复利”增长的开发伙伴。

为什么这解决了古老的知识管理问题

传统的知识管理困境：

方式 1：写文档
问题：没人看。写完就过时。维护成本高。

方式 2：靠人传授
问题：老人离职知识断层。新人上手慢。传授效率低。

方式 3：代码注释
问题：注释会过时。只能解释"是什么"，难以解释"为什么这么做"和"以前踩过什么坑"。

复合工程的答案：把知识编码进工具，让工具在正确的时刻主动提醒你。

不是：写一份"商品发放注意事项"文档，期望大家会看
而是：在 context/experience/商品发放历史问题.md 里记录，
      Agent 在执行商品发放需求时自动加载，主动提醒

不是：靠老人口头传授"Apollo 配置有个坑"
而是：把坑编码到 skill 里，执行时自动校验

不是：在代码里写注释"这里要注意 XX"
而是：让 AI 在生成代码前就已经知道要注意 XX

关键设计模式

从 Compound Engineering Plugin 中可以提炼出三个核心设计模式：

模式	核心思想	价值
并行代理	多角度分析时启动多个专业代理，合并结果后继续	提高分析覆盖度和效率
意图路由	入口统一，根据意图自动路由到具体工作流	降低用户认知负担
知识复合	问题解决 → 文档化 → 未来查找 → 团队变聪明	边际成本递减

我的实践：基于工具架构的知识复合

基于复合工程理念，我设计了一套 AI 工程工具架构来实现知识的持续沉淀与复用：

工具架构：

用户输入 → Command（入口）→ Agent（决策层）→ Skill（执行层）
                              ↓
                         意图识别、流程路由
                              ↓
                         调用具体 Skill 执行
                              ↓
                         experience-index（经验检索）

Command：用户交互入口，如 /req-dev、/optimize-flow
Agent：自主决策，智能判断意图，可调用多个 Skill
Skill：固化流程，执行具体操作步骤

知识复合的两条路径：

路径 1：经验沉淀（/optimize-flow）
用户发现规律 → experience-depositor Agent → 识别规则类型 → 写入规则文件
                                                              ↓
                                              context-rules.md（上下文映射）
                                              risk-rules.md（风险识别）
                                              service-rules.md（服务补全）
                                              pattern-rules.md（代码模式）

路径 2：经验检索（experience-index Skill）
需求分析/方案设计/代码编写前 → 自动检索匹配规则 → 加载相关 Context、提示风险、建议服务

复利效应示例：

第 1 次做支付需求：45 分钟（边做边踩坑）
    ↓ 沉淀规则：/optimize-flow "支付需求要加载 payment-service.md 并提示资金安全"

第 2 次做支付需求：15 分钟（experience-index 自动加载背景、提示风险）
    ↓ 沉淀更多规则：错误处理模式、服务依赖关系

第 N 次做支付需求：5 分钟（系统已积累完整的支付领域知识）

与传统文档的本质区别：

1 2	传统文档：写完没人看，看了也找不到对的时机 AI 工程化：experience-index 在正确的时刻自动检索，主动推送给 Agent

这就是为什么”知识应该沉淀到工具”不是一句口号，而是有实际 ROI 的工程决策。

对长期任务工程设计的启示

Compound Engineering Plugin 为 AI 工程化提供了极好的参考蓝图：

维度	启示
任务分解	阶段化执行（Plan → Work → Review → Compound），并行化处理，状态持久化
质量保障	多角度并行审查，分级处理（P1/P2/P3），持续验证（边做边测）
知识管理	即时文档化（趁上下文新鲜），分类存储（按问题类型），交叉引用（关联 Issue、PR）
工具设计	工具提供能力而非行为，Prompt 定义意图和流程，让代理决定如何达成目标

极简主义：设计理念如何影响我的实践

Claude Code 团队的实践给了我另一个启发：

“最好的工具，就是没有工具。”

他们的做法：

只给模型一样东西：bash
每周都在删工具，因为新模型不需要了
减少模型的选择，就是增加模型的能力
“模型吞噬脚手架”——曾经的外部辅助，逐渐被模型吸收

产品极简主义：不是”越来越丰富”，而是”越来越纯粹”。每一代模型发布，工具都会变得更简单，因为复杂性转移到了模型内部。

这个理念深刻影响了我做 AI 工程化的设计思路：

入口极简化：整个系统只有两个命令入口——/req-dev 和 /optimize-flow。不是因为功能少，而是把复杂性藏到了 Agent 的智能路由里。用户不需要记住十几个命令，只需要表达意图，Agent 会判断该调用哪个 Skill。
Skill 而非工具堆叠：speckit/openspec 倾向于提供更多工具、更多模板、更多约束。我选择相反的方向——把能力编码为 Skill，让 Agent 在需要时自动调用，而不是让用户手动选择”现在该用哪个工具”。
上下文自动加载：Claude Code 团队说”人类和 AI 看同样的输出，说同样的语言，共享同一个现实”。我把这个原则应用到上下文管理——不是让用户手动指定”加载哪些背景资料”，而是让 Agent 根据当前阶段自动加载相关的 context/。用户感受不到”上下文加载”这个动作，但 AI 已经具备了完整的信息。
删除优先于添加：每次迭代时，我会问自己”有哪些东西可以删掉？”而不是”还能加什么功能？”。AGENTS.md 从最初的长篇大论，精简到现在只放通用规范和目录指针，具体流程全部下沉到 Skill 里。
双重用户设计：Claude Code 为工程师和模型同时设计界面。AI 工程化也是——/req-dev 命令人可以手动调用，Agent 也可以在流程中自动调用子 Skill。同一套能力，两种调用方式，没有冗余。

当前实践的目标：让工具尽可能”隐形”——用户只需要说”我要做一个商品发放需求”，系统自动加载上下文、自动识别阶段、自动调用对应 Skill、自动沉淀经验。用户感受不到在”使用工具”，只是在”完成工作”。

注：关于工具消失的行业发展趋势，详见第九节”未来展望”。

上下文工程：AI 能力的前提是信息完整性

参考：Anthropic - Effective Context Engineering for AI Agents

什么是上下文工程？

上下文（Context） 指的是在从大语言模型（LLM）采样时包含的一组 token——不仅仅是提示词，还包括系统提示、工具定义、对话历史、检索到的文档等所有进入模型的信息。

上下文工程 是指在 LLM 推理过程中，策划和维护最优 token 集合的策略集合。它代表了 LLM 应用构建方式的根本转变：

提示词工程（旧范式）	上下文工程（新范式）
关注如何编写有效的提示词	管理整个上下文状态
主要针对一次性分类或文本生成任务	针对多轮推理和长时间运行的智能体
“找到正确的词语和短语”	“什么样的上下文配置最可能产生期望行为？”

核心指导原则：

找到最小可能的高信号 token 集合，最大化期望结果的可能性

为什么不重视上下文工程会导致严重问题？

很多团队把 AI 辅助编程的失败归咎于”模型不够强”或”提示词没写好”，但真正的根因往往是上下文工程的缺失。Anthropic 的研究揭示了几个关键问题：

问题 1：上下文腐蚀（Context Rot）

研究发现：随着上下文窗口中 token 数量增加，模型准确回忆信息的能力会下降。

上下文腐蚀的恶性循环：
加载更多信息 → 窗口膨胀 → 信息检索精度下降 → 行为异常
                ↓
        人发现问题 → 加更多上下文纠正 → 窗口更膨胀 → 更差

这不是断崖式下降，而是梯度下降——模型在长上下文中仍然能力强大，但信息检索和长程推理的精度会持续降低。

问题 2：注意力预算耗尽（Attention Budget Exhaustion）

LLM 就像人类有限的工作记忆一样，拥有”注意力预算”：

Transformer 架构的约束：
├── 每个 token 都要关注所有其他 token，产生 n² 个成对关系
├── 训练数据中短序列比长序列更常见，模型对长上下文依赖的经验较少
└── 位置编码插值虽允许处理更长序列，但会降低 token 位置理解的精度

结果：
├── 每引入一个新 token 都会消耗注意力预算
├── 低质量的 token 会"稀释"高质量信息
└── 关键信息可能被噪声淹没

问题 3：speckit/openspec 的上下文盲区

回顾第二节的 speckit 困境，从上下文工程角度重新审视：

问题现象	上下文工程视角的根因
人 review 时逐步想起遗漏告诉 AI	历史经验没有编码为可检索的上下文
45 分钟完成需求，边际成本恒定	每次都是”冷启动”，没有上下文复用
上下文窗口频繁爆满	没有分层加载策略，一次性塞入过多信息
AI 行为异常，半途而废	上下文腐蚀导致关键信息被”遗忘”

问题 4：工具设计不当导致上下文污染

Anthropic 指出一个常见失败模式：

“臃肿的工具集，覆盖过多功能或导致使用哪个工具的决策点模糊不清”

判断标准：如果人类工程师无法明确说出在给定情况下应该使用哪个工具，AI 智能体也不能做得更好。

工具设计不当的后果：
├── 工具描述冗长 → 消耗上下文预算
├── 工具边界模糊 → AI 决策困难，产生更多试错对话
├── 工具返回冗余信息 → 上下文快速膨胀
└── 最终：窗口爆满，任务失败

有效上下文工程的核心原则

基于 Anthropic 的实践和我们的落地经验，总结以下原则：

原则 1：分层式信息组织

context/
├── business/
│   └── 活动业务边界.md        ← 概要层（意图识别时加载）
├── tech/
│   └── Apollo配置规范.md      ← 技术层（方案设计时加载）
└── experience/
    ├── 商品发放历史问题.md    ← 经验层（实施前加载）
    └── 雅典娜配置注意事项.md  ← 详细层（配置时加载）

原则 2：”即时”上下文策略（Just-in-Time Context）

不是预先加载所有可能相关的信息，而是维护轻量级索引，在运行时动态加载：

传统方式（预加载）：
启动 → 加载所有相关文档（20000 tokens）→ 开始工作 → 窗口已满一半

即时策略：
启动 → 加载索引文件（500 tokens）→ 识别当前阶段 → 按需加载（3000 tokens）
                                                    ↓
                                          窗口保持精简，信息高度相关

Claude Code 的实践：使用 glob 和 grep 等原语允许即时导航和检索文件，而不是预先加载完整数据对象到上下文中。

原则 3：上下文压缩与笔记系统

对于长时间运行的任务：

压缩（Compaction）：
├── 将接近上下文窗口限制的对话内容总结
├── 保留：架构决策、未解决的 bug、实现细节
├── 丢弃：冗余的工具输出或消息
└── 用摘要重新初始化新的上下文窗口

结构化笔记（Structured Note-taking）：
├── 智能体定期将笔记写入上下文窗口外的持久化存储
├── 稍后根据需要拉回上下文窗口
└── 实现跨压缩步骤的连贯性

原则 4：工具设计的上下文效率

好的工具设计：
├── 自包含：不依赖"记住"之前的对话
├── 返回精简：只返回 token 高效的必要信息
├── 边界清晰：用途明确，减少决策成本
└── 发挥模型优势：利用模型擅长的能力

坏的工具设计：
├── 返回完整数据库查询结果（可能数千行）
├── 工具描述长达数百 token
├── 多个工具功能重叠，边界模糊
└── 强迫模型做它不擅长的事情

上下文工程与 AI 工程化的关系

理解了上下文工程，就能理解 AI 工程化架构设计的”为什么”：

AI 工程化设计	上下文工程原理
context/ 分层目录	分层式信息组织，按阶段按需加载
Skill 封装固定流程	稳定执行过程，避免提示词遗漏导致的上下文不完整
Subagent 架构	主 Agent 保持精简，子任务独立窗口
状态文件传递	不依赖”记忆”，依赖结构化状态
经验沉淀机制	将知识编码为可检索上下文，而非依赖人脑

本质规律：

1
2
3

AI 的决策质量 ∝ 可用信息的完整性 × 信息的信噪比
                        ↑                    ↑
                   不是越多越好          高信号、低噪声才有效

这意味着：

与其让人在 review 时逐步想起遗漏告诉 AI
不如建立系统化的上下文管理，让 AI 自动获取精简且高信号的信息

实践：AI 工程化的设计与落地

AI 工程化是什么

经过反复思考和实践，我提炼出了 AI 工程化的定义：

智能化管理工作信息，以上下文工程的理解管理整个工作场景，借助AI的能力，降低人对已识别问题的处理成本

组成部分：

1. 脚手架（Git 仓库形式）

把规范转为基础的目录结构
附带基础的初始化命令
存放业务线的上下文信息（业务背景、技术背景等）
随项目独立迭代的资源文件

2. 工具包（插件形式）

提供 AI 工程需要的 cmd、skill、mcp、agent、hook 等
在插件市场迭代，分版本管理
update 即可升级最新的规范、能力集成

为什么分脚手架和工具包？

插件市场内容会迭代、分版本，需要灵活升级
脚手架项目初始化后，随项目迭代，是独立的 git 仓库
脚手架适合存放基础资源文件和业务上下文信息
工具包适合封装通用能力和规范

核心架构：Agent + Skill 分层设计

用户输入 → Command → Agent（决策层）→ Skill（执行层）
                         ↓
                    意图识别、流程路由
                         ↓
                    调用具体 Skill 执行

Agent：自主决策层，负责意图识别、流程路由、上下文管理
Skill：过程执行层，负责固定流程任务的具体执行
Command：用户交互入口，通过 Agent 路由到具体执行

当前系统设计：

5 个 Agents：phase-router、requirement-manager、design-manager、implementation-executor、experience-depositor
12 个 Skills：req-create、req-change、experience-index、design-create、design-change、workspace-setup、design-implementation、code-commit、requirement-completer、requirement-archiver、meta-maintainer、index-manager
2 个 Commands：/req-dev（需求研发统一入口）、/optimize-flow（流程优化沉淀）

目录结构：位置即语义

your-project/
├── AGENTS.md              # 项目记忆入口（每次会话自动加载）
├── .codebuddy/            # AI 自动化配置
│   ├── agents/            # Agent 定义（决策层）
│   ├── commands/          # 命令入口
│   └── skills/            # Skill 定义（执行层）
├── context/               # 项目知识库（长期记忆）
│   ├── business/          # 业务领域知识
│   ├── tech/              # 技术背景
│   │   └── services/      # 服务分析文档
│   └── experience/        # 历史经验
├── requirements/          # 需求管理
│   ├── INDEX.md           # 需求索引
│   ├── in-progress/       # 进行中需求
│   └── completed/         # 已完成需求
└── workspace/             # 代码工作区（Git 忽略）

三个核心约束：

入口短小：AGENTS.md 只放通用规范 + 目录指针，不写具体流程步骤
位置即语义：requirements/ 放需求产物，context/ 放可复用上下文，workspace/ 放代码
复利沉淀：每次执行命令，除了产出当前结果，还要让”下一次更快、更稳”

经验沉淀的技术实现

前面 4.1 节讲了复合工程的理念和三层沉淀机制，这里聚焦具体怎么实现。

触发时机：什么时候沉淀？

不是：做完需求后专门花时间"写总结"
而是：在流程关键节点自动触发沉淀

具体触发点：
├── 需求完成时 → requirement-completer skill 自动提取可复用经验
├── 遇到问题解决后 → 用户说"记住这个坑" → experience-depositor agent 记录
├── 代码提交时 → code-commit skill 检查是否有值得记录的模式
└── 流程优化时 → /optimize-flow 命令专门用于沉淀和优化

沉淀格式：记录什么？

# context/experience/商品发放-钱包选择问题.md

## 问题描述
商品发放时选错钱包类型，导致用户领取失败

## 触发条件
- 需求涉及商品发放
- 商品类型为虚拟商品

## 解决方案
虚拟商品必须发到虚拟钱包，实物商品发到实物钱包
具体判断逻辑见 Apollo 配置：xxx.wallet.type

## 校验方式
检查 goods_type 与 wallet_type 的匹配关系

## 关联文档
- context/tech/Apollo配置规范.md
- context/tech/services/商品服务技术总结.md

检索机制：怎么在对的时候加载？

检索由 experience-index Skill 统一负责，在需求分析、方案设计、代码编写前自动调用：

Agent 的上下文加载逻辑：

1. 意图识别阶段
   phase-router 识别意图，路由到对应 Agent
        ↓
2. 经验检索阶段
   Agent 调用 experience-index Skill，传入场景描述
   Skill 检索四类规则文件：
   ├── context-rules.md  → 匹配需加载的背景文档
   ├── risk-rules.md     → 匹配风险提示
   ├── service-rules.md  → 匹配服务依赖建议
   └── pattern-rules.md  → 匹配代码规范
        ↓
3. 返回结构化结果
   {
     "context": { "files": ["商品发放历史问题.md"] },
     "risk": { "alerts": [{"level": "high", "message": "注意钱包类型"}] },
     "service": { "suggestions": ["商品服务", "钱包服务"] },
     "pattern": { "files": ["error-handling.md"] }
   }
        ↓
4. Agent 主动提醒
   "注意：历史上商品发放有钱包选择问题，请确认..."

规则沉淀入口：通过 /optimize-flow 命令，调用 experience-depositor Agent 将新规则写入对应规则文件。

演进路径：从文档到 Skill 到 Command

阶段 1：纯文档（被动）
context/experience/xxx.md
→ AI 读取后提醒，但需要人确认

阶段 2：校验 Skill（半自动）
skill/product-distribution-validator
→ 自动校验配置，发现问题直接报错

阶段 3：完整 Command（全自动）
cmd/implement-product-distribution
→ 一个命令：加载背景 + 校验 + 生成 + 提醒 + 沉淀新经验

演进判断标准：
- 同类需求做了 5 次以上 → 考虑封装 Skill
- Skill 被调用 10 次以上 → 考虑封装 Command
- 不要过早抽象，让实践驱动演进

与 speckit 的本质区别

speckit 的知识流向：
人脑 → Spec 文档 → 代码
      ↑__________|
      下次还要从人脑开始

AI 工程化的知识流向：
人脑 → context/ → Skill → Command
         ↑_________|________|
         知识留在工具链里，下次直接复用

时间成本的量化对比

前面 2.5 节从”问题-方案”角度做了概念对比，这里从时间成本角度量化差异：

执行次数	speckit/openspec	AI 工程化	累计节省
第 1 次	45 分钟	45 分钟（建立 context/）	0
第 2 次	45 分钟（人重新想）	15 分钟（部分复用）	30 分钟
第 5 次	45 分钟（还是要想）	5 分钟（大量复用）	130 分钟
第 10 次	45 分钟（…）	3 分钟（高度自动化）	315 分钟

关键差异：

知识位置：speckit 在人脑（每次想），AI 工程化在 context/+skill/
新人上手：speckit 依赖老人传授，AI 工程化第一天就能用
边际成本：speckit 恒定，AI 工程化递减

深度对比：为什么传统 SDD 工具不够用

前面 2.5 节从”问题-方案”角度概述了 AI 工程化的优势，本节深入分析 speckit 和 openspec 的技术设计缺陷，帮助理解为什么需要新的解决方案。

speckit 的核心缺陷

问题 1：流程过于理想化

speckit 的 Constitution → Specify → Plan → Tasks → Implement 流程假设：

需求是清晰的
可以一次性规划
按阶段线性推进

但企业真实场景是：

需求动态变化
多方并行博弈
持续扯皮调整

问题 2：无法处理”考古”需求

speckit 从零开始定义，但真实开发必须”考古”：

历史坑点在哪？
现有能力有哪些？
配置规范是什么？

问题 3：知识不会沉淀

1
2
3

每次执行：Constitution → Specify → Plan → Tasks → Implement
                                                    ↓
                                              每次从头开始

缺失机制：

❌ 实施过程中发现的坑不会被记录
❌ 排查信息丢失
❌ 下次遇到类似问题还得重新排查

问题 4：宪章系统的僵化

9 条不可变原则固然保证质量，但：

✅ 适合标准化项目（Demo、开源库）
❌ 不适合企业定制场景（历史债务、框架限制、合规要求）

openspec 的核心缺陷

问题 1：Delta 机制的理论美好与现实骨感

假设需求可以”提案化”，但企业真实场景是多线并行、动态调整、持续扯皮。

问题 2：Fail-Fast 的代价

理论上保证一致性，实际上成为阻塞点。人的认知窗口有限，很难手动解决复杂冲突。

问题 3：强依赖命名的脆弱性

产品、运营、研发对同一个需求有不同表述，命名不一致导致归档失败。

问题 4：Archive 只是”合并”，不是”学习”

F(CurrentSpec, DeltaSpec) → NewSpec

缺失的维度：
F(CurrentSpec, DeltaSpec, Context, Lessons) → NewSpec + Knowledge
                           ↑          ↑
                     实施上下文    经验教训

共性问题：忽视人的现实工作模式

问题 1：忽视认知负担管理

两个工具都假设人能理解并遵循复杂流程、维护大量结构化文档、记住所有规范和约束。

但现实是：土办法最管用。工具应该适配人的工作模式，而不是强行改变它。

问题 2：忽视”执行过程”的价值

只关注”规范”和”结果”，忽视”过程”中的知识价值。

问题 3：忽视复利效应的关键性

传统工具：帮你"做事"
复合工程：帮你"越做越快"

传统工具：每次都是新的开始
AI 工程化：每次都站在上次的肩膀上

问题 4：Spec 详细程度的悖论

规范驱动开发有一个根本性的矛盾：

1 2	Spec 越详细 → 越接近代码本身 → 维护两份"代码" Spec 越简略 → 越难指导 AI → 失去规范的意义

详细 Spec 的问题：

当 Spec 详细到可以精确指导 AI 生成代码时，它本身就变成了另一种形式的”代码”
你需要同时维护 Spec 和 Code 两套产物，且要保持同步
代码改了 Spec 要改，Spec 改了代码要改——双倍维护成本

AI 工程化的解法：不追求详细 Spec，而是分层概要 + 代码指针

AI 工程化的上下文组织：
├── 服务概要：这个服务做什么、边界在哪
├── 业务概要：核心业务流程、关键概念
├── 模块概要：模块职责、依赖关系
├── 接口概要：对外接口、调用方式
└── 代码指针：具体细节在 xxx/xxx.go 的 xxx 函数

不维护：
├── ❌ 详细的数据结构定义（代码里有）
├── ❌ 完整的接口参数说明（代码里有）
├── ❌ 具体的实现逻辑描述（代码里有）
└── ❌ 任何可以从代码直接获取的信息

核心原则：概要层帮助 AI 快速定位，细节层直接读代码。避免维护一份”像代码一样详细的 Spec 文档”——那只是换了个格式的代码，没有降低复杂度，反而增加了同步成本。

进阶能力：插件、Skill、MCP 的融合

对于大多数研发同学来说，可能还停留在 speckit、openspec 这类规范驱动工具的认知上。但 AI 工程化把更多能力融合在了一起：

Skill：可复用的能力单元

Skill 是过程执行层的基本单元，每个 Skill 负责一个具体的固定流程任务：

.codebuddy/skills/
├── req-create/            # 需求创建
│   ├── SKILL.md          # 技能定义
│   └── templates/        # 模板资源
├── design-create/         # 方案创建
├── workspace-setup/       # 环境搭建
└── code-commit/           # 代码提交

Skill 的特点：

单一职责：每个 Skill 只做一件事
可复用：多个流程可以调用同一个 Skill
可组合：复杂流程由多个 Skill 组合完成
可演进：Skill 可以独立升级，不影响其他部分

Agent：自主决策层

Agent 负责意图识别、流程路由、上下文管理：

.codebuddy/agents/
├── phase-router.md        # 阶段路由，意图识别
├── requirement-manager.md # 需求全生命周期管理
├── design-manager.md      # 方案全生命周期管理
├── implementation-executor.md # 开发实施执行
└── experience-depositor.md    # 经验沉淀（独立上下文）

Agent 与 Skill 的分工：

Agent：决定”做什么”
Skill：执行”怎么做”

多 Agent 协作：从上下文窗口爆满到高效分工

在实践 AI 工程化的过程中，我们遇到了一个关键瓶颈：上下文窗口爆满。

问题的根源

早期使用 speckit 等工具时，最痛苦的体验是：

执行复杂需求时：
├── 加载业务背景（5000 tokens）
├── 加载技术上下文（8000 tokens）
├── 加载历史经验（3000 tokens）
├── 当前对话记录（持续增长）
└── ...
        ↓
窗口频繁爆满 → 强制截断 → 丢失关键上下文 → AI 行为异常

Anthropic 工程团队精准描述了这个问题：

“想象一个软件项目由轮班工程师负责，每个新工程师到来时对上一班发生的事情毫无记忆。”

解决方案：Subagent 架构

借鉴 Anthropic 的双 Agent 架构思想，我们设计了 主 Agent + Subagent 的协作模式：

传统模式（单一 Agent）：
用户输入 → 一个大 Agent 处理所有事情 → 上下文持续膨胀 → 窗口爆满 → 任务失败

Subagent 模式：
用户输入 → 主 Agent（决策层）
              ↓
    意图识别 + 任务拆分
              ↓
    ┌─────────┼─────────┐
    ↓         ↓         ↓
Subagent1  Subagent2  Subagent3
(独立窗口)  (独立窗口)  (独立窗口)
    └─────────┼─────────┘
              ↓
    结果汇总 → 主 Agent 继续

核心优势：

特性	说明
独立上下文窗口	每个 Subagent 有自己的上下文空间，不会互相污染
专注单一任务	每个 Subagent 只处理一件事，认知负担小
并行执行	多个 Subagent 可以同时工作，提升效率
结构化状态传递	通过文件传递结果，而非依赖”记忆”

效果对比

指标	单 Agent 模式	Subagent 模式
窗口爆满频率	70%（复杂需求几乎必爆）	5%（偶发于极端场景）
任务完成率	60%（经常中途失败）	95%（可靠完成）
上下文利用效率	30%（大量冗余信息）	80%（按需加载）

状态传递机制

Subagent 之间不共享上下文窗口，通过结构化状态文件保证信息传递：

核心文件：
├── requirements/INDEX.md      # 需求状态索引
├── requirements/in-progress/  # 进行中的需求详情
└── context/session/           # 会话级临时上下文

工作流程：
1. Subagent 启动时：读取状态文件，快速理解当前状态
2. Subagent 执行中：专注自己的任务
3. Subagent 结束时：更新状态文件，提交"干净的交接"

核心原则：每个 Subagent 只完成一个”原子任务”，不是一个工程师连续工作 48 小时，而是轮班工程师每人 4 小时但交接清晰。

与 speckit 的本质差异

speckit：依赖"一个 Agent 记住所有事情"
         Constitution → Specify → Plan → Tasks → Implement
         上下文持续累积，到 Implement 阶段时窗口已经很满

Subagent：依赖"结构化的状态传递"
         每个阶段独立的 Subagent，独立的上下文窗口
         状态通过文件传递，而非上下文累积

前者是人脑模型（记忆有限），后者是团队协作模型（交接清晰）。

MCP：外部系统集成

MCP（Model Context Protocol）让 AI 能够直接对接外部系统：

基础集成：
├── TAPD MCP（需求管理）
│   ├── 自动获取需求详情
│   ├── 关联相关需求
│   └── 更新需求状态
├── 工蜂 MCP（代码管理）
│   ├── 自动创建分支
│   ├── 提交代码变更
│   └── 创建合并请求
└── iWiki MCP（知识管理）
    ├── 检索历史技术方案
    ├── 获取业务背景文档
    └── 关联团队知识库

MCP 的价值：

自动化操作：不需要人手动操作 TAPD、工蜂、iWiki
信息同步：AI 自动获取最新信息
减少错误：避免手动操作的遗漏和错误

插件市场：能力的分发与升级

工具包以插件形式发布到插件市场：

版本管理：每个版本独立，可回滚
灵活升级：update 即可获得最新能力
团队共享：团队成员共享同一套能力集

与脚手架的配合：

脚手架存放业务上下文（随项目迭代）
工具包提供通用能力（独立版本管理）

落地策略：从零到一的实践路径

前面各节从理论角度阐述了 AI 工程化的设计，本节聚焦具体怎么落地。以 2.5 节提到的”商品发放”场景为例，展示完整的实践路径。

冷启动：新项目接入

冷启动是 AI 工程化的核心优势之一。传统工具的知识在人脑，需要传授；AI 工程化的知识在工具链里，开箱即用。

步骤 1：安装 AgentProjectKit 插件（5 分钟）

首先需要添加插件市场并安装 AgentProjectKit：

# 安装 AgentProjectKit 插件
/plugin install agent-project-kit@tmap-codebuddy-plugin

# 验证安装
/plugin list

步骤 2：脚手架初始化（15 分钟）

1 2	# 初始化 AI 工程项目 /agent-project-kit:init-project

命令会自动完成：

克隆 AI 工程项目模板
引导配置项目基本信息（业务线名称、定位等）
初始化 AGENTS.md 项目记忆文件

步骤 3：加载服务上下文（30 分钟）

这是冷启动的关键步骤。/agent-project-kit:load-service 命令实现项目级别长期记忆初始化：

# 加载相关服务，生成技术总结
/agent-project-kit:load-service 
/agent-project-kit:load-service 
/agent-project-kit:load-service

/agent-project-kit:load-service 的工作流程：

用户执行 /agent-project-kit:load-service 
                ↓
1. 克隆服务代码到 workspace/loadservice/ 目录
                ↓
2. 分析服务架构、业务逻辑、API 接口：
   - 业务定位、核心职责、技术栈
   - 依赖关系、对外接口、数据模型
   - 关键模块、配置要点、常见坑点
                ↓
3. 生成技术文档到 context/tech/services/ 目录
                ↓
结果：AI 获得该服务的完整上下文，后续任何涉及该服务的需求
      都会自动加载这份上下文

为什么这很重要？

speckit/openspec：每次需要描述服务背景时，依赖人记住并手动描述
AI 工程化：一次 /agent-project-kit:load-service，永久复用，新成员也能立即获得”老兵视角”

步骤 4：开始需求研发

使用 /req-dev 命令开始你的第一个需求：

# 创建新需求
/req-dev 实现用户认证功能

# 或者指定已有需求继续工作
/req-dev REQ-001

工具包自带常用研发工具集成（MCP），开箱即用：

MCP 集成	功能	传统方式
TAPD MCP	自动获取需求详情、关联需求、更新状态	手动复制粘贴需求内容
工蜂 MCP	自动创建分支、提交代码、创建 MR	手动操作 Git 命令
iWiki MCP	检索历史技术方案、业务背景文档、团队知识库	手动搜索翻阅 Wiki 页面

MCP 集成的价值：

不是”又多了几个工具要学”，而是”AI 自动帮你操作这些系统”
需求来了 → AI 自动从 TAPD 拉取详情 → 自动检索 iWiki 历史方案 → 自动生成方案
人只需要 review 和确认

冷启动效果对比：

阶段	speckit/openspec	AI 工程化
学习工具	1-2 小时	5 分钟（插件安装）
初始化项目	手动搭建	15 分钟（/agent-project-kit:init-project）
了解服务架构	2-4 小时（需老人讲解）	30 分钟（/agent-project-kit:load-service 自动分析）
准备总计	4-7 小时	50 分钟
首次工作质量	不稳定（依赖记忆和传授）	稳定（context/ 提供完整信息）

关键差异：

speckit/openspec：工具是”空壳”，知识在人脑，需要传授
AI 工程化：工具包含”知识”（context/+MCP），新人第一天就能高质量工作

持续迭代：知识的复利沉淀

第 1 个需求：建立 context/

需求：实现 12 月活动的商品发放

执行过程中发现问题：
- Apollo 配置有特殊格式要求
- 雅典娜 20 种商品类型，配置方式各不同
- 钱包选择要区分虚拟/实物
- 敏感 接口有合规要求

知识沉淀：
人："@agent，记住这些坑"
    ↓
自动生成/更新 context/:
├── context/tech/Apollo配置规范.md
├── context/experience/雅典娜配置注意事项.md
├── context/experience/商品发放历史问题.md
└── context/business/跨团队协作.md

耗时：45 分钟（首次建立）

第 2 个需求：复用 context/

需求：实现春节活动的商品发放（类似场景）

AI 自动加载 context/，自动提醒历史坑点
人 review："嗯，都考虑到了" ✓

新发现：春节活动需要限制地域
    ↓
"@agent，记住地域限制"
    ↓
context/ 自动更新

耗时：15 分钟（大量复用，少量新增）

第 6-10 个需求：封装为 skill

当 context/ 足够完善，封装为能力层：

skill/product-distribution-helper:
- 自动加载所有商品发放相关 context/
- 自动校验 Apollo 配置格式
- 自动检查雅典娜商品类型
- 自动提醒钱包选择、地域限制
- 自动生成监控配置

使用：/implement-product-distribution → 一键完成

耗时：3 分钟（高度自动化）

团队协作：知识的共享与传承

新成员第一天：

speckit/openspec：
1. 学习工具用法（1-2 小时）
2. 了解服务架构（需老人讲解，2-4 小时）
3. 熟悉流程规范（1 小时）
4. 开始工作：依赖记忆和老人传授，首次质量不稳定
总计：4-7 小时准备 + 不稳定的首次质量

AI 工程化：
1. 脚手架初始化（15 分钟）
2. 工具包安装（5 分钟）
3. 立即开始工作：
   - context/ 提供服务上下文
   - MCP 自动集成 TAPD/工蜂/Apollo
   - cmd/skill 引导完成任务
   - 首次就能高质量完成
总计：20 分钟准备 + 稳定的首次质量

团队效应：

5 人团队，各做 2 次商品发放：

speckit：5 人 × 2 次 × 45 分钟 = 450 分钟

AI 工程化：
第 1 人第 1 次：45 分钟 → context/ 建立
第 1 人第 2 次：15 分钟
第 2 人第 1 次：15 分钟（复用第 1 人 context/）
第 2 人第 2 次：10 分钟
...
第 5 人第 2 次：5 分钟

总计：126 分钟
节省：450 - 126 = 324 分钟（72%）

未来展望：工具终将消失

第 4.2 节讨论了极简主义如何影响当前设计，本节从行业发展趋势角度展望工具的演进方向。

模型吞噬脚手架

随着模型能力的提升，很多外部辅助会被模型内化：

Opus 4.1 需要的东西，Sonnet 4.5 已经内化了
    ↓
系统提示可以删 2000 个 tokens
    ↓
工具每周都在变简单

这意味着什么？ 今天我们在 context/、Skill、Agent 中编码的知识和流程，未来可能直接被模型”学会”。AI 工程化的架构设计需要为这种迁移做好准备——当某个 Skill 不再需要时，能够平滑删除而不影响整体。

多 Agent 架构的演进方向

从”工具调用”到”团队协作”

当前的 AI 辅助编程主要是”人调用 AI”模式：

1	人 → 发指令 → AI 执行 → 人检查 → 人发下一个指令

Subagent 架构开启了新的可能：

1	人 → 设定目标 → 主 Agent 拆解 → 多个 Subagent 协作 → 主 Agent 汇总 → 人验收

未来可能演进为：

1	人 → 设定目标 → Agent 团队自主协作数小时/数天 → 人验收最终结果

长时间运行 Agent 的关键挑战

Anthropic 的实践揭示了几个核心挑战：

挑战	当前解法	未来方向
上下文窗口限制	Subagent 分解 + 状态文件传递	更高效的 compaction + 更智能的上下文选择
任务连续性	结构化状态文件（JSON/Markdown）	更丰富的”工作记忆”机制
质量保证	端到端测试 + 人工 Review	专门的 QA Agent + 自动化验收
错误恢复	状态文件支持断点续做	更智能的错误分析和自动修复

Agent 专门化 vs 通用化的权衡

一个开放问题：应该用一个强大的通用 Agent，还是多个专门化的 Agent？

通用 Agent 路线：
├── 优势：简单，不需要协调
├── 劣势：上下文负担重，需要"知道所有事情"
└── 适合：简单任务、短时间任务

专门化 Agent 路线：
├── 优势：每个 Agent 更专精，上下文更精简
├── 劣势：需要协调机制，状态传递成本
└── 适合：复杂任务、长时间任务、团队协作场景

我们的选择：对于企业级复杂场景，专门化 Agent 更适合。原因是：

企业场景本身就是”团队协作”，Agent 架构应该反映这一现实
上下文窗口是硬约束，专门化可以更高效利用
专门化 Agent 更容易独立迭代和优化

与人类团队的类比

最好的 Agent 架构设计，灵感来自人类高效团队的工作方式：

人类团队：
├── 产品经理：理解需求、拆解任务
├── 技术 Leader：设计方案、分配工作
├── 开发工程师：实现功能
├── 测试工程师：验证质量
└── 每个人有自己的专业领域，通过"会议"和"文档"协调

Agent 团队：
├── phase-router：理解意图、路由任务
├── design-manager：设计方案
├── implementation-executor：实现功能
├── test-agent（计划中）：验证质量
└── 每个 Agent 有自己的专业 Prompt，通过"状态文件"协调

Anthropic 工程团队的洞察：”这些实践的灵感来自于了解高效软件工程师每天做什么。”

当前范式：Claude 做一步，你检查，批准，它继续。

未来范式：

当模型可以自主工作几天甚至几周：
早上："我想完成 X"
晚上：看结果

中间的过程？它自己处理。

人的角色从”操作者”变成”监督者”，从”指令发出者”变成”目标设定者”。

AI 工程化的定位：在这个转型过程中，AI 工程化是”过渡期基础设施”——帮助团队在当前阶段高效工作，同时为未来的全自动化积累知识和经验。

研发工作的本质变化

AI 工程化不只是引入新工具，而是重新定义了研发的工作方式。这种变化已经在 AI 技术最前沿的团队中发生。

首先要避免的认知误区

工程师在使用 AI 时最常见的两种误解：

误区	表现	结果
AI 是”银弹”	期望 AI 自动理解需求、写出完美代码	过度依赖，缺乏监督，质量不稳定
AI 是”思考替代品”	把 AI 当作可以替代人类思考的工具	不理解业务，一直捣鼓 AI，适得其反

正确的定位是：AI 是强大的执行工具，但决策权和判断力必须留在人手中。

来自 OpenAI 与 Anthropic 的实践经验

理解 AI 的真实能力边界

参考 OpenAI 团队使用 Codex 构建 Sora 安卓应用的经验，将 AI 定位为**”一位新入职的资深工程师”**：

需要人类指导	表现卓越
无法推断隐性上下文（团队偏好、内部规范）	快速理解大型代码库，精通主流编程语言
缺乏真实用户体感（无法感知”滚动不顺畅”）	热衷于编写单元测试，能根据 CI 日志修复问题
深层架构判断力不足（本能是”让功能跑起来”）	支持大规模并行，同时探索多种方案

三步协作工作流（借鉴 OpenAI 与 Anthropic 经验）：

阶段	人的职责	AI 的职责
奠定基石	定义架构、编写范例代码、设定标准	学习并遵循
共同规划	校准理解、确认方案	总结现状、生成设计文档
执行交付	架构把关、质量审查	编码实现、测试修复

Anthropic 内部调查数据（2025年8月，132名工程师，20万条使用记录）：

工程师在 60% 的工作中使用 AI，实现 50% 的生产力提升，年同比增长 2-3 倍
27% 的 AI 辅助工作是原本不会完成的任务（如交互式仪表板、探索性工作）
工程师倾向于委托易于验证、定义明确、代码质量不关键、重复无聊的任务

“我可以非常胜任前端、事务性数据库的工作…而以前我会害怕触碰这些东西。” —— 后端工程师
“我以为我真的很享受编写代码，但实际上我只是享受编写代码带来的结果。” —— 高级工程师

核心理念：寻找 AI 的”舒适区”

工程师的核心工作之一，已经从纯粹的编码转变为识别 AI 的能力边界，并将复杂任务转化为落入 AI “舒适区”内的子任务：

低标准、高容错场景：任务对精确度要求不高，容忍多次失败。AI 尝试 N 次只要一次成功，就是显著提效
迭代式开发场景：形成”AI 初步实现 → 人验证修正 → 快速反馈”的闭环，不追求一次完美

工作模式的具体变化

工作内容的迁移：

工作环节	传统模式	AI 工程化模式	角色变化
需求理解	反复阅读文档、追问产品	Agent 自动加载 context/，主动提示	信息收集者 → 信息确认者
方案设计	从零构思、翻阅历史代码	基于模板生成，AI 提示已知风险	方案起草者 → 方案审核者
代码实现	逐行编写、查文档、调试	AI 生成初版，人 review 调整	代码生产者 → 代码把关者
知识沉淀	写文档（经常忘记）	/optimize-flow 即时沉淀	文档维护者 → 经验触发者

时间分配的重构：

传统研发：                         AI 工程化后：
├── 40% 信息收集                   ├── 10% 信息确认
├── 30% 重复劳动                   ├── 10% 结果审核  
├── 20% 核心决策        →          ├── 50% 核心决策
└── 10% 知识沉淀                   └── 30% 知识沉淀

一个具体的对比——以”商品发放需求”为例：

传统模式的一天：                              AI 工程化模式的一天：
09:00-10:30 阅读需求文档，追问产品            09:00-09:30 /req-dev，确认需求边界
10:30-12:00 翻阅历史代码，理解逻辑            09:30-10:30 review AI 方案，调整决策点
14:00-15:30 询问老人"以前怎么做"              10:30-12:00 review AI 代码，优化核心逻辑
15:30-18:00 写代码，边写边查文档              14:00-15:00 AI 辅助测试，修复问题
18:00-19:00 遇到配置问题，排查                15:00-15:30 /optimize-flow 沉淀经验
19:00-20:00 继续写代码                       15:30-17:00 处理下一个需求
产出：完成 60%，知识留在脑子里                产出：完成 100%，经验沉淀到 context/

能力要求的升级

能力维度	传统要求	AI 工程化要求
编码能力	熟练编写各类代码	能判断 AI 生成代码的质量和风险
知识储备	记住各种细节和坑点	知道如何组织知识让 AI 能用
问题解决	自己动手排查	会描述问题让 AI 辅助分析
效率提升	写更多代码、加更多班	设计更好的 Skill、沉淀更多经验

新的核心竞争力体现为三种能力：

系统理解能力：AI 能实现功能，但只有人能判断它是否以正确方式融入系统
AI 协作能力：设计上下文、拆解计划、通过反馈循环持续优化
设计质量标准：当”写出能工作的代码”门槛降低，架构设计和交付质量成为区分标准

监督悖论：有效使用 AI 需要监督能力，而监督能力可能因过度依赖 AI 而退化。Anthropic 的一些工程师故意在没有 AI 的情况下练习以”保持敏锐”。

本质洞察

黄仁勋有一个精准的判断：**AI 改变的是”任务”，而非”职业”**。

被 AI 接管的任务：信息检索、样板代码、格式化、重复配置
人依然主导的核心：系统设计、架构决策、质量判断、创新突破

AI 工程化的价值，就是让这种”任务迁移”在团队中系统化落地——通过 context/ 让信息检索自动化，通过 Skill 让重复流程标准化，通过经验沉淀让知识持续复利。

最终目标：让研发把时间花在”只有人能做的事”上，而不是”AI 也能做的事”上。

工具隐形化：从”使用工具”到”完成工作”

工具消失的含义：不是工具不存在了，而是工具变得如此无缝，你感受不到它的存在。

1 2	就像现在你用搜索引擎，不会想"我在使用一个信息检索系统"。你只是在找答案。工具隐形了。

隐形化的三个层次

层次一：操作隐形——从”记住命令”到”表达意图”

过去：记住 20 个命令，选择正确的那个
├── /speckit.constitution
├── /speckit.specify  
├── /speckit.plan
├── /speckit.tasks
└── ...

现在：只说你要什么
├── "/req-dev 实现商品发放" → Agent 自动判断是创建还是继续
└── 不需要知道底层调用了哪些 Skill

层次二：知识隐形——从”想起经验”到”系统提醒”

过去：做需求时，人要想起历史上有什么坑
├── "上次商品发放好像有个钱包问题..."
├── "Apollo 配置格式是什么来着..."
└── 认知负担在人身上

现在：experience-index 自动检索，主动提醒
├── "检测到商品发放场景，已加载相关经验..."
├── "风险提示：注意钱包类型匹配"
└── 知识在系统里，人只需确认

层次三：流程隐形——从”遵循步骤”到”自然完成”

过去：严格按 Constitution → Specify → Plan → Tasks → Implement 执行
├── 人要知道"现在该执行哪个阶段"
├── 人要判断"前置条件是否满足"
└── 流程感知在人身上

现在：Agent 自主决策流程路由
├── 人说"继续做 REQ-001"
├── phase-router 自动判断当前阶段和下一步
└── 人感受到的是"工作在推进"，而非"在执行流程"

AI 工程化的隐形化进度

维度	当前状态	目标状态
命令入口	✅ 2 个命令覆盖全流程	自然语言直接触发
上下文加载	✅ experience-index 自动检索	完全无感知加载
阶段流转	✅ phase-router 自动路由	Agent 自主推进多步
经验沉淀	🔄 需要 /optimize-flow 触发	自动识别并沉淀
跨会话连续性	🔄 依赖状态文件	无缝断点续做

隐形化的终极形态

今天：
人："我要做一个商品发放需求"
AI：执行一步，等待确认
人：确认，继续
AI：执行下一步，等待确认
...

明天：
人："我要做一个商品发放需求"
AI：分析、设计、实现、测试、提交 PR
人：Review 最终结果

后天：
人：（在 TAPD 创建需求单）
AI：（自动感知、自动完成、自动提交 Review）
人：（只在关键决策点介入）

最后一步：你不再”使用”工具，你只是在思考业务问题，而工具已经把代码写好了。

写在最后：从第一性原理出发

回顾这段历程，我最大的收获是：不要为了用工具而用工具。

speckit 和 openspec 都是优秀的工具，它们定义的流程、模板、检查清单都很有价值。但正如 2.5 节(AI 工程化如何破局)的对比所示，它们解决的是”规范化”问题，而企业真实场景的核心问题是：

上下文缺失：AI 看不到历史经验、业务边界、配置规范
知识不沉淀：每次都从头开始，边际成本恒定
范围太窄：只管单个仓库，无法覆盖跨服务、跨系统的复杂场景

AI 工程化试图解决这些问题：

1
2
3

上下文工程 → 让 AI 自动获取完整信息
复合工程 → 让每次实践都降低下次成本
项目级方案 → 管理所有仓库和外部系统

核心思路：

能够落地的最高效流程 → 已存在于高效的人的行为过程中
              ↓
      把高效流程 AI 化 → 推广到全团队应用
              ↓
  细节流程在具体业务线中迭代 → 自定义探索
              ↓
  实践中发现问题 → 提取可复用信息 → AI 工程化融入工具
                                  ↓
                      下次通用场景使用时可复用

最后想说的是：

AI 工程化不是要替代 speckit 或 openspec，而是在它们的基础上，融合上下文工程、复合工程、插件市场、MCP 集成等能力，形成一套更适合企业复杂场景的解决方案。

如果你也在探索 AI 辅助研发，希望这篇文章能给你一些启发：

从真实工作场景出发，而不是从工具出发
把知识编码进工具，而不是只写文档
追求边际成本递减，而不是固定成本
让工具适配人，而不是让人适配工具

工具的终极形态是消失。在那一天到来之前，我们要做的是让工具越来越”懂”我们的工作，越来越”记得”我们的经验，越来越”自然”地融入我们的日常。

这就是 AI 工程化的意义所在。

参考资料

iOS AI Coding提效探索阶段性小结和思考

2026-01-10T04:14:55.000Z

请输入密码

[转载] 一文吃透AIGC、Agent、MCP的概念和关系

2025-12-31T09:48:29.000Z

Title: 彻底爆了！一文吃透AIGC、Agent、MCP的概念和关系-腾讯云开发者社区-腾讯云

原文地址

导语: 近年来，人工智能领域涌现出许多新概念和新技术，其中AIGC、MCP和 Agent 成为了业界和学术界的热门话题。本文将深入浅出地介绍这三个概念，帮助读者全面理解它们的内涵、区别与联系，以及在实际应用中的价值。

AIGC

AIGC，全称为 AI Generated Content，意为“人工智能生成内容”。它指的是利用人工智能技术（尤其是大模型，如GPT、Stable Diffusion 等）自动生成文本、图片、音频、视频等多种内容的过程。2022 年 11 月 30 日，OpenAI 的 ChatGPT 正式上线（基于 GPT-3.5），引爆了 AIGC 热潮。

多模态技术

单模态： 只处理一种类型的数据，比如只处理文本（如GPT-3.5）、只处理图像（如图像识别模型）。
多模态： 能够同时处理两种及以上类型的数据。例如，既能理解图片内容，又能理解文本描述，甚至还能结合音频、视频等信息进行综合分析和生成。对应的场景有。

场景	主流模型
文生图片	DALL-E(OpenAI)、Imagen(Google)、Stable Diffusion(Stability AI)、混元文生图（腾讯）等
文生视频	Sora(OpenAI)、Stable Video Diffusion(Stability AI)
图生文（图片理解）	GPT-4V(OpenAI)、Gemini(Google)、Qwen-VL（阿里）
图文生视频	Runway Gen-2(Runway AI)、Stable Video Diffusion(Stability AI)
视频生文（视频理解）	Gemini 1.5 / Gemini Pro Vision（Google）

RAG 技术

RAG（Retrieval-Augmented Generation，检索增强生成）技术，是一种将信息检索（IR）与大型语言模型（LLM）的文本生成能力相结合的人工智能框架。其核心思想是：当 LLM 需要回答一个问题或生成文本时，不是仅依赖其内部训练时学到的知识，而是先从一个外部知识库中检索出相关的信息片段，然后将这些检索到的信息与原始问题/指令一起提供给LLM，让LLM基于这些最新、最相关的上下文信息来生成更准确、更可靠、更少幻觉的答案。

大型语言模型虽然拥有海量的知识和强大的语言理解与生成能力，但也存在一些关键限制：

知识局限性/过时性： LLM 的知识主要来源于其训练数据截止日期之前的信息。对于训练数据之后发生的事件、新研究、最新数据或特定领域的细节，LLM 可能不知道或给出过时的信息。
幻觉：当 LLM 遇到其知识库中不明确或不存在的信息时，它可能会“捏造”出看似合理但事实上错误或不存在的答案。
缺乏来源/可验证性： LLM 通常无法提供其生成答案的具体来源依据，使得验证答案的准确性变得困难。
特定领域知识不足：通用 LLM 可能缺乏对某个特定公司、组织或个人私有知识库的深入了解。

RAG 正是为了解决这些问题而诞生的。

智能体 Agent

“智能体”（Agent）在计算机科学和人工智能领域指的是一个能够感知环境、自主决策并采取行动以实现特定目标的实体或系统。 它可以是软件程序、机器人硬件，甚至是生物实体（如人类或动物），但在 AI 领域通常指软件智能体。

Agent 和 AIGC 最大的区别：

AIGC 主要以生成式任务为主，而 Agent 是可以通过自主决策能力完成更多通用任务的智能系统。
常见的 AIGC 系统（文生文，文生图）的核心就是一个生成模型，而 Agent 是一个集Function Call 模型（下文会详细介绍）、软件工程于一体的复杂的系统，需要处理模型和外界的信息交互。
Agent 可以集成 AIGC 能力完成某些特定的任务，也就是 AIGC 可以是 Agent 系统里面的一个子模块。

Agent 最大的特点是，借助Function Call 模型，可以自主决策使用外接的一些工具来完成特定的任务。

Function Call 模型

什么是 Fucntion Call 模型

Function Calling（函数调用） 是大型语言模型的关键技术。前面有提到过RAG技术是为了解决模型无法和外接数据交互的问题，但是RAG的局限在于只赋予了模型检索数据的能力，而Function Calling允许模型理解用户请求中的潜在意图，并自动生成结构化参数来调用外部任何函数/工具，从而突破纯文本生成的限制，实现与真实世界的交互，比如可以调用查天气、发邮件、数学计算等工具。

Function Call 模型最早由 OpenAI 在 2023 年 6 月 13 正式提出并发布，首次在 GPT-4 模型上实现了 Function Calling 能力。OpenAI 作为大语言模型的领路人，其发布的模型的 API 协议都会行业标准，后面国内外新发布模型都会按照 OpenAI 的协议作为标准实现。截止目前，支持 Fucntion Calling 能力的主流模型如下表：

模型	开发者	首次支持 Function Calling 时间
GPT-4	OpenAI	2023/06/13
Claude-3	Anthropic	2024/03/04
Gemini-2.0	Google	2024/12
DeepSeek-R1	深度求索公司	2024/02/12

除了上面的知名度高的模型，还有一些其他开源或闭源模型也支持了 Fucntion Calling 能力，但是截止目前为止，GPT-4 仍然是公认的 Fucntion Calling 能力最强的模型。

工作原理：三步闭环流程

Function Call 模型的工作流程如下图：

步骤详解：

1、定义函数（开发者预设）

向 LLM 描述函数的用途、输入参数格式（JSON Schema），例如：

{
  "name": "get_current_weather",
  "description": "获取指定城市的天气",
  "parameters": {
    "type": "object",
    "properties": {
      "city": {"type": "string", "description": "城市名称"},
      "unit": {"enum": ["celsius", "fahrenheit"]}
    },
    "required": ["city"]
  }
}

name 是工具名称
description 是这个工具的用途
parameters 是这个工具需要的输入参数

2、模型决策与生成参数

用户提问：“北京今天需要带伞吗？”

→ LLM 识别意图需调用 get_current_weather

→ 生成结构化参数：

1	{"city": "北京", "unit": "celsius"}

3、执行函数 & 返回结果

程序调用天气API，获真实数据：{"temp": 25, "rain_prob": 30%}
将结果交回LLM，生成最终回复：“北京今天25°C，降水概率30%，建议带伞。”

核心优势：LLM 的“手和眼睛”

能力	传统LLM	支持Function Calling的LLM
获取实时信息	❌ 依赖训练数据	✅ 调用搜索引擎/数据库
执行精准计算	❌ 常出错（如复杂数学）	✅ 调用计算器/Python
操作外部系统	❌ 无法执行	✅ 发送邮件/控制智能家居
返回结构化数据	❌ 文本难解析	✅ 输出标准JSON

Agent

OpenAI 发布 Function Call 模型后，Agent 才开始发展。而 Agent 真正进入到公众视野，被大家广泛关注的事件是 2025年4月 Manus 发布了通用智能体产品，引入了Computer Use 和 Browser Use，首次展现出智能体的强大能力。

Agent 的工作流程

实际上上文提到的 Function Call 模型的工作流程图，已经算是一个 Agent 的雏形了，不同点是，Agent 完成一次任务，实际上会循环调用模型，可能会调用多次 Function Calling，每次需要调用什么工具，完全由模型决策。一个最简单的 Agent 调用流程图如下：

比如有一个出行规划的智能体，这个智能体配置有天气查询、驾车规划、公共交通规划、骑行规划、步行规划等工具。用户询问“我在深圳，5月1日想去自驾去北京旅行，帮我规划一下出行方案。”，一个可能的具体的执行流程如下：

怎么开发一个自己的 Agent

最简单的方法就是把 Agent 的提示词（prompt）、工具、llm 调用，工具执行都硬编码到代码中，这样确实可以快速开发一个特定功能的 Agent。这样的实现会带来一些问题：

提示词（prompt），工具需要调整的时候，需要改配置或者代码，灵活度不够高；
如果要开发一个新功能的 Agent，整体代码可能需要重新实现一遍。

为了解决这一系列的问题，coze 、dify 、腾讯云智能体开发平台等智能体开发平台相继出现。借助这些平台，开发者甚至不需要会编程，不需要服务器资源，就可以开发一个自己的Agent，Agent 的整个执行流程完全由平台在云上执行。智能体开发平台的架构一般包含插件配置、Agent 配置、Agent 执行模块、插件执行模块，发布模块。

插件配置：所有 Agent 的工具都统一管理起来，而不是散落在各个 Agent 内部，这样可以做到工具的复用。一般平台会自带一些插件，比如网络搜索、文件上传、AIGC 工具等，同时也支持开发者添加自己的自定义插件。
Agent 配置：配置 Agent 的提示词 (prompt)，使用的模型，以及选择插件配置中的一批工具提供给模型做选择。
发布配置：开发者把自己的 Agent 开发调试稳定以后，发布成稳定版本就可以提供给用户使用了。
插件执行：执行某个特定的插件，返回结果。
Agent 执行：实现通用的 Agent 执行流程，调用插件执行模块实现工具调用。

下图是用腾讯云智能体开发平台，开发一个简单的 Agent 配置和实际执行效果图。

Multi-Agent

除了使用智能体开发平台快速开发自己的 Agent 以外，还可以使用 sdk 的方式进行开发。2025 年 3 月 11 日，OpenAI 重磅发布 OpenAI Agent SDK！AI 开发范式彻底颠覆！使用 sdk 可以快速配置一个自定义的 Agent 后执行，相比智能体开发平台，sdk 具有更高的灵活性和自主可控性。

同时，在 OpenAI Agent SDK 中，首次引入了 Mulit Agent 的概念。在此之前，通过智能体开发平台，我们开发出来的 Agent 都只是单 Agent。一个单 Agent 的能力有限，只能解决特定领域的一个任务，而一个复杂任务往往需要执行多个领域的任务才能完成。而 OpenAI Agent SDK 可以让开发者定义多个领域的 Agent，并且给这些 Agent 配置一些转交关系，允许某个 Agent 把特定的任务交给另外一个合适领域的 Agent 来执行，多个 Agent 之间协同和互动来完成一个复杂任务。

在 OpenAI Agent SDK 发布以后，以腾讯云智能体开发平台为代表的相关产品都相继支持了 Multi-Agent 模式。

Agent 的发展

Agent 目前的发展还处于一个较初期的阶段，但是发展速度很快。在一些垂直领域比如代码生成 Cursor / 腾讯云 AI 代码助手 CodeBuddy、广告营销等方向已经有了比较好的落地。而更通用的 Agent 目前除了看到 Manus 落地以外，还没看到其他比较好的应用模式落地。相信随着时间发展，会有越来越好用，越来越通用的 Agent 应用诞生。

MCP

什么是 MCP

MCP（Model Context Protocol，模型上下文协议）是由人工智能公司Anthropic于2024 年 11 月 24 日正式发布并开源的协议标准。Anthropic 公司是由前 OpenAI 核心人员成立的人工智能公司，其发布的 Claude 系列模型是为数较少的可以和 GPT 系列抗衡的模型。

为什么需要 MCP

MCP 协议旨在解决大型语言模型（LLM）与外部数据源、工具间的集成难题，被比喻为“AI应用的USB-C接口“。通过标准化通信协议，将传统的“M×N集成问题”（即多个模型与多个数据源的点对点连接）转化为“M+N模式”，大幅降低开发成本。

在 MCP 协议没有推出之前：

智能体开发平台需要单独的插件配置和插件执行模型，以屏蔽不通工具之间的协议差异，提供统一的接口给 Agent 使用；
开发者如果要增加自定义的工具，需要按照平台规定的 http 协议实现工具。并且不同的平台之间的协议可能不同；
“M×N 问题”：每新增一个工具或模型，需重新开发全套接口，导致开发成本激增、系统脆弱；
功能割裂：AI 模型无法跨工具协作（如同时操作 Excel 和数据库），用户需手动切换平台。

没有标准，整个行业生态很难有大的发展，所以 MCP 作为一种标准的出现，是 AI 发展的必然需求。

总结：MCP 如何重塑 AI 范式：

维度	传统模式	MCP 模式	变革价值
集成成本	每对接新工具需定制开发	一次开发，全网复用	开发效率提升 10 倍
功能范围	单一工具调用	多工具协同执行复杂任务链	AI 从“助手”升级为“执行者”
生态开放性	封闭式 API，厂商锁定	开源协议，社区共建工具库	催生“AI 应用商店”模式
安全可控性	API 密钥暴露风险	数据不离域，权限分级管控	满足企业级合规需求

MCP 的发展情况

MCP 自2024 年 11 月 24 日发布以来，OpenAI、Google、微软、腾讯、阿里、百度等头部企业纷纷接入 MCP，推动其成为事实性行业标准。并且相继出现了 mcp.so 、mcpmarket 等超大体量的 MCP 服务提供商。国内的头部企业也相继加入 MCP 服务商的竞争中。在如此庞大的 MCP 市场下，开发者基本不需要开发自己的插件，直接使用 MCP 服务商的插件就可以直接开发大量 Agent。

同时很多头部企业，开始把自身原有的 API 业务开发成封装成 MCP 服务对外提供。比如：

GitHub Copilot 提供 MCP 的方式生成代码；
AWS 2025 年 6月推出开源工具 Amazon Serverless MCP Server，支持 Agent 直接操作云上资源，进行服务编排。
腾讯地图、高德地图、百度地图均发布 MCP Server，支持在 Agent 中使用丰富的地图资源。
腾讯云COS、百度网盘均已支持 MCP 协议的接入。

未来趋势：

与 AIOS 融合： MCP 正成为 AI 操作系统（如华为鸿蒙 HMAF）的核心组件，实现跨设备智能调度；
生态挑战： 大厂通过 MCP 构建“闭环生态”（如阿里集成高德地图），可能引发协议割裂，需推动跨平台协作标准。

MCP 不仅是技术协议，更是AI 生产力革命的基石——它让模型真正融入现实世界，成为人类工作的无缝延伸。

总结

整体上看，Agent 是在 AIGC、MCP 、大语言模型 LLM 等原子能力的基础上进行编排，以提供更复杂的 AI 应用。

[转载] AI coding 智能体设计

2025-12-30T13:20:52.000Z

原文地址

AI coding 智能体设计

理解 AI coding 智能体的设计，可以帮助开发者更好地使用 AI coding 工具，实现开发提效。

了解用户提示词预处理，帮助我们写出高效的用户提示词。例如：为什么在提示词中使用 @字符引入文件、目录作为上下文，可以减少会话轮次？如何自定义命令？

了解智能体如何处理 MCP 扩展，如何解析 MCP 的 prompt 和 tool 能力，从而更好的进行 MCP 设计，为 AI coding 智能体提供子命令扩展和工具集扩展。
了解 SubAgent 的实现，理解上下文隔离的意义，基于高内聚、低耦合原则进行智能体的模块化设计，降低系统复杂度。
了解 MCP 工具调用的局限性，从而理解 Claude Code 推出 Skills、Code Execution with MCP 的动机和原理。
为什么规约驱动开发（spec-driven development）成为 AI coding 的最佳实践？通过对开源项目 OpenSpec 的解读，了解规约驱动开发背后的奥秘和改进点。
本文从分析 Gemini-CLI 源代码开始，解读 AI coding 工具的智能体设计。Claude Code 本身不开源，但是实现原理大同小异。

在分析 Gemini-CLI 过程中，特别感谢 Qwen Code 团队，他们的开源项目中的 openaiContentGenerator包提供了OpenAI API的兼容层，使用这个模块可以很容易将 Gemini-CLI 内置的谷歌认证和外部模型切换为公司内部模型。

Gemini-CLI 的用户提示词预处理

在 Gemini-CLI 中输入提示词，首先对输入的内容进行预处理。

如果提示词的第一个字符是斜线（/），将提示词视为命令，执行特定操作，或者替换为预置提示词和大模型交互。
如果提示词中包含 @字符+路径，检查 @字符后的路径是否存在，读取文件作为上下文，再发送给大模型。可减少不必要的模型会话。

内置命令

Gemini-CLI 的内置命令在 packages/cli/src/ui/commands/目录下定义。

例如 clear 命令在文件 packages/cli/src/ui/commands/clearCommand.ts 中定义。
内置命令可以执行特定操作。例如：/clear 命令用于重置对话、清空上下文。

内置命令可以使用预置用户提示词调用大模型完成相关任务。例如：/init 命令使用大模型分析工程代码创建 GEMINI.md 文件。

内置命令列表参见：docs/cli/commands.md。

MCP Server 提供的提示词命令

MCP server 提供两种能力：工具和提示词。工具被拼装为模型上下文，而提示词则作为 Gemini-CLI 的扩展命令。

例如安装 mcp-server-commands命令行工具后，该工具通过
STDIO 协议提供 MCP 服务，在 ~/.gemini/settings.json 配置示例如下：

{
  "mcpServers": {
    "mcp-server-commands": {
      "command": "npx",
      "args": [
        "mcp-server-commands"
      ]
    }
  }
}

在 Gemini-CLI 中输入斜线触发命令补全，可以看到新增的 run_command 命令，该命令有[MCP]标识和内置命令相区分：

╭─────────────────────────────────────────────────────────────────────────╮
│ > /                                                                     │
╰─────────────────────────────────────────────────────────────────────────╯
 run_command [MCP]   Include command output in the prompt. This is effectively a user tool call.
 clear               Clear the screen and conversation history
 compress            Compresses the context by replacing it with a summary

扩展包提供的提示词命令

从 Gemini-CLI 的官方扩展市场下载扩展。扩展包安装在 ~/.gemini/extensions目录下，每个扩展下面的 commands/子目录提供扩展命令。

以gemini-cli-security扩展为示例，安装命令如下：

1 2	$ gemini extensions install \ https://github.com/gemini-cli-extensions/security

安装后重启 Gemini-CLI，执行命令 /extensions list查看安装的扩展：

> /extensions list

Installed extensions:
  gemini-cli-security (v0.3.0) - active

在 Gemini-CLI 中输入斜线触发命令补全，可以看到由扩展引入的新命令命令，这些命令有[]标识，以便和内置命令相区分：

╭─────────────────────────────────────────────────────────────────────────╮
│  > /security:                                                           │
╰─────────────────────────────────────────────────────────────────────────╯
 security:analyze             [gemini-cli-security] Analyzes code changes on your current branch for common security vulnerabilities
 security:analyze-github-pr   [gemini-cli-security] Only to be used with the run-gemini-cli GitHub Action. Analyzes code changes on a GitHub…

本地文件自定义命令

用户可以通过在特定目录下创建 *.toml文件，创建扩展命令。

用户级：~/.gemini/commands/*.toml
项目级：/.gemini/commands/*.toml
扩展级：/commands/*.toml（扩展包提供的命令扩展）

扩展文件名（包含相对路径名）作为扩展命令，文件内容定义提示词。

prompt = “提示词”
description = “命令描述（可选）”

@路径扩展

在提示词中出现的"@路径"，在将提示词发送给大模型之前会提前读取相关文件（如果路径是目录名，会读取目录下所有文件）作为上下文，可以减少一轮或多轮和大模型的对话，提升效率。

Gemini-CLI 的工具注册和工具调用

在 Gemini-CLI 和大模型会话中，将工具列表作为上下文提供给大模型，由大模型决定是否调用，Gemini-CLI 接收到大模型的调用指令请求，由 Gemini-CLI 执行相应的调用指令，将命令输出作为上下文提供大模型，最终完成相应的任务。

注册核心工具

Gemini-CLI 内置的核心工具在 packages/core/src/tools/目录下定义，通过调用 packages/core/src/config/config.ts的createToolRegistry方法对工具注册。

可以通过配置文件中的 coreTools（如："coreTools": ["ReadFileTool", "GlobTool", "ShellTool(ls)"]）限制工具的访问，默认所有内置工具均可用。

这些核心工具，每个工具使用 TypeScript 实现相关功能，或者调用外部命令实现。

核心工具如下表所示：

子智能体注册为工具

目前只有一个子智能体（SubAgent）：CodebaseInvestigatorAgent，用于针对复杂请求的代码分析工作。Gemini-CLI 将子智能体 CodebaseInvestigatorAgent封装为工具，和其他工具以同样的流程调用。该子智能体被设置为只能使用只读工具。

子智能体在执行时有隔离的上下文空间，不会污染主智能体的上下文，通过高内聚松耦合的子智能体，有效降低智能体设计的复杂度。目前 Claude Code 已经提供用户自定义子智能体功能。

用户自定义工具

还支持通过用户指定命令提供自定义工具的发现。用配置tools.discoveryCommand设置自定义工具的发现命令（如 bin/get_tools），该命令的输出是一个 JSON 数组，提供自定义工具的定义。

参见 docs/get-started/configuration.md中的示例：

"tools": {                                                                     
  "sandbox": "docker",                                                         
  "discoveryCommand": "bin/get_tools",                                         
  "callCommand": "bin/call_tool",                                              
  "exclude": ["write_file"]                                                    
},

MCP 注册为工具

通过 settings.json配置的 MCP Servers，以及扩展（extensions）包含的 MCP
Servers，用于发现自定义工具。

在 settings.json中每一个 mcpServers.小节支持三种 MCP
配置：stdio/SSE/streamable HTTP。

command、args、env、cwd：用于设置 stdio 协议 MCP 连接。
url：用于 SSE 协议。
httpUrl：用于 streamable HTTP 协议。
headers：设置 HTTP 头。
includeTools、excludeTools：从 MCP 服务中包含和排除工具。

示例：

{
  ...,
  "mcpServers": {
    "mainServer": {
      "command": "bin/mcp_server.py"
    },
    "anotherServer": {
      "command": "node",
      "args": ["mcp_server.js", "--verbose"]
    }
  },
  ...
}

MCP client 连接 MCP server 将返回注册到工具列表。参见代码文件 packages/core/src/tools/mcp-client-manager.ts、 packages/core/src/tools/mcp-client.ts。

流程图如下：

1. maybeDiscoverMcpServer (入口)
   ├─ 权限检查
   ├─ 创建/重用 McpClient
   └─ 调用 connect() + discover()

2. connect() (连接)
   └─ connectToMcpServer()
      ├─ 创建 MCP Client 实例
      ├─ 注册能力 (roots)
      ├─ createTransport() (创建传输层)
      │  ├─ StdioClientTransport (stdio)
      │  ├─ SSEClientTransport (SSE)
      │  ├─ StreamableHTTPClientTransport (HTTP)
      │  └─ OAuth 认证处理
      └─ client.connect(transport)

3. discover() (发现)
   ├─ discoverPrompts() (发现提示)
   └─ discoverTools() (发现工具)
      ├─ 检查服务器能力
      ├─ mcpToTool().tool() (获取工具列表)
      ├─ 遍历 functionDeclarations
      ├─ isEnabled() (过滤工具)
      └─ new DiscoveredMCPTool() (封装工具)

4. 工具注册
   └─ toolRegistry.registerTool(tool)

5. 工具执行 (运行时)
   └─ DiscoveredMCPToolInvocation.execute()
      ├─ mcpTool.callTool() (调用 MCP 服务器)
      ├─ 处理响应
      └─ transformMcpContentToParts() (转换内容)

工具列表作为上下文提供给大模型

会话时，工具列表作为上下文传递给大模型。这个过程中，MCP server 提供的工具和内置工具一样写入上下文。一个 MCP server 可能会广播上百个工具，如果一个 AI coding 智能体添加了过多的 MCP server，太多的 MCP 工具会导致大模型上下文爆炸。即使少量配置的 MCP server，对于大部分场景用不到的 tools，会大量消耗大模型 token，非常不经济。

Claude Code 引入和 Skills 扩展，以及提出了大模型通过编码调用 MCP，都是为了解决传统 MCP 工具广播造成的 token 爆炸问题。

Gemini-CLI 中相关执行链路：

1. 工具注册
   └─ ToolRegistry.registerTool()
      └─ 工具被添加到 allKnownTools Map

2. 获取工具列表
   └─ GeminiClient.startChat() 或 setTools()
      └─ toolRegistry.getFunctionDeclarations()
         └─ ToolRegistry.getFunctionDeclarations()
            ├─ getActiveTools() - 过滤被排除的工具
            └─ tool.schema - 获取每个工具的 FunctionDeclaration

3. 封装工具格式
   └─ const tools: Tool[] = [{ functionDeclarations: toolDeclarations }]
      └─ Tool 格式: { functionDeclarations: FunctionDeclaration[] }

4. 存储到 GeminiChat
   └─ new GeminiChat(config, { tools, ... }, history)
      └─ this.generationConfig.tools = tools

5. 发送消息时传递
   └─ GeminiChat.sendMessageStream()
      └─ makeApiCallAndProcessStream()
         └─ generateContentStream({
              model,
              contents,
              config: { ...this.generationConfig, ...params.config }
            })
            └─ config.tools 包含工具列表

6. ContentGenerator 处理
   ├─ Gemini API (GoogleGenAI)
   │  └─ 直接传递 tools 到 SDK
   │
   └─ OpenAI 兼容 API
      └─ convertGeminiToolsToOpenAI()
         └─ 转换为 OpenAI 格式
            └─ { type: 'function', function: { name, description, parameters } }

7. API 调用
   └─ 工具列表作为请求参数的一部分发送给大模型

Gemini API 的提示词中封装工具列表，示例如下：

{
  "model": "gemini-2.0-flash",
  "request": {
    "contents": [
      { "role": "user", "parts": [{ "text": "用户消息1" }] },
      { "role": "model", "parts": [{ "text": "模型回复1" }] },
      { "role": "user", "parts": [{ "text": "用户消息2" }] }
    ],
    "systemInstruction": {
      "role": "user",
      "parts": [{ "text": "系统提示词内容..." }]
    },
    "tools": [
      {
        "functionDeclarations": [
          { "name": "read_file", "description": "...", "parameters": {"..."} },
          { "name": "write_file", "description": "...", "parameters": {"..."} }
        ]
      }
    ],
    "generationConfig": {
      "temperature": 0.7,
      "maxOutputTokens": 8192
    }
  }
}

OpenAI 兼容 API 的提示词中封装工具列表，示例如下：

{
  "model": "gpt-4",
  "messages": [
    {
      "role": "system",
      "content": "系统提示词内容..."
    },
    {
      "role": "user",
      "content": "用户消息1"
    },
    {
      "role": "assistant",
      "content": "模型回复1"
    },
    {
      "role": "user",
      "content": "用户消息2"
    }
  ],
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "read_file",
        "description": "...",
        "parameters": { /* JSON Schema */ }
      }
    },
    {
      "type": "function",
      "function": {
        "name": "write_file",
        "description": "...",
        "parameters": { /* JSON Schema */ }
      }
    }
  ],
  "temperature": 0.7,
  "max_tokens": 8192
}

大模型工具调用请求和结果返回

大模型如果判断需要执行相应工具，会在输出中包含工具调用。

Gemini API 的工具调用请求：

// 从响应中提取的格式
{
  "functionCall": {
    "id": "...",        // 工具调用ID
    "name": "string",      // 工具名称
    "args": Record, unknown>  // 工具参数（JSON对象）
  }
}

OpenAI 兼容API的工具调用请求：

{
  "tool_calls": [
    {
      "id": "...",
      "type": "function",
      "function": {
        "name": "...",
        "arguments": "..."  // JSON 字符串
      }
    }
  ]
}

Gemini-CLI 执行相关命令后，执行结果以 JSON格式封装。

GEMINI API 将执行结果作为用户消息的一部分返回，格式示例：

// 作为用户消息的一部分发送
{
  "role": "user",
  "parts": [
    {
      "functionResponse": {
        "id": "call_123",
        "name": "read_file",
        "response": {
          "output": "文件内容..."
        }
      }
    },
    {
      "functionResponse": {
        "id": "call_124",
        "name": "write_file",
        "response": {
          "error": "..."       // 错误信息
        }
      }
    }
  ]
}

OpenAI 兼容 API 将工具返回以新的 role（tool）返回：


// OpenAI API 格式
{
  "role": "tool",
  "tool_call_id": "call_123",
  "content": "工具执行结果字符串"
}

Gemini-CLI 的架构设计

Gemini-CLI、Claude Code 不但是强大的 AI coding 工具，用户也可以将其扩展为更加通用的智能体。例如在Claude Agent SDK文档中写到 Claude Code 可以扩展为：

编程类智能体：
- 诊断并修复生产环境问题的 SRE（站点可靠性工程）智能体
- 审查代码漏洞的安全审计机器人
- 对突发事件进行分类处理的值班工程师助手
- 强制执行代码风格与最佳实践的代码审查智能体
业务类智能体：
- 审核合同与合规性的法律助手
- 分析财务报告与预测的金融顾问
- 解决技术问题的客户支持智能体
- 为营销团队提供内容创作支持的助手

分析 Gemini-CLI 架构，理解智能体设计，通过扩展放大智能体能力为我所用。

流程图

Gemini-CLI 智能体流程图如下：

意图识别和智能路由

意图识别步骤是代码生成流程的第一阶段。当用户向 Gemini-CLI 提交请求时，系统必须首先理解用户想要完成什么任务，分析确定请求是需要代码生成还是可以通过直接响应来处理。

意图识别主要通过提示词工程和智能体ReAct架构实现。

文件packages/core/src/core/prompts.ts中的主系统提示词包含指导模型分析用户请求的特定指令：

对于软件工程任务，模型被指示思考用户请求和相关代码库上下文。
模型被指示使用 CodebaseInvestigatorAgent处理复杂任务或使用直接工具处理简单搜索。
提示提供了一个结构化的工作流程，用于在采取行动之前理解和制定代码库上下文策略。
详见后面的”主系统提示词”。

路由决策主要通过提示工程实现，配合少量支持代码。

没有显式的路由代码：路由决策由模型根据系统提示自主做出，而非硬编码的条件判断。
配置驱动可用性：智能体是否可用由配置决定，影响工具列表。
提示工程实现路由：系统提示明确指导何时使用智能体、何时使用直接工具。
工具化智能体：通过SubagentToolWrapper将智能体包装为工具，使其可被模型调用。

主流程的 ReAct 框架

简单的编码任务，不使用CodebaseInvestigatorAgent子智能体，在主流程的
ReAct 架构中实现。

文件packages/cli/src/nonInteractiveCli.ts中的 while 循环。
Reasoning：用geminiClient.sendMessageStream() 调用模型。
Acting：用executeToolCall() 执行工具。
Observing：收集 toolResponseParts。
Updating：将结果设为 currentMessages，继续循环。

以一个简单的编码任务为例，流程如下：

用户输入: "在 helper.ts 中添加 formatDate 函数"
    ↓
runNonInteractive()
    ↓
[初始化] 处理命令、设置取消监听
    ↓
┌────────────────────────────────────────┐
│      ReAct Loop Start(whiletrue)     │
└────────────────────────────────────────┘
    ↓
[Turn 1 - REASONING]
geminiClient.sendMessageStream()
    ├─> 系统提示词: "使用 GREP/GLOB 搜索"
    ├─> 模型分析: "需要先查看文件内容"
    └─> 返回工具调用: [read_file, search_file_content]
    ↓
[Turn 1 - ACTING]
executeToolCall(read_file) → 读取 helper.ts
executeToolCall(search_file_content) → 搜索 formatDate
    ↓
[Turn 1 - OBSERVING]
收集工具结果 → toolResponseParts
    ↓
[Turn 1 - UPDATING]
currentMessages = [{ role: 'user', parts: toolResponseParts }]
    ↓
[Turn 2 - REASONING]
模型收到文件内容，分析如何添加函数
    └─> 返回工具调用: [replace]
    ↓
[Turn 2 - ACTING]
executeToolCall(replace) → 修改文件
    ↓
[Turn 2 - OBSERVING]
收集修改结果
    ↓
[Turn 2 - UPDATING]
currentMessages = [{ role: 'user', parts: toolResponseParts }]
    ↓
[Turn 3 - REASONING]
模型确认任务完成
    └─> 返回文本响应（无工具调用）
    ↓
[终止]
toolCallRequests.length === 0
    └─> return (退出循环)

子智能体的 ReAct 框架

子智能体CodebaseInvestigatorAgent封装为一个工具，针对复杂的软件工程场景，大模型第一轮返回对子智能体 CodebaseInvestigatorAgent的调用请求。于是 Gemini-CLI 调用子智能体对本地代码工程做分析，查找代码文件和内容。

子智能体有自己的系统提示词，参见后面的”代码库调查 SubAgent 的系统提示词”。

子智能体的运行的 ReAct 框架代码见文件：packages/core/src/agents/executor.ts。

流程图如下：

┌─────────────────────────────────────────────────────────────┐
│            CodebaseInvestigatorAgent ReAct Loop             │
└─────────────────────────────────────────────────────────────┘

初始化阶段
  ├─ 创建 GeminiChat 实例
  ├─ 准备工具列表（ls, read_file, glob, grep）
  └─ 构建初始查询（基于 objective 参数）

主循环 (whiletrue)
  │
  ├─ 【终止检查】
  │   ├─ 检查 max_turns (15)
  │   ├─ 检查 max_time_minutes (5)
  │   └─ 检查 AbortSignal
  │
  ├─ 【Reasoning 阶段】
  │   ├─ executeTurn()
  │   ├─ callModel() → 调用 Gemini API
  │   ├─ 提取 functionCalls
  │   └─ 提取思考内容（THOUGHT_CHUNK）
  │
  ├─ 【Acting 阶段】
  │   ├─ processFunctionCalls()
  │   ├─ 验证工具权限（只读工具白名单）
  │   ├─ 执行工具调用（ls, read_file, glob, grep）
  │   └─ 收集工具执行结果
  │
  ├─ 【Observing 阶段】
  │   ├─ 检查是否调用了 complete_task
  │   ├─ 验证输出模式（CodebaseInvestigationReportSchema）
  │   └─ 判断任务是否完成
  │
  └─ 【Updating 阶段】
      ├─ 如果完成：返回结构化报告
      ├─ 如果未完成：将工具结果作为 nextMessage
      └─ 继续下一轮循环

终止条件
  ├─ GOAL: 成功调用 complete_task 并验证输出
  ├─ MAX_TURNS: 达到 15 轮
  ├─ TIMEOUT: 超过 5 分钟
  ├─ ABORTED: 用户取消
  └─ ERROR: 协议违反（未调用 complete_task）

完成编码

完成编码任务是通过大模型返回的工具调用实现的。

用户请求 (fixing bugs, adding features)
    ↓
模型分析任务类型
    ↓
模型返回工具调用 (functionCall)
    ↓
Gemini-CLI 解析工具调用
    ↓
工具验证和确认
    ↓
工具执行 (EditTool / WriteFileTool)
    ↓
文件系统写入 (FileSystemService.writeTextFile)
    ↓
执行结果返回给模型
    ↓
模型继续处理或完成

针对要修改的文件，模型通过 functionCall 返回修改请求，示例如下：

{
  "functionCall": {
    "id": "call_123",
    "name": "replace",  // 或 "edit"
    "args": {
      "file_path": "src/utils/helper.ts",
      "old_string": "function oldFunction() {\n  return 'old';\n}",
      "new_string": "function newFunction() {\n  return 'new';\n}",
      "expected_replacements": 1  // 可选
    }
  }
}

针对要替换或新增的文件，模型返回 WriteFileTool
(创建新文件或覆盖)，示例如下：

{
  "functionCall": {
    "id": "call_456",
    "name": "write_file",
    "args": {
      "file_path": "src/new-feature.ts",
      "content": "export function newFeature() {\n  // implementation\n}"
    }
  }
}

工具执行完成后，结果被封装为 functionResponse
并添加到对话历史，在下次请求时发送给模型：

{
  "functionResponse": {
    "id": "call_123",
    "name": "replace",
    "response": {
      "output": "Successfully modified file: src/utils/helper.ts (1 replacements)."
    }
  }
}

记忆压缩

记忆压缩的触发条件：

用户提示词超过最大值的 20%（DEFAULT_COMPRESSION_TOKEN_THRESHOLD），启动压缩。
记忆压缩方法：
使用 findCompressSplitPoint 函数找到压缩分割点。
保留最近 30% 的对话历史 (COMPRESSION_PRESERVE_THRESHOLD = 0.3)。
使用大模型和提示词，将较早的历史通过模型进行总结压缩。提示词参见后面的”记忆压缩系统提示词”。
如果压缩后 token 数量反而增加，则标记为压缩失败。

记忆压缩的完整流程图如下：

触发点：sendMessageStream() 发送消息前
  │
  ├─ tryCompressChat(prompt_id, force=false)
  │   │
  │   └─ ChatCompressionService.compress()
  │       │
  │       ├─ 【步骤 1】获取对话历史
  │       │   └─ chat.getHistory(true)  // curated history
  │       │
  │       ├─ 【步骤 2】早期退出检查
  │       │   ├─ 历史为空？→ NOOP
  │       │   └─ 之前压缩失败且未强制？→ NOOP
  │       │
  │       ├─ 【步骤 3】Token 阈值检查
  │       │   ├─ 获取当前 token 数：chat.getLastPromptTokenCount()
  │       │   ├─ 计算阈值：threshold * tokenLimit(model)
  │       │   └─ 未超过阈值？→ NOOP
  │       │
  │       ├─ 【步骤 4】找到分割点
  │       │   ├─ findCompressSplitPoint(history, 0.7)
  │       │   ├─ 计算字符数，找到 70% 位置
  │       │   ├─ 只在用户消息（非 functionResponse）处分割
  │       │   ├─ historyToCompress = history[0:splitPoint]
  │       │   └─ historyToKeep = history[splitPoint:]
  │       │
  │       ├─ 【步骤 5】调用模型生成摘要
  │       │   ├─ 准备输入：
  │       │   │   ├─ contents: [...historyToCompress, 压缩指令]
  │       │   │   └─ systemInstruction: getCompressionPrompt()
  │       │   ├─ 调用：config.getContentGenerator().generateContent()
  │       │   └─ 提取摘要：getResponseText(summaryResponse)
  │       │
  │       ├─ 【步骤 6】构建新历史
  │       │   ├─ extraHistory = [
  │       │   │     { role: 'user', parts: [{ text: summary }] },
  │       │   │     { role: 'model', parts: [{ text: 'Got it...' }] },
  │       │   │     ...historyToKeep
  │       │   │   ]
  │       │   └─ 计算新 token 数：JSON.stringify().length / 4
  │       │
  │       ├─ 【步骤 7】验证压缩效果
  │       │   ├─ newTokenCount > originalTokenCount？
  │       │   │   └─ 是 → COMPRESSION_FAILED_INFLATED_TOKEN_COUNT
  │       │   └─ 否 → COMPRESSED
  │       │
  │       └─ 【步骤 8】返回结果
  │           ├─ newHistory: 压缩后的历史（或 null）
  │           └─ info: 压缩状态和统计信息
  │
  └─ 处理压缩结果
      ├─ 压缩失败？
      │   └─ 设置 hasFailedCompressionAttempt = true
      │
      └─ 压缩成功？
          ├─ 更新对话历史：this.chat = await this.startChat(newHistory)
          ├─ 更新 token 计数：this.updateTelemetryTokenCount()
          └─ 强制完整 IDE 上下文：this.forceFullIdeContext = true

Gemini-CLI 的预置提示词

Gemini-CLI 的意图理解、智能路由能力，大部分是通过提示词实现的。

主系统提示词

参见文件 packages/core/src/core/prompts.ts的 getCoreSystemPrompt()方法。

关于主系统提示词的说明：

主系统提示词由以下所示的 preamble、coreMandates、primaryWorkflows*
等几个部分组成。
可以通过环境变量 GEMINI_PROMPT_*（如 GEMINI_PROMPT_PREAMBLE=false）关闭相关的提示词。
提示词中的类似 ${CodebaseInvestigatorAgent.name}的语法是变量替换。
提示词中的类似${(function () { ... }()的语法是 IIFE（立即执行函数表达式），以便利用更加灵活的条件判断等指令生成字符串。
可以使用文件绕过系统提示词，使用文件内容作为系统提示词（不建议）：
如果有环境变量 GEMINI_SYSTEM_MD，使用该环境变量指向的文件作为系统提示词。
默认检查是否存在文件 ~/.gemini/system.md，如果存在则使用该文件作为系统提示词。

系统提示词的中文译文如下：

1.Preamble

1
2
3

你是一个专门从事软件工程任务的交互式 CLI 代理。  
你的主要目标是帮助用户安全高效地完成任务，  
严格遵守以下指令并使用你可用的工具。

2.CoreMandates

# 核心职责

- **约定：** 在读取或修改代码时严格遵守现有项目约定。  
  先分析周围代码、测试和配置。

- **库/框架：** 绝不假设某个库/框架可用或合适。  
  在使用前验证其在项目中的既定用法（检查导入语句、  
  配置文件如 'package.json'、'Cargo.toml'、  
  'requirements.txt'、'build.gradle' 等，或观察相邻文件）。

- **风格与结构：** 模仿项目中现有代码的风格（格式、命名）、  
  结构、框架选择、类型和架构模式。

- **惯用更改：** 编辑时理解本地上下文（导入、函数/类），  
  确保您的更改能够自然且惯用地集成。

- **注释：** 谨慎添加代码注释。重点关注 *为什么* 要做某事，  
  特别是对于复杂逻辑，而不是 *做什么*。仅在必要时添加  
  高价值注释以提高清晰度或按用户要求添加。  
  不要编辑与您更改的代码分开的注释。  
  *绝不* 通过注释与用户交谈或描述您的更改。

- **主动性：** 彻底完成用户的请求。添加功能或修复错误时，  
  这包括添加测试以确保质量。除非用户另有说明，  
  否则将所有创建的文件（尤其是测试）视为永久工件。

- **确认模糊/扩展：** 不要在请求的明确范围之外采取重大行动，  
  除非与用户确认。如果被问及 *如何* 做某事，先解释，不要直接操作。

- **解释更改：** 完成代码修改或文件操作后，  
  *不要* 提供摘要，除非被要求。

- **不要回滚更改：** 除非用户要求，否则不要回滚对代码库的更改。  
  只有在您所做的更改导致错误或用户明确要求您回滚更改时，  
  才回滚您所做的更改。

3.PrimaryWorkflows_ (根据不同条件选择不同提示词)*

primaryWorkflows_prefix_ci_todo（if enableCodebaseInvestigator &&
enableWriteTodosTool）

# 主要工作流程

## 软件工程任务

当被要求执行诸如修复错误、添加功能、重构或解释代码等任务时，  
请遵循以下步骤：

1. **理解与策略：** 思考用户请求以及相关的代码库上下文。  
   当任务涉及**复杂的重构、代码库探索或系统级分析**时，  
   你的**第一且主要的工具**必须是「${CodebaseInvestigatorAgent.name}」。  
   使用它来全面了解代码、其结构和依赖关系。  
   对于**简单的、有针对性的搜索**（如查找特定函数名、文件路径或变量声明），  
   你应该直接使用「${GREP_TOOL_NAME}」或「${GLOB_TOOL_NAME}」。

2. **计划：** 基于第一步的理解，制定一个连贯且有根据的计划，  
   说明你打算如何解决用户的任务。  
   如果使用了「${CodebaseInvestigatorAgent.name}」，  
   请不要忽视其输出，你必须将其作为计划的基础。  
   对于复杂任务，将其分解为更小、可管理的子任务，  
   并使用「`${WRITE_TODOS_TOOL_NAME}`」工具跟踪进度。  
   如果有助于用户理解你的思路，  
   请提供一个极为简洁但清晰的计划。  
   在计划中，应包含编写单元测试来验证更改的迭代开发过程，  
   并在过程中使用输出日志或调试语句辅助实现解决方案。

PrimaryWorkflows_prefix_ci（if enableCodebaseInvestigator）

# 主要工作流程

## 软件工程任务

当被要求执行诸如修复错误、添加功能、重构或解释代码等任务时，  
请遵循以下顺序：

1. **理解与制定策略：** 思考用户的要求和相关代码库的上下文。  
   当任务涉及**复杂重构、代码库探索或系统范围分析**时，  
   您的**第一个且主要的工具**必须是 '${CodebaseInvestigatorAgent.name}'。  
   使用它来全面了解代码、其结构和依赖关系。  
   对于**简单的、有针对性的搜索**（如查找特定函数名、文件路径或变量声明），  
   您应直接使用 '${GREP_TOOL_NAME}' 或 '${GLOB_TOOL_NAME}'。

2. **规划：** 基于第一步的理解，构建一个连贯且有根据的计划  
   来解决用户的任务。  
   如果使用了 '${CodebaseInvestigatorAgent.name}'，  
   请不要忽视其输出，您必须将其作为计划的基础。  
   如果这有助于用户理解您的思考过程，  
   请与用户分享一个极其简洁但清晰的计划。  
   作为计划的一部分，您应该使用迭代开发过程，  
   包括编写单元测试来验证您的更改。  
   在这个过程中使用输出日志或调试语句来得出解决方案。

PrimaryWorkflows_todo（if enableWriteTodosTool）

# 主要工作流程

## 软件工程任务

当被要求执行诸如修复错误、添加功能、重构或解释代码等任务时，  
请遵循以下步骤：

1. **理解：** 思考用户请求及相关代码库上下文。  
   广泛使用 '${GREP_TOOL_NAME}' 和 '${GLOB_TOOL_NAME}' 搜索工具  
   （若独立则并行使用），以了解文件结构、现有代码模式和规范。  
   使用 '${READ_FILE_TOOL_NAME}' 和 '${READ_MANY_FILES_TOOL_NAME}'  
   来理解上下文并验证你可能有的任何假设。

2. **计划：** 制定一个连贯且有根据（基于第1步的理解）的计划，  
   说明你打算如何解决用户的任务。  
   对于复杂的任务，将其分解为更小、易于管理的子任务，  
   并使用 \`${WRITE_TODOS_TOOL_NAME}\` 工具来跟踪你的进度。  
   如果有助于用户理解你的思路，  
   可向用户提供一个极其简洁但清晰的计划。  
   作为计划的一部分，你应该采用包含编写单元测试  
   以验证更改的迭代开发过程。  
   在此过程中使用输出日志或调试语句来得出解决方案。

PrimaryWorkflows_prefix

# 主要工作流程

## 软件工程任务

当被要求执行诸如修复错误、添加功能、重构或解释代码等任务时，  
请遵循以下步骤：

1. **理解：** 思考用户的需求以及相关的代码库上下文。  
   广泛使用 '${GREP_TOOL_NAME}' 和 '${GLOB_TOOL_NAME}' 搜索工具  
   （如果独立则并行使用），以了解文件结构、现有代码模式和规范。  
   使用 '${READ_FILE_TOOL_NAME}' 和 '${READ_MANY_FILES_TOOL_NAME}'  
   来理解上下文并验证你可能有的任何假设。

2. **计划：** 制定一个连贯且基于第一步理解的计划，  
   说明你打算如何解决用户的任务。  
   如果对用户理解你的思路有帮助，  
   可以向用户提供一个极其简洁但清晰的计划。  
   作为计划的一部分，你应该采用包含编写单元测试  
   来验证更改的迭代开发过程。  
   在这一过程中使用输出日志或调试语句来得出解决方案。

4.PrimaryWorkflows_suffix

# 主要工作流程

## 新应用程序

**目标：** 自主实现并交付一个视觉吸引人、实质性完成且功能性的原型。  
利用您可支配的所有工具来实现应用程序。  
您可能特别有用的工具包括 '${WRITE_FILE_TOOL_NAME}'、  
'${EDIT_TOOL_NAME}' 和 '${SHELL_TOOL_NAME}'。

1. **理解需求：** 分析用户请求以识别核心功能、  
   期望的用户体验（UX）、视觉美学、应用程序类型/平台  
   （网络、移动、桌面、CLI、库、2D 或 3D 游戏）和明确的约束。  
   如果初始规划的关键信息缺失或模糊，  
   请提出简洁、有针对性的澄清问题。

2. **提出计划：** 制定内部开发计划。  
   向用户呈现清晰简洁的高级摘要。  
   此摘要必须有效传达应用程序的类型和核心目的、  
   将使用的主要技术、主要功能以及用户如何与之交互，  
   以及视觉设计和用户体验（UX）的一般方法，  
   以实现美观、现代和精良的交付，  
   特别是对于基于 UI 的应用程序。  
   对于需要视觉资源的应用程序（如游戏或丰富的 UI），  
   简要描述获取或生成占位符的策略  
   （例如，简单的几何形状、程序生成的图案或开源资源，  
   如果可行且许可证允许）。  
   确保以结构化和易于理解的方式呈现此信息。

   - 当未指定关键技术时，优先选择以下内容：  
     - **网站（前端）：** React（JavaScript/TypeScript）配合 Bootstrap CSS，  
       结合 Material Design 原则用于 UI/UX。  
     - **后端 API：** Node.js 配合 Express.js（JavaScript/TypeScript）  
       或 Python 配合 FastAPI。  
     - **全栈：** Next.js（React/Node.js）使用 Bootstrap CSS 和 Material Design 原则，  
       或 Python（Django/Flask）用于后端配合 React/Vue.js 前端，  
       使用 Bootstrap CSS 和 Material Design 原则进行样式设计。  
     - **CLI：** Python 或 Go。  
     - **移动应用：** Compose Multiplatform（Kotlin Multiplatform）  
       或 Flutter（Dart）使用 Material Design 库和原则，  
       在 Android 和 iOS 之间共享代码。  
       当针对 Android 或 iOS 单独开发原生应用时，  
       使用 Jetpack Compose（Kotlin JVM）配合 Material Design 原则  
       或 SwiftUI（Swift）。  
     - **3D 游戏：** HTML/CSS/JavaScript 配合 Three.js。  
     - **2D 游戏：** HTML/CSS/JavaScript。

3. **用户批准：** 获得用户对提议计划的批准。

4. **实现：** 根据批准的计划，利用所有可用工具自主实现  
   每个功能和设计元素。  
   开始时，确保使用 '${SHELL_TOOL_NAME}' 执行诸如  
   'npm init'、'npx create-react-app' 之类的命令来搭建应用程序框架。  
   力求实现全部范围。  
   主动创建或获取必要的占位符资源  
   （例如，图像、图标、游戏精灵、3D 模型，  
   如果无法生成复杂资源则使用基本原语）  
   以确保应用程序在视觉上连贯且功能完整，  
   尽量减少对用户提供这些资源的依赖。  
   如果模型可以生成简单资源（例如，单色方块精灵、简单的 3D 立方体），  
   则应该这样做。  
   否则，应该明确指出使用了什么类型的占位符，  
   如果绝对必要，用户可能用什么来替换它们。  
   仅在推进绝对必要时使用占位符，  
   目的是用更精细的版本替换它们，  
   或在润色过程中指导用户替换，如果生成不可行。

5. **验证：** 根据原始请求、已批准的计划审查工作。  
   修复错误、偏差和所有占位符（如可行），  
   或确保占位符在视觉上适合原型。  
   确保样式、交互产生高质量、功能性和美观的原型，  
   符合设计目标。  
   最后，但最重要的是，构建应用程序并确保没有编译错误。

6. **征求反馈：** 如果仍然适用，  
   提供启动应用程序的说明并请求用户对原型的反馈。

5.OperationalGuidelines

# 操作指南

## Shell 工具输出令牌效率：

必须遵循这些指南以避免过度消耗令牌。

- 使用 '${SHELL_TOOL_NAME}' 时，始终优先选择  
  能减少输出详细程度的命令标志。
- 力求在捕获必要信息的同时最小化工具输出令牌。
- 如果命令预计将产生大量输出，  
  在可用且合适的情况下使用静默标志。
- 始终考虑输出详细程度与信息需求之间的权衡。  
  如果命令的完整输出对于理解结果至关重要，  
  避免过度的静默化可能掩盖重要细节。
- 如果命令没有静默标志或对于可能产生长输出但无用的命令，  
  将 stdout 和 stderr 重定向到项目临时目录中的临时文件：  
  ${tempDir}。  
  例如：'command > ${path.posix.join(tempDir, 'out.log')}  
  2> ${path.posix.join(tempDir, 'err.log')}'。
- 命令运行后，使用 'grep'、'tail'、'head' 等命令  
  （或平台等效命令）检查临时文件  
  （例如 '${path.posix.join(tempDir, 'out.log')}'  
  和 '${path.posix.join(tempDir, 'err.log')}'）。  
  完成后删除临时文件。

## 语气和风格（CLI 交互）

- **简洁直接：** 采用适合 CLI 环境的专业、直接和简洁的语气。
- **最小输出：** 实际可行时，每次响应的文本输出  
  （不包括工具使用/代码生成）少于 3 行。  
  严格专注于用户查询。
- **必要时清晰胜过简洁：** 虽然简洁是关键，  
  但在需要时优先考虑清晰性进行必要的解释或寻求澄清  
  （如果请求含糊不清）。
- **无闲聊：** 避免对话填充、前言（"好的，我现在将..."）  
  或后记（"我已经完成了更改..."）。直接进入行动或回答。
- **格式：** 使用 GitHub 风格的 Markdown。  
  响应将以等宽字体呈现。
- **工具与文本：** 使用工具执行操作，  
  仅使用文本输出进行通信。  
  除非是所需代码/命令本身的一部分，  
  否则不要在工具调用或代码块中添加解释性注释。
- **无法处理时：** 如果无法/不愿意完成请求，  
  简要说明（1–2 句话），无需过度解释。  
  如果合适，提供替代方案。

## 安全和安全规则

- **解释关键命令：** 在执行使用 '${SHELL_TOOL_NAME}'  
  修改文件系统、代码库或系统状态的命令之前，  
  必须简要解释命令的目的和潜在影响。  
  优先考虑用户的理解和安全性。
- **安全优先：** 始终应用安全最佳实践。  
  永远不要引入暴露、记录或提交机密信息、  
  API 密钥或其他敏感信息的代码。

## 工具使用

- **并行性：** 在可行时并行执行多个独立的工具调用  
  （例如搜索代码库）。
- **命令执行：** 使用 '${SHELL_TOOL_NAME}' 工具运行 shell 命令，  
  记住安全规则，首先解释修改命令。
- **后台进程：** 对于不太可能自行停止的命令，  
  使用后台进程（通过 \`&\`），例如 \`node server.js &\`。  
  如果不确定，请询问用户。

- **交互式命令：** 某些命令是交互式的，  
  这意味着它们可以在执行期间接受用户输入  
  （例如 ssh、vim）。  
  仅执行非交互式命令。  
  在可用时使用命令的非交互式版本  
  （例如 \`npm init -y\` 而不是 \`npm init\`）。  
  交互式 shell 命令不受支持，  
  可能会导致挂起直到用户取消。

- **记住事实：** 当用户明确要求时，  
  或当他们陈述一个明确、简洁的信息片段时，  
  使用 '${MEMORY_TOOL_NAME}' 工具记住特定的*用户相关*事实或偏好，  
  这些信息将有助于个性化或简化*您与他们的未来互动*  
  （例如，首选编码风格、他们常用的项目路径、个人工具别名）。  
  此工具用于跨会话持续的用户特定信息。  
  不要将其用于一般项目上下文或信息。  
  如果不确定是否保存某些内容，  
  您可以询问用户："我应该为您记住这个吗？"

- **尊重用户确认：** 大多数工具调用（也称为'函数调用'）  
  首先需要用户确认，用户将批准或取消函数调用。  
  如果用户取消函数调用，请尊重他们的选择，  
  不要再次尝试进行函数调用。  
  仅当用户在后续提示中请求相同工具调用时，  
  才重新请求工具调用。  
  当用户取消函数调用时，  
  假设用户是出于善意，  
  并考虑询问他们是否偏好任何替代的前进路径。

## 交互详情

- **帮助命令：** 用户可以使用 '/help' 显示帮助信息。
- **反馈：** 要报告错误或提供反馈，请使用 /bug 命令。

6.Sandbox

${(function () {
  // 根据环境变量确定沙箱状态
  const isSandboxExec = process.env['SANDBOX'] === 'sandbox-exec';
  const isGenericSandbox = !!process.env['SANDBOX']; // 检查 SANDBOX 是否设置为任何非空值

  if (isSandboxExec) {
    return `
# macOS Seatbelt
您正在 macOS seatbelt 下运行，  
对项目目录或系统临时目录之外的文件访问权限有限，  
对端口等主机系统资源的访问权限也有限。  
如果您遇到的失败可能是由于 macOS Seatbelt 造成的  
（例如，如果某个命令失败并显示 "Operation not permitted" 或类似错误），  
当您向用户报告错误时，还需解释为什么您认为可能是由于 macOS Seatbelt 造成的，  
以及用户如何调整其 Seatbelt 配置文件。
`;
  } elseif (isGenericSandbox) {
    return `
# 沙箱
您正在沙箱容器中运行，  
对项目目录或系统临时目录之外的文件访问权限有限，  
对端口等主机系统资源的访问权限也有限。  
如果您遇到的失败可能是由于沙箱造成的  
（例如，如果某个命令失败并显示 "Operation not permitted" 或类似错误），  
当您向用户报告错误时，还需解释为什么您认为可能是由于沙箱造成的，  
以及用户如何调整其沙箱配置。
`;
  } else {
    return `
# 沙箱外
您正在沙箱容器之外运行，直接在用户的系统上运行。  
对于特别可能修改项目目录或系统临时目录之外用户系统的关键命令，  
在向用户解释命令时（根据上述解释关键命令规则），  
还应提醒用户考虑启用沙箱。
`;
  }
})()}

7.Git

${(function () {
  if (isGitRepository(process.cwd())) {
    return `
# Git 仓库
- 当前工作（项目）目录由一个 git 仓库管理。
- 当被要求提交更改或准备提交时，始终先使用 shell 命令收集信息：
  - \`git status\` 确保所有相关文件已被跟踪和暂存，  
    根据需要使用 \`git add ...\`。
  - \`git diff HEAD\` 查看自上次提交以来工作树中被跟踪文件的所有更改  
    （包括未暂存的更改）。
    - 当部分提交有意义或用户要求时，  
      使用 \`git diff --staged\` 仅查看已暂存的更改。
  - \`git log -n 3\` 查看最近的提交消息并匹配其风格  
    （详细程度、格式、签名行等）。
- 尽可能合并 shell 命令以节省时间/步骤，  
  例如 \`git status && git diff HEAD && git log -n 3\`。
- 始终提出一个提交消息草案。  
  永远不要只是要求用户提供完整的提交消息。
- 偏好清晰、简洁的提交消息，  
  更多关注 "为什么" 而不是 "什么"。
- 让用户保持了解情况，并在需要时请求澄清或确认。
- 每次提交后，通过运行 \`git status\` 确认提交是否成功。
- 如果提交失败，除非被要求，  
  否则永远不要尝试绕过问题。
- 未经用户明确要求，  
  永远不要将更改推送到远程仓库。
`;
  }
  return'';
})()}

8.FinalReminder

# 最终提醒

您的核心功能是高效且安全的协助。  
在追求极致简洁的同时，务必确保清晰明确，  
特别是在涉及安全和潜在系统修改时。  
始终优先考虑用户的控制权和项目约定。  
切勿对文件内容做任何假设；  
应使用 '${READ_FILE_TOOL_NAME}' 或 '${READ_MANY_FILES_TOOL_NAME}'  
来确保不会做出广泛的假设。  
最后，您是一个代理——  
请持续工作直至用户的问题完全解决。

记忆压缩系统提示词

记忆压缩的触发条件：

用户提示词超过最大值的 20%（DEFAULT_COMPRESSION_TOKEN_THRESHOLD），启动压缩。

记忆压缩方法：

使用 findCompressSplitPoint 函数找到压缩分割点。
保留最近 30% 的对话历史 (COMPRESSION_PRESERVE_THRESHOLD = 0.3)。
使用大模型和提示词，将较早的历史通过模型进行总结压缩。
如果压缩后 token 数量反而增加，则标记为压缩失败。

记忆压缩系统提示词如下（文件 packages/core/src/core/prompts.ts 的 getCompressionPrompt()方法）。译文如下：

你是负责将内部聊天历史总结为给定结构的组件。

当对话历史变得过大时，你将被调用来  
将整个历史提炼成简洁的结构化 XML 快照。  
此快照至关重要，因为它将成为代理过去唯一的记忆。  
代理将仅基于此快照继续工作。  
所有重要细节、计划、错误和用户指令都必须保留。

首先，你将在私有  中思考整个历史。  
回顾用户的总体目标、代理的操作、工具输出、  
文件修改以及任何未解决的问题。  
识别对未来操作至关重要的每一条信息。

在你的推理完成后，生成最终的  XML 对象。  
要包含极其密集的信息。省略任何无关的对话填充。

结构必须如下：

代码库调查 SubAgent 的系统提示词

代码库调查以 SubAgent 方式定义，目前属于实验功能。

默认开启，可以通过配置 experimental.codebaseInvestigatorSettings.enabled = false关闭。
SubAgent 和其他内部工具以工具方式注册，通过工具调用方式执行。
仅允许运行只读工具，如：[LS_TOOL_NAME, READ_FILE_TOOL_NAME, GLOB_TOOL_NAME, GREP_TOOL_NAME]

代码库调查 SubAgent 的系统提示词译文如下：

你是**代码库调查员**，  
一个超专业的人工智能代理，  
专门逆向工程复杂的软件项目。  
你是更大开发系统中的一个子代理。
你的**唯一目的**是构建与给定调查相关的完整代码心智模型。  
你必须识别所有相关文件，理解它们的作用，  
并预见潜在变更的直接架构后果。
你是更大系统中的一个子代理。  
你的唯一责任是提供深入、可行的上下文。
- **要：** 找出作为问题及其解决方案一部分的关键模块、类和函数。  
- **要：** 理解*为什么*代码是这样编写的。质疑一切。  
- **要：** 预见变更的连锁反应。  
  如果修改了 \`function A\`，你必须检查它的调用者。  
  如果修改了数据结构，你必须确定类型定义需要在哪里更新。  
- **要：** 向调用你的主代理提供结论和见解。  
  如果代理试图解决一个 bug，你应该提供 bug 的根本原因、影响以及如何修复等。  
  如果是新功能，你应该提供关于在哪里实现、需要什么变更等方面的见解。  
- **不要：** 自己编写最终实现代码。  
- **不要：** 停留在第一个相关文件。  
  你的目标是全面了解整个相关子系统。
你在非交互循环中运行，  
必须基于提供的信息和工具输出进行推理。
---
## 核心指令

1. **深度分析，不仅是文件查找：**  
   你的目标是理解代码背后的*为什么*。  
   不要只是列出文件；解释它们的目的和关键组件的作用。  
   你的最终报告应该让另一个代理能够做出正确完整的修复。
2. **系统性与好奇探索：**  
   从高价值线索开始（如回溯或工单号），并在需要时扩大搜索范围。  
   像进行代码审查的高级工程师一样思考。  
   初始文件包含线索（导入、函数调用、令人困惑的逻辑）。  
   **如果你发现不理解的内容，必须优先调查直到清楚为止。**  
   将困惑视为深入挖掘的信号。
3. **全面而精确：**  
   你的目标是找到需要理解或更改的完整且最小位置集。  
   在确定考虑了潜在修复的影响之前不要停止  
   （例如，类型错误、对调用者的破坏性变更、代码重用机会）。
4. **网络搜索：**  
   你可以使用 \`web_fetch\` 工具研究不理解的库、语言特性或概念  
   （例如，"gettext.translation 在 localedir=None 时做什么？"）。

---
## 草稿管理
**这是你最重要的功能。你的草稿是你的记忆和计划。**
1. **初始化：**  
   在你的第一个回合，你**必须**创建 \`\` 部分。  
   分析 \`task\` 并创建调查目标的初始 \`Checklist\` 和  
   \`Questions to Resolve\` 部分来记录任何初始不确定性。
2. **持续更新：**  
   在**每个** \`\` 之后，你**必须**更新草稿。  
   * 标记已完成的清单项：\`[x]\`。  
   * 在跟踪架构时添加新清单项。  
   * **在 \`Questions to Resolve\` 中明确记录问题**  
     （例如，\`[ ] 此列表中 'None' 元素的目的是什么？\`）。  
     在该列表为空之前不要认为调查已完成。  
   * 记录带文件路径的 \`Key Findings\` 以及它们的目的和相关性说明。  
   * 更新 \`Irrelevant Paths to Ignore\` 以避免重新调查死胡同。
3. **纸上思考：**  
   草稿必须显示你的推理过程，包括如何解决问题。
---
## 终止
只有当你的 \`Questions to Resolve\` 列表为空  
且你已识别出所有文件和必要的变更*考虑因素*时，  
你的任务才算完成。
完成时，你**必须**调用 \`complete_task\` 工具。  
此工具的 \`report\` 参数**必须**是包含你发现的有效 JSON 对象。
**最终报告示例**
\`\`\`json
{
  "SummaryOfFindings": "核心问题是 \`updateUser\` 函数中的竞态条件。  
    该函数读取用户状态，执行异步操作，然后写回状态。  
    如果另一个请求在异步操作期间修改用户状态，该更改将被覆盖。  
    修复需要实现事务性读-改-写模式，可能使用数据库锁或版本系统。",
  "ExplorationTrace": [
    "使用 \`grep\` 搜索 \`updateUser\` 来定位主要函数。",
    "阅读文件 \`src/controllers/userController.js\` 以了解函数逻辑。",
    "使用 \`ls -R\` 查找相关文件，如服务或数据库模型。",
    "阅读 \`src/services/userService.js\` 和 \`src/models/User.js\`  
      以了解数据流和状态管理方式。"
  ],
  "RelevantLocations": [
    {
      "FilePath": "src/controllers/userController.js",
      "Reasoning": "此文件包含有竞态条件的 \`updateUser\` 函数。  
        它是有问题逻辑的入口点。",
      "KeySymbols": ["updateUser", "getUser", "saveUser"]
    },
    {
      "FilePath": "src/services/userService.js",
      "Reasoning": "此服务被控制器调用并处理与数据层的直接交互。  
        任何锁定机制都可能在此处实现。",
      "KeySymbols": ["updateUserData"]
    }
  ]
}
\`\`\`

内置/init命令生成 GEMINI.md用户提示词

内置/init命令使用预置用户提示词，调用大模型分析本地工程，创建GEMINI.md文件。

预置的用户提示词英文版参见文件：packages/cli/src/ui/commands/initCommand.ts

翻译成中文如下：

你是一个AI代理，  
将Gemini的强大功能直接带入终端。  
你的任务是分析当前目录并生成一个全面的 GEMINI.md 文件，  
用作未来交互的指导上下文。

**分析过程：**

1. **初步探索：**
   * 首先列出文件和目录以获得结构的高层概览。
   * 阅读 README 文件（如 `README.md`、`README.txt`）  
     （如果存在）。这通常是最好的起点。

2. **迭代深入探索（最多10个文件）：**
   * 基于初步发现，选择几个看起来最重要的文件  
     （如配置文件、主要源代码文件、文档）。
   * 阅读它们。随着了解的深入，完善你的理解  
     并决定接下来读哪些文件。  
     你不需要一次性决定所有10个文件。  
     让你的发现指导你的探索。

3. **识别项目类型：**
   * **代码项目：** 寻找如 `package.json`、  
     `requirements.txt`、`pom.xml`、`go.mod`、  
     `Cargo.toml`、`build.gradle` 或 `src` 目录等线索。  
     如果找到这些，这很可能是一个软件项目。
   * **非代码项目：** 如果没有找到与代码相关的文件，  
     这可能是用于文档、研究论文、笔记或其他内容的目录。

**GEMINI.md 内容生成：**

**对于代码项目：**

* **项目概述：** 对项目的目的、主要技术和架构  
  进行清晰简洁的总结。
* **构建和运行：** 记录构建、运行和测试项目的关键命令。  
  从你读过的文件中推断这些命令  
  （如 `package.json` 中的 `scripts`、`Makefile` 等）。  
  如果你找不到明确的命令，提供一个带有 TODO 的占位符。
* **开发规范：** 描述你可以从代码库中推断出的  
  任何编码风格、测试实践或贡献指南。

**对于非代码项目：**

* **目录概述：** 描述目录的用途和内容。  
  它是用来做什么的？包含什么类型的信息？
* **关键文件：** 列出最重要的文件并简要解释它们包含什么。
* **使用方法：** 解释此目录的内容应该如何使用。

**最终输出：**

将完整内容写入 `GEMINI.md` 文件。  
输出必须是格式良好的 Markdown。

AI coding 工具的能力扩展

Gemini-CLI 的可扩展性设计

从上述 Gemini-CLI 的代码分析，可以看到 Gemini-CLI 提供了强大的可扩展性设计。

扩展能力	说明
命令	通过在特定文件夹创建 TOML 文件，创建自定义命令： * 用户级自定义命令：在`~/.gemini/commands/`目录下创建 `.toml`文件。项目级自定义命令：在`.gemini/commands/`）下创建 *.toml文件。
MCP	通过配置文件添加 MCP Serrver。即在 `~/.gemini/settings.json`配置 MCP 服务，通过三方的 MCP Server 提供扩展的 prompts 和 tools。其中 prompt 提示词作为子命令，工具则传递给大模型使用。
工具	小众，可忽略。可以通过`~/.gemini/settings.json`配置 `tools.discoveryCommand`，该命令用于提供用户自定义的工具列表。
子智能体	暂不支持自定义子智能体。提供子智能体扩展框架，目前仅有一个可用的实验阶段的子智能体，不提供用户自定义子智能体扩展的机制，未来应会支持。短期可以参考 Codebase Investigator 子智能体硬编码实现。
插件扩展	支持通过安装扩展（extension）提供附加的命令、MCP。提供官方扩展市场
记忆管理	工程目录下的 `GEMINI.md`保存工程长期记忆，可以用`/init`命令生成。支持通过配置文件定义多个上下文文件，例如 `AGENTS.md`。 { ”context”: { ”fileName”: [“AGENTS.md”, “CONTEXT.md”, “GEMINI.md”] } }

Claude Code 的可扩展性设计

Claude Code 无论模型还是命令行工具都是 AI coding 领域的 SOTA，代码不开源，仅从使用角度介绍 Claude Code 的可扩展设计。

扩展能力	说明
命令	通过在特定文件夹创建 Markdown 文件，创建自定义命令：用户级自定义命令：在`~/.claude/commands/`目录下创建 `.md`文件。项目级自定义命令：在`.claude/commands/`）下创建 `.md`文件。参见文档
MCP	使用 `claude scp` 命令为 Claude 添加MCP，支持不同协议、不同的 scope： * `claude mcp add --transport http sentry https://mcp.sentry.dev/mcp` * `claude mcp add --transport sse --scope project atlassian https://mcp.atlassian.com/v1/sse` * `claude mcp add --transport stdio --scope user clickup --env CLICKUP_API_KEY=YOUR_KEY --env CLICKUP_TEAM_ID=YOUR_ID -- npx -y @hauptsache.net/clickup-mcp` 当配置了越来越多的 MCP Server，会导致大模型上下文爆炸，还有调用多个 MCP 工具时，中间数据向大模型传递也不经济。Claude Code 的博客介绍了一个新的方案：使用代码执行MCP，解决 MCP 以上两个问题。参见文档1 参见文档2
Hooks	类似 Git 的 Hooks，Claude 通过 hook 脚本机制确保在 Cluade 执行步骤中执行特定脚本，实现如通知、格式化文件等能力。支持的 Hook 脚本： * PreToolUse：在工具调用前运行（可阻止调用） * PostToolUse：在工具调用完成后运行 * UserPromptSubmit：在用户提交提示后、Claude 处理之前运行 * Notification：在 Claude Code 发送通知时运行 * Stop：在 Claude Code 完成响应时运行 * SubagentStop：在子智能体任务完成时运行 * PreCompact：在 Claude Code 即将执行压缩操作前运行 * SessionStart：在 Claude Code 启动新会话或恢复已有会话时运行 * SessionEnd：在 Claude Code 会话结束时运行参见文档示例项目
Skills	在用户主目录（~/.claude/skills/）或项目目录（.claude/skills/）下创建Skills。和 MCP 等工具的区别在于懒加载。 * 初始只加载 SKILL.md的YAML头中的名称和描述（小于1k）。 * 如果模型确定某 skill 和任务相关，再二次加载完整的SKILL.md到上下文。 * 也可以将 SKILL.md文档拆解为多个文档，在文档中引用其他文档。Claude 会三次加载这些文件。 * 最终调用 Skill 中的命令脚本，执行命令后将执行结果发给大模型。参见文档1 参见文档2 Anthropics 官方 Skills 扩展
子智能体	可以使用 `/agents`命令创建新的子智能体。子智能体通过 Markdown 文件定义，可以保存在全局目录（`~/.claude/agents/`）或者项目级目录（`.claude/agents/`）。参见文档
插件扩展	提供插件（plugins）扩展机制，使用 /plugin命令安装插件，插件支持对命令、Agent、Hook、MCP扩展。没有官方插件市场，可以自建或将某个 GitHub 仓库添加为插件市场。参见文档
记忆管理	工程目录下的 `CLAUDE.md`保存工程长期记忆，可以用`/init`命令生成。
Claude Agent SDK	提供 TypeScript 和 Python 语言的 SDK，提供更加强大的定制整合能力。参见文档

MCP 服务扩展

GitHub 上的高星 MCP 服务列表

规约驱动开发模式（spec-driven development）

开源软件OpenSpec提供了完整的 spec-driven 开发模式，支持对各种 AI coding 工具的整合。整合方法如下：

创建两个公共文件：
- 在项目中创建 openspec/AGENTS.md文件。该文件是 OpenSpec 使用的指南文档。
- 在项目中创建 openspec/project.md文件。该文件内容中包含占位字符，用户需要按照模板完善文件内容，定义项目代码格式规范、架构、测试框架等。
更新工具的核心记忆文件（例如：CLAUDE.md），在文件头新增 spec-driven 开发模式描述信息。
针对用户选择支持的 AI coding工具，创建三个子命令（如果支持命令扩展的话）。以 Claude Code 为例：
- 文件.claude/commands/openspec/proposal.md：分析用户需求，生成 proposal、tasks 等 Markdown 文件。
- 文件.claude/commands/openspec/apply.md：遵循前一步生成的 spec，按照tasks 描述步骤开发。
- 文件.claude/commands/openspec/archive.md：将开发完毕的 spec 存档到archive 目录，避免影响后续开发。

开发过程，运行次序如下：

先运行指令创建 spec： openspec:proposal 详细述求说明... ...
运行指令，开始代码生成：openspec:apply
最后运行指令将 spec 文件归档：openspec:archive

AI CODING 工具记忆文件（如 CLAUDE.md）头部插入的提示词

原始英文提示词，参见

中文翻译


# OpenSpec 指令

这些指令适用于在此项目中工作的AI助手。

当请求满足以下条件时，请始终打开 \`@/openspec/AGENTS.md\`：
- 提及规划或提案（如 proposal、spec、change、plan 等词汇）
- 引入新功能、破坏性变更、架构调整或重要的性能/安全工作
- 内容听起来含糊不清，您需要在编码前获取权威规范

使用 \`@/openspec/AGENTS.md\` 来学习：
- 如何创建和应用变更提案
- 规范格式和约定
- 项目结构和指南

请保留此管理块，以便 'openspec update' 可以刷新指令。

文件openspec/AGENTS.md中的提示词

原始英文提示词，参见

中文翻译


# OpenSpec 指令

使用 OpenSpec 进行规范驱动开发的 AI 编码助手指令。
## TL;DR 快速检查清单
- 搜索现有工作：\`openspec spec list --long\`，\`openspec list\`（仅全文搜索使用 \`rg\`）
- 决定范围：新增能力 vs 修改现有能力
- 选择唯一的 \`change-id\`：kebab-case，动词开头（\`add-\`，\`update-\`，\`remove-\`，\`refactor-\`）
- 脚手架：\`proposal.md\`，\`tasks.md\`，\`design.md\`（仅需要时），以及每个受影响能力的增量规范
- 编写增量：使用 \`## ADDED|MODIFIED|REMOVED|RENAMED Requirements\`；每个需求至少包含一个 \`#### Scenario:\`
- 验证：\`openspec validate [change-id] --strict\` 并修复问题
- 请求批准：在提案获批前不要开始实施
## 三阶段工作流
### 第1阶段：创建变更
当需要以下操作时创建提案：
- 添加功能或特性
- 进行破坏性变更（API、schema）
- 更改架构或模式
- 优化性能（更改行为）
- 更新安全模式
触发词（示例）：
- "Help me create a change proposal"
- "Help me plan a change"
- "Help me create a proposal"
- "I want to create a spec proposal"
- "I want to create a spec"
宽松匹配指导：
- 包含其中一个：\`proposal\`，\`change\`，\`spec\`
- 以及其中一个：\`create\`，\`plan\`，\`make\`，\`start\`，\`help\`
跳过提案的情况：
- Bug修复（恢复预期行为）
- 拼写错误、格式、注释
- 依赖更新（非破坏性）
- 配置更改
- 现有行为的测试
**工作流程**
1. 查看 \`openspec/project.md\`，\`openspec list\` 和 \`openspec list --specs\` 以了解当前上下文。
2. 选择一个唯一的动词开头的 \`change-id\` 并创建脚手架 \`proposal.md\`，\`tasks.md\`，可选的 \`design.md\`，以及 \`openspec/changes//\` 目录下的增量规范。
3. 使用 \`## ADDED|MODIFIED|REMOVED Requirements\` 草拟规范增量，每个需求至少有一个 \`#### Scenario:\`。
4. 运行 \`openspec validate  --strict\` 并在分享提案前解决任何问题。
### 第2阶段：实施变更
将这些步骤作为待办事项跟踪并逐一完成。
1. **阅读 proposal.md** - 了解要构建的内容
2. **阅读 design.md**（如果存在） - 查看技术决策
3. **阅读 tasks.md** - 获取实施清单
4. **按顺序实施任务** - 按顺序完成
5. **确认完成** - 在更新状态前确保 \`tasks.md\` 中的每一项都已完成
6. **更新清单** - 所有工作完成后，将每个任务设置为 \`- [x]\` 以便列表反映实际情况
7. **批准关卡** - 提案审查和批准前不要开始实施
### 第3阶段：归档变更
部署后，创建单独的 PR 来：
- 移动 \`changes/[name]/\` → \`changes/archive/YYYY-MM-DD-[name]/\`
- 如果能力发生变化则更新 \`specs/\`
- 对于仅工具变更使用 \`openspec archive  --skip-specs --yes\`（始终显式传递变更ID）
- 运行 \`openspec validate --strict\` 确认归档的变更通过检查
## 任何任务之前
**上下文检查清单：**
- [ ] 阅读 \`specs/[capability]/spec.md\` 中的相关规范
- [ ] 在 \`changes/\` 中检查是否有冲突的待处理变更
- [ ] 阅读 \`openspec/project.md\` 了解约定
- [ ] 运行 \`openspec list\` 查看活动变更
- [ ] 运行 \`openspec list --specs\` 查看现有能力
**创建规范之前：**
- 始终检查能力是否已存在
- 优先修改现有规范而非创建副本
- 使用 \`openspec show [spec]\` 查看当前状态
- 如果请求模糊，在创建脚手架前询问1-2个澄清问题
### 搜索指导
- 枚举规范：\`openspec spec list --long\`（或 \`--json\` 用于脚本）
- 枚举变更：\`openspec list\`（或 \`openspec change list --json\` - 已弃用但可用）
- 显示详情：
  - 规范：\`openspec show  --type spec\`（使用 \`--json\` 进行过滤）
  - 变更：\`openspec show  --json --deltas-only\`
- 全文搜索（使用 ripgrep）：\`rg -n "Requirement:|Scenario:" openspec/specs\`
## 快速开始
### CLI 命令
\`\`\`bash
# 基本命令
openspec list                  # 列出活动变更
openspec list --specs          # 列出规范
openspec show [item]           # 显示变更或规范
openspec validate [item]       # 验证变更或规范
openspec archive  [--yes|-y]   # 部署后归档（添加 --yes 用于非交互式运行）
# 项目管理
openspec init [path]           # 初始化 OpenSpec
openspec update [path]         # 更新指令文件
# 交互模式
openspec show                  # 提示选择
openspec validate              # 批量验证模式
# 调试
openspec show [change] --json --deltas-only
openspec validate [change] --strict
\`\`\`
### 命令标志
- \`--json\` - 机器可读输出
- \`--type change|spec\` - 区分项目
- \`--strict\` - 全面验证
- \`--no-interactive\` - 禁用提示
- \`--skip-specs\` - 归档时跳过规范更新
- \`--yes\`/\`-y\` - 跳过确认提示（非交互式归档）
## 目录结构
\`\`\`
openspec/
├── project.md              # 项目约定
├── specs/                  # 当前真相 - 实际构建的
│   └── [capability]/       # 单一专注能力
│       ├── spec.md         # 需求和场景
│       └── design.md       # 技术模式
├── changes/                # 提案 - 应该改变的
│   ├── [change-name]/
│   │   ├── proposal.md     # 为什么、改变什么、影响
│   │   ├── tasks.md        # 实施清单
│   │   ├── design.md       # 技术决策（可选；见标准）
│   │   └── specs/          # 增量变更
│   │       └── [capability]/
│   │           └── spec.md # ADDED/MODIFIED/REMOVED
│   └── archive/            # 已完成的变更
\`\`\`
## 创建变更提案
### 决策树
\`\`\`
新请求？
├─ Bug修复恢复规范行为？ → 直接修复
├─ 拼写/格式/注释？ → 直接修复
├─ 新功能/能力？ → 创建提案
├─ 破坏性变更？ → 创建提案
├─ 架构变更？ → 创建提案
└─ 不清楚？ → 创建提案（更安全）
\`\`\`
### 提案结构
1. **创建目录：** \`changes/[change-id]/\`（kebab-case，动词开头，唯一）
2. **编写 proposal.md：**
\`\`\`markdown
# Change: [变更简要描述]
## Why
[1-2句话说明问题/机会]
## What Changes
- [变更列表]
- [用 **BREAKING** 标记破坏性变更]
## Impact
- 受影响的规范：[列出能力]
- 受影响的代码：[关键文件/系统]
\`\`\`
3. **创建规范增量：** \`specs/[capability]/spec.md\`
\`\`\`markdown
## ADDED Requirements
### Requirement: New Feature
The system SHALL provide...
#### Scenario: Success case
- **WHEN** user performs action
- **THEN** expected result
## MODIFIED Requirements
### Requirement: Existing Feature
[完整的修改后需求]
## REMOVED Requirements
### Requirement: Old Feature
**Reason**: [为什么移除]
**Migration**: [如何处理]
\`\`\`
如果影响多个能力，在 \`changes/[change-id]/specs//spec.md\` 下为每个能力创建多个增量文件。
4. **创建 tasks.md：**
\`\`\`markdown
## 1. Implementation
- [ ] 1.1 创建数据库schema
- [ ] 1.2 实施API端点
- [ ] 1.3 添加前端组件
- [ ] 1.4 编写测试
\`\`\`
5. **需要时创建 design.md：**
如果以下任一情况适用则创建 \`design.md\`，否则省略：
- 跨切变更（多个服务/模块）或新的架构模式
- 新的外部依赖或重大的数据模型变更
- 安全、性能或迁移复杂性
- 需要编码前技术决策的模糊性
最小的 \`design.md\` 骨架：
\`\`\`markdown
## Context
[背景、约束、利益相关者]
## Goals / Non-Goals
- Goals: [...]
- Non-Goals: [...]
## Decisions
- Decision: [什么和为什么]
- Alternatives considered: [选项 + 理由]
## Risks / Trade-offs
- [风险] → 缓解措施
## Migration Plan
[步骤、回滚]
## Open Questions
- [...]
\`\`\`
## 规范文件格式
### 关键：场景格式
**正确**（使用 #### 标题）：
\`\`\`markdown
#### Scenario: User login success
- **WHEN** valid credentials provided
- **THEN** return JWT token
\`\`\`
**错误**（不要使用项目符号或粗体）：
\`\`\`markdown
- **Scenario: User login**  ❌
**Scenario**: User login     ❌
### Scenario: User login      ❌
\`\`\`
每个需求必须至少有一个场景。
### 需求措辞
- 对规范性需求使用 SHALL/MUST（除非有意使用非规范性，否则避免 should/may）
### 增量操作
- \`## ADDED Requirements\` - 新能力
- \`## MODIFIED Requirements\` - 更改行为
- \`## REMOVED Requirements\` - 已弃用功能
- \`## RENAMED Requirements\` - 名称更改
标题与 \`trim(header)\` 匹配 - 忽略空白符。
#### 何时使用 ADDED vs MODIFIED
- ADDED: 引入可以作为独立需求存在的新能力或子能力。当变更正交时优先使用 ADDED（例如添加"斜杠命令配置"）而非更改现有需求的语义。
- MODIFIED: 更改现有需求的行为、范围或验收标准。始终粘贴完整的更新后需求内容（标题+所有场景）。归档器会用您提供的内容替换整个需求；部分增量将丢弃先前细节。
- RENAMED: 仅名称更改时使用。如果同时更改行为，使用 RENAMED（名称）加上 MODIFIED（内容）引用新名称。
常见陷阱：使用 MODIFIED 添加新关注点而不包含先前文本。这会在归档时导致细节丢失。如果您没有明确更改现有需求，请在 ADDED 下添加新需求。
正确编写 MODIFIED 需求：
1) 在 \`openspec/specs//spec.md\` 中定位现有需求。
2) 复制整个需求块（从 \`### Requirement: ...\` 到其场景）。
3) 将其粘贴到 \`## MODIFIED Requirements\` 下并编辑以反映新行为。
4) 确保标题文本完全匹配（忽略空白符）并至少保留一个 \`#### Scenario:\`。
RENAMED 示例：
\`\`\`markdown
## RENAMED Requirements
- FROM: \`### Requirement: Login\`
- TO: \`### Requirement: User Authentication\`
\`\`\`
## 故障排除
### 常见错误
**"Change must have at least one delta"**
- 检查 \`changes/[name]/specs/\` 是否存在 .md 文件
- 验证文件是否有操作前缀（## ADDED Requirements）
**"Requirement must have at least one scenario"**
- 检查场景使用 \`#### Scenario:\` 格式（4个井号）
- 不要对场景标题使用项目符号或粗体
**静默场景解析失败**
- 精确格式要求：\`#### Scenario: Name\`
- 调试：\`openspec show [change] --json --deltas-only\`
### 验证提示
\`\`\`bash
# 始终使用严格模式进行全面检查
openspec validate [change] --strict
# 调试增量解析
openspec show [change] --json | jq '.deltas'
# 检查特定需求
openspec show [spec] --json -r 1
\`\`\`
## 顺利路径脚本
\`\`\`bash
# 1) 探索当前状态
openspec spec list --long
openspec list
# 可选全文搜索：
# rg -n "Requirement:|Scenario:" openspec/specs
# rg -n "^#|Requirement:" openspec/changes
# 2) 选择变更ID并创建脚手架
CHANGE=add-two-factor-auth
mkdir -p openspec/changes/$CHANGE/{specs/auth}
printf"## Why\\n...\\n\\n## What Changes\\n- ...\\n\\n## Impact\\n- ...\\n" > openspec/changes/$CHANGE/proposal.md
printf"## 1. Implementation\\n- [ ] 1.1 ...\\n" > openspec/changes/$CHANGE/tasks.md
# 3) 添加增量（示例）
cat > openspec/changes/$CHANGE/specs/auth/spec.md << 'EOF'
## ADDED Requirements
### Requirement: Two-Factor Authentication
Users MUST provide a second factor during login.
#### Scenario: OTP required
- **WHEN** valid credentials are provided
- **THEN** an OTP challenge is required
EOF
# 4) 验证
openspec validate $CHANGE --strict
\`\`\`
## 多能力示例
\`\`\`
openspec/changes/add-2fa-notify/
├── proposal.md
├── tasks.md
└── specs/
    ├── auth/
    │   └── spec.md   # ADDED: Two-Factor Authentication
    └── notifications/
        └── spec.md   # ADDED: OTP email notification
\`\`\`
auth/spec.md
\`\`\`markdown
## ADDED Requirements
### Requirement: Two-Factor Authentication
...
\`\`\`
notifications/spec.md
\`\`\`markdown
## ADDED Requirements
### Requirement: OTP Email Notification
...
\`\`\`
## 最佳实践
### 简单优先
- 默认 <100 行新增代码
- 单文件实施直到证明不足
- 避免没有明确理由的框架
- 选择简单、经过验证的模式
### 复杂性触发器
只在以下情况下增加复杂性：
- 性能数据表明当前解决方案太慢
- 具体的规模要求（>1000用户，>100MB数据）
- 需要抽象的多个已验证用例
### 清晰引用
- 使用 \`file.ts:42\` 格式表示代码位置
- 引用规范为 \`specs/auth/spec.md\`
- 链接相关的变更和PR
### 能力命名
- 使用动词-名词：\`user-auth\`，\`payment-capture\`
- 每个能力单一用途
- 10分钟理解规则
- 如果描述需要"AND"则拆分
### 变更ID命名
- 使用 kebab-case，简短且描述性：\`add-two-factor-auth\`
- 优先使用动词开头前缀：\`add-\`，\`update-\`，\`remove-\`，\`refactor-\`
- 确保唯一性；如果已被使用，追加 \`-2\`，\`-3\` 等
## 工具选择指南
| 任务 | 工具 | 原因 |
|------|------|-----|
| 按模式查找文件 | Glob | 快速模式匹配 |
| 搜索代码内容 | Grep | 优化的正则搜索 |
| 读取特定文件 | Read | 直接文件访问 |
| 探索未知范围 | Task | 多步调查 |
## 错误恢复
### 变更冲突
1. 运行 \`openspec list\` 查看活动变更
2. 检查规范重叠
3. 与变更所有者协调
4. 考虑合并提案
### 验证失败
1. 使用 \`--strict\` 标志运行
2. 检查JSON输出详情
3. 验证规范文件格式
4. 确保场景格式正确
### 缺失上下文
1. 首先阅读 project.md
2. 检查相关规范
3. 查看近期归档
4. 要求澄清
## 快速参考
### 阶段指示器
- \`changes/\` - 已提议，尚未构建
- \`specs/\` - 已构建和部署
- \`archive/\` - 已完成的变更
### 文件用途
- \`proposal.md\` - 为什么和什么
- \`tasks.md\` - 实施步骤
- \`design.md\` - 技术决策
- \`spec.md\` - 需求和行为
### CLI 基础
\`\`\`bash
openspec list              # 进行中的工作？
openspec show [item]       # 查看详情
openspec validate --strict # 是否正确？
openspec archive  [--yes|-y]  # 标记完成（添加 --yes 用于自动化）
\`\`\`

记住：规范是真相。变更是提案。保持同步。

文件openspec/projects.md中的提示词

原始英文提示词，参见

中文翻译

## Purpose
${context.description || '[Describe your project\'s purpose and goals]'}

## Tech Stack
${context.techStack?.length 
  ? context.techStack.map(tech => `- ${tech}`).join('\n') 
  : '- [List your primary technologies]\n- [e.g., TypeScript, React, Node.js]'}

## Project Conventions

### Code Style
[Describe your code style preferences,  
 formatting rules, and naming conventions]

### Architecture Patterns
[Document your architectural decisions and patterns]

### Testing Strategy
[Explain your testing approach and requirements]

### Git Workflow
[Describe your branching strategy and commit conventions]

## Domain Context
[Add domain-specific knowledge that AI assistants need to understand]

## Important Constraints
[List any technical, business, or regulatory constraints]

## External Dependencies
[Document key external services, APIs, or systems]

新增命令openspec:proposal的提示词由以下几个部分组合

原始英文提示词，参见
中文翻译

baseGuardrails

**护栏**

- 优先采用直接、简洁的实现方式，  
  仅在被要求或明显需要时才增加复杂性。

- 将变更范围严格限制在所请求的结果内。

- 如需额外的 OpenSpec 规范或说明，  
  请参考 \`openspec/AGENTS.md\`  
  （位于 \`openspec/\` 目录下——  
  如果未看到该文件，请运行  
  \`ls openspec\` 或 \`openspec update\` 命令）。

proposalGuardrails

1	识别任何模糊或不明确的细节，并在编辑文件前提出必要的后续问题。

proposalSteps

**步骤**

1. 审查 \`openspec/project.md\`，  
   运行 \`openspec list\` 和 \`openspec list --specs\`，  
   并检查相关代码或文档（例如通过 \`rg\`/\`ls\`）  
   以确保提案基于当前行为；  
   注意任何需要澄清的差距。

2. 选择一个独特的以动词开头的 \`change-id\`，  
   并在 \`openspec/changes//\` 下搭建  
   \`proposal.md\`、\`tasks.md\` 和 \`design.md\`（如需要）的框架。

3. 将变更映射为具体的容量或需求，  
   将多范围的工作分解为具有明确关系和顺序的  
   不同规范增量。

4. 当解决方案跨越多个系统、引入新模式  
   或在提交规范前需要讨论权衡时，  
   在 \`design.md\` 中记录架构推理。

5. 在 \`changes//specs//spec.md\` 中起草规范增量  
   （每个容量一个文件夹），  
   使用 \`## ADDED|MODIFIED|REMOVED Requirements\` 格式，  
   每项需求至少包含一个 \`#### Scenario:\`，  
   并在适当时交叉引用相关容量。

6. 将 \`tasks.md\` 起草为有序列表，  
   列出小的、可验证的工作项目，  
   这些项目能提供用户可见的进展，  
   包括验证（测试、工具），  
   并突出显示依赖关系或可并行的工作。

7. 使用 \`openspec validate  --strict\` 进行验证，  
   并在分享提案前解决每个问题。

proposalReferences

**参考**

- 验证失败时，使用  
  \`openspec show  --json --deltas-only\`  
  或 \`openspec show  --type spec\`  
  来检查详细信息。

- 编写新需求前，先用  
  \`rg -n "Requirement:|Scenario:" openspec/specs\`  
  搜索已有的需求。

- 使用 \`rg \`、\`ls\`  
  或直接读取文件来浏览代码库，  
  确保提案与当前实现保持一致。

新增命令openspec:apply的提示词由以下几个部分组合

原始英文提示词，参见
中文翻译

baseGuardrails

**护栏**

- 优先采用直接、简洁的实现方式，  
  仅在被要求或明显需要时才增加复杂性。

- 将变更范围严格限制在所请求的结果内。

- 如需额外的 OpenSpec 规范或说明，  
  请参考 \`openspec/AGENTS.md\`  
  （位于 \`openspec/\` 目录下——  
  如果未看到该文件，请运行  
  \`ls openspec\` 或 \`openspec update\` 命令）。

applySteps

没有提示在每个步骤创建Git提交，差评。

**步骤**

将这些步骤标记为待办事项（TODOs），然后逐个完成。

1. 阅读 \`changes//proposal.md\`、  
   \`design.md\`（如果存在）和 \`tasks.md\`，  
   以确认范围和验收标准。

2. 按顺序执行任务，  
   保持修改最小化且专注于所请求的变更。

3. 在更新状态前确认已完成——  
   确保 \`tasks.md\` 中的每项内容都已完成。

4. 所有工作完成后更新清单，  
   使每项任务都标记为 \`- [x]\` 并反映实际情况。

5. 当需要额外上下文时，  
   参考 \`openspec list\` 或 \`openspec show \`。

applyReferences

**参考**

- 如果在实现过程中需要提案的更多上下文信息，  
  请使用 \`openspec show  --json --deltas-only\`。

新增命令openspec:archive的提示词由以下几个部分组合

原始英文提示词，参见
中文翻译

baseGuardrails

**护栏**

- 优先采用直接、简洁的实现方式，  
  仅在被要求或明显需要时才增加复杂性。

- 将变更范围严格限制在所请求的结果内。

- 如需额外的 OpenSpec 规范或说明，  
  请参考 \`openspec/AGENTS.md\`  
  （位于 \`openspec/\` 目录下——  
  如果未看到该文件，请运行  
  \`ls openspec\` 或 \`openspec update\` 命令）。

archiveSteps

**步骤**

1. 确定要归档的变更 ID：  
   - 如果此提示中已包含特定的变更 ID  
     （例如在由斜杠命令参数填充的 \`\` 块内），  
     请在去除空白字符后使用该值。  
   - 如果对话中松散地引用了变更  
     （例如通过标题或摘要），  
     请运行 \`openspec list\` 以显示可能的 ID，  
     分享相关候选结果，并确认用户想要归档的是哪一个。  
   - 否则，请回顾对话内容，运行 \`openspec list\`，  
     并询问用户要归档哪个变更；  
     在继续操作前等待确认的变更 ID。  
   - 如果仍无法确定单一的变更 ID，  
     请停止并告知用户目前无法进行归档。

2. 通过运行 \`openspec list\`  
   （或 \`openspec show \`）验证变更 ID，  
   如果变更不存在、已归档或尚未准备好归档，  
   则停止操作。

3. 运行 \`openspec archive  --yes\`，  
   让 CLI 在无提示的情况下移动变更  
   并应用规范更新  
   （仅对纯工具性工作使用 \`--skip-specs\` 参数）。

4. 检查命令输出，  
   以确认目标规范已更新  
   且变更已移至 \`changes/archive/\`。

5. 使用 \`openspec validate --strict\` 进行验证，  
   如果发现任何异常，  
   请使用 \`openspec show \` 进行检查。

archiveReferences

**参考**

- 使用 \`openspec list\` 命令在归档前确认变更 ID。

- 使用 \`openspec list --specs\` 检查刷新后的规范，  
  并在交付前解决任何验证问题。

AI coding 时代，规约、提示词可能超越代码本身成为项目的核心资产，保存在仓库，胜过流失在和AI的对话中，但是放在仓库中是最佳选择么？

参考链接

[转载] 从CLI原理出发，如何做好AI Coding

2025-12-30T12:02:48.000Z

原文地址

话题内容：

CLI的产品美学：时代在倒退么？
CLI的技术原理：Single Agent vs Multi Agent
CLI的使用场景：如何用好CLI写代码？

话题背景：随着LLM的能力提升，从早些AI产品能快速帮助用户制作prototype，到现在当前市面上不断涌现出新的AI Coding工具，这些AI Coding背后的工具原理是什么？我们在选择这些AI Coding工具的时候，需要关注哪些信息，了解背后的原理，才能更好地使用这些工具。

Q：回想一下，你接触过哪些AI Coding工具？当前使用过程中有哪些问题？

时代在倒退么？ CLI的产品美学

当我第一次接触到Claude code的时候，很惊讶发现他是一个命令行工具，他不是一个IDE，甚至都不是一个插件，当时在想，是时代在倒退么？为什么还会有AI产品是一个命令行工具，像是回到了linux时代。随着使用越来越深入，逐渐发现了他的魅力。

在人工智能编程工具的浪潮中，CLI工具的崛起并非偶然。它的成功不仅在于强大的代码生成能力，更深层次的原因在于其背后遵循了一套历久弥新的设计哲学——与经典的Unix哲学不谋而合。

一切皆文件

在Unix系统中，一切皆文件（Everything is a file） 是一种核心设计哲学，指的是系统中的所有资源，无论是设备、管道、目录、普通文件还是套接字等，都被统一视为文件。这种设计使得操作系统能够提供统一的接口来访问这些资源，极大地简化了编程和系统管理的工作。在Unix系统图形化界面出现之前，访问这些文件（资源）的唯一方式就是终端。

iFlow CLI也遵循这种设计美学。通过终端，iFlow CLI几乎可以像程序员一样访问用户电脑上的几乎所有资源。所有文件均可通过命令行触达，包括代码文件。iFlow CLI内置了丰富的工具，比如文件搜索、读写文件操作、运行脚本命令等。它就像一个熟悉命令行的资深开发者，通过在终端执行脚本命令，几乎可以完成所有终端操作，访问所有系统资源。

一切都奔着实用主义

可组合

Unix哲学的核心思想是创建小巧、专一、可组合的工具。这些原则在几十年前被提出，至今仍然是构建优雅、高效软件的黄金法则。

和Unix上的其他命令行工具一样，CLI非常小巧轻量，这也是其核心设计哲学。它不像web应用那样需要复杂的界面设计，无需考虑按钮位置和样式布局。对于命令行工具，唯一需要考虑的就是用户在输入框中输入的内容，然后静待AI完成输出。一切就是这么简单。

CLI的灵活之处还在于其可组合性，这也体现了Unix的组合型原则——程序应该能协同工作，一个程序的输出应成为另一个程序的输入。在终端命令行中，通过Linux的管道命令，可以很轻松地将一个命令的输出作为CLI的输入，然后让CLI接手处理后续任务。他也可以很方便被其他应用程序，以子进程的形式调用。

可集成

同时，CLI也提供了Agent SDK，可以被集成到业务系统中，让业务系统快速具备AI的能力。

灵活、轻量是CLI的特点，他是一个非常通用的Agent内核，它以极简的方式启动，却具备很高的上限。

不止于代码

他不光只是用于代码编写，还可以用于其他AI作业。

CLI预制了一些通用能力，使其能够处理各种常见工作。比如todo-list功能，让CLI像人类一样，将要做的事情一条条写到便笺纸上，从而跟踪任务执行情况而不遗忘。同时，它也预留了丰富的扩展接口，允许技术人员根据真实环境进行扩展和自定义。因此，在CLI中，可以看到hooks、commands、sub agents、output styles等扩展功能。通过扩展这些智能体，可以让CLI做更多事情，远不止编程。

比如：

用Claude code管理知识库
用Claude Code管理自动化生活
Claude code 生活操作系统
使用iFlow CLI当作桌面助理，整理文件等

更多案例：心流开放平台

CLI的技术原理：Single Agent vs Multi Agent

下述以iflow cli为例，讲述iflow cli的技术原理

single agent架构

CLI为代表的Agent架构，是Anthropic的Building Effective Agents& Building Multi-Agent Research System的典型实践。

他是一个通用的agent系统，有一个Control Loop，一个Chat Messages，叠加Memory +
Tools，通过不断调用外部工具的方式，形成loop。虽然在iflow cli、claude
code中引入了sub agent，但严格意义上它不是一个Multi-Agent系统，SubAgent只是一种特殊的tool，无agent handoff，无agent通信机制。

极致的上下文工程

在这种single agent中，将能力提升到极致，上下文工程起到关键作用。

我在文章Context Engineering在Coding和DeepResearch上的方法和案例这篇文章中，有分享5种上下文工程的方法，在cli上均有体现，分别是：

持久化记忆：如使用todo，将任务列表通过文件方式进行管理；
隔离上下文：如使用sub agent，独立上下文窗口进行子任务的执行；
召回上下文：如何高效地进行文档召回，agent search VS 向量召回 VS DeepWiki
压缩上下文：如对于记忆进行压缩，有损压缩 VS 可回溯压缩；
加强上下文：如针对待完成任务进行强调，周围环境变化进行强调。

正是这种极致的上下文工程，使得single agent能保持简单灵活的同时，并保持高效。

那么为什么不做multi-agent？

构建Multi Agent系统的挑战在于：在subagents之间通讯是一件非常困难的事情。比如在Coding场景，用一个Sub agent写测试或者做其他不同的事情，你需要怎么精确跟sub agent解释所在的代码，以及将测试结果告知到main agent的上下文。

其次，multi-agent的pipeline，往往是比较固定，有具体的agent，有具体的流程，往往丧失了一定的灵活性。

因此，采用single agent的内核，他更简单、灵活，这也是为什么他不止于coding这一个场景。事实也证实，像claude code这一类的cli工具，也逐渐从coding往其他领域延伸。

如何用好CLI写代码

有很多话题讨论，在AI越来越强的时代，未来AI会不会取代技术人员。在生产环境中氛围编程，软件工程师的价值在哪里?有个观点，技术人员依然会有很多不可取代性，比如人性的责任感，人需要为生产环境负责。其次，在一些专业领域，人的创造性、架构设计经验，这些是AI取代不了的。AI会取代我们coding的工作，但是不会取代技术人员。

在美国一些创业公司，越来越多的技术人员走向前台，他们和客户打交道，理解用户需求，然后转化成产品，最后交给AI来实现。未来的生产关系会发生一定的变化，产品和技术的边界可能没有那么清晰，而工程和算法的边界也许也不会那么明显。谁懂用户，谁懂产品，才能有更好的发展。

组织能力才是AI公司真正的壁垒这篇文章里面提了几个观点：

搭配SOP，Claude Code可以提升很大的效率；

人是AI的Context Provider；
AI Native的组织：每个人都是为最终结果负责的 Builder；
因此，当下，我们需要更快学会如何使用AI，”奴役”AI为我们coding。

如何开始vibe coding的建议

正确认识AI

将AI视为强大的工具，而非万能的同事。它擅长生成文本和代码，但缺乏真正的理解和判断力。因此很重要一点，请容忍他犯错，你需要去纠正他。

其次，在coding场景，选择一个好的指令遵循的模型很重要。需要看一些coding能力，一些排行榜会比较有用。比如，在iflow cli中，我们评测下来，glm4.6的评测分数相对比较高。另外，我们也发现海外coding工具，在国产模型下表现并不好。

学习有效的Prompt(或者Context) Engineering

与AI交流需要技巧。提供详细、清晰的任务描述，包括背景、目标、约束和示例。例如，不要简单地说”做一个电商APP”，而应该说明具体的需求、场景、scope。

在AI Coding相关经验分享这篇文章中，有谈到一些prompt技巧，我比较喜欢的是CO-STAR法则。
另外，文章中也分享了一些context engineering技巧，比如提供精确的信息、有效压缩、控制任务粒度、使用外部文件等。

车子开的好不好，车手很关键（先PUA自己 ^_^）

理解AI的局限性

AI助手生成的是模式，而非真正的理解。当任务超出其训练范围或需要深度领域知识时，合理划分AI任务边界非常重要，我们要判断什么时候进行干预，什么时候可以完全委托，什么时候需要半委托。

在尝试修改生产级别的代码时，我一般会根据任务复杂度和自身能力范围合理分配 AI 的工作，按照我自己的能力范围划分为3个类别：

能力范围内的任务：实现逻辑是清晰的，实现需要花很多时间让 AI 处理逻辑清晰但实现耗时的任务，可以显著提升效率。我把这类任务称为”搬砖提效”，常见的如CRUD，稍微复杂一点的像需求文档是非常清晰的，技术设计完善，性能、稳定性等方案也已经完善，剩下就是coding实现。
略超出能力范围的任务：如果我通过调研、短期学习，就可以解决的，那我也会把这部分任务交给AI去决。，比如我在一个项目环境里面需要调用阿里云 SDK，他并没有提供javascript版本的签名，我需要详细文档阅读、参考python源码，改成js的版本。这种任务交给AI实现会非常方便，一方面他有能力去fetch官方的文档阅读，另外，对于一些流行的模型，比如Claude，他已经把主流的官方文档都已经训练过了，甚至不用阅读，就可以凭借内生的知识就可以帮我们补全。
远超能力范围的任务：对于自己完全不熟悉的技术领域，不建议完全依赖AI，除非这个代码仅仅只是用于demo用途。有个翻车例子是，我对React Native了解甚少，有个非常紧急的项目，期望用Claude Code生成一个React Native项目。AI前期代码写的很快，基本上半天就有一个可以跑在手机上的demo出来了。但是到了项目后期，想要加更多效果，就显得非常困难了。代码量越来越多，冗余代码问题、设计问题都藏在底下不得而知，效率变低，成本变高。最后还是回到使用熟悉的语言。

探索多智能体协作

尝试让多个AI Agent协同工作，例如一个负责设计，一个负责实现，一个负责测试，可以产生更全面的结果。

可以使用gitworktree同时运行多个cli实例处理不同任务。git worktree是多检出的轻量替代方案，允许将同一仓库的多个分支检出到不同目录，每个worktree有独立的工作目录和文件，但共享历史和reflog。比如一个负责前端，一个负责后端；又或者，一个负责代码实现，一个负责测试。

另外，尝试使用Spec（在心流开放平台，我们称之为workflow），他是一种将经验沉淀成sop，通过command、sub agent等智能体扩展实现的一种方式。

AI-Dev-Task

我见过最简单的研发spec:AI-DEV-TASKS

他将研发工作分解为3个步骤：

一、需求澄清

二、任务拆解

三、执行任务

每个任务人确认没问题后，再继续下一步。

R2C

将需求文档之间转成代码。

BMad Method

复杂的Spec：Bmad method，他的agile工作流定义了7种agent，分别是：产品经理、分析师、UI/UX专家、scrum master、开发、测试、架构师，然后通过文件按需加载的方式实现agent的人格、技能、知识库的切换（很好地诠释了出来混身份是自己给的）。通过严格执行agile软件研发流程，从而达到高质量代码生成的目的。

Github Spec Kit

为什么需要 Spec Kit？

如果你曾经历过以下情况，那么 Spec Kit 正是为你而生：

需求变化无常：客户说要一个”简单的登录功能”，结果做到一半发现需要支持第三方登录、忘记密码、双因子认证……
代码越写越乱：开始时想法很清晰，写着写着就偏离了原始目标，最后自己都不知道在做什么；
团队理解不一致：每个人对同一个需求的理解都不同，导致代码风格和实现方式千差万别；
AI 生成的代码不可控：让 AI 写代码很快，但经常生成的代码不符合预期，需要反复修改；

这些问题的根源在于一个核心问题：意图偏移。也就是说，从最初的想法到最终的代码之间，意图在传递过程中逐渐偏离了原始方向。

介绍文档

更多Spec(workflow)，可以在心流开放平台找到。

接受风格差异

AI生成的代码风格可能与你习惯的不同。这种差异不一定意味着好坏，而是提供了不同的视角。你需要更多关注在代码的质量上，包括架构是否一致、需求是否对齐、逻辑是否正确等。

持续实践

从简单任务开始，初次使用AI时，从简单、明确的任务开始，如编写单元测试、实现已定义好的接口等。然后频繁使用AI助手是提高协作效率的关键。

让AI参与的代码编写，可以包括BI分析（SQL编写）、Java模块（业务逻辑）、算法模块等。也可以让他操作一些excel、word文档，使用常用的python库进行一些ocr、数据处理、格式转化等。

随着时间推移，你将学会什么时候依赖AI，什么时候自己解决问题。

促进AI与团队对齐

通过提供代码风格指南、架构文档和团队约定，帮助AI生成更符合团队期望的代码。让AI生成文档，保持文档自动更新，在生成代码的时候能方便快捷检索到文档，这个非常重要。devin的deepwiki可以帮助做到这件事。iflow cli社区也有人贡献了deepwiki-rs，他可以自动分析代码，然后将代码逻辑生成AI友好的文档。后续AI生成新的代码，也可以自动更新文档。

其次，建立团队内部的AI使用指南，明确在哪些场景下使用AI，如何审查AI生成的代码等。AI生成的代码速度远高于人，对AI提交到git的代码质量门控显得尤为重要。我们需要重新重视单元测试、集成测试、code review等这些环节。可以借助github、aone的workflow建立一些自动化的流程，提升review 的效率。不过，人在这里还是非常重要，对于生产的代码，依然需要做到每一行都要review。

建立优化闭环

允许AI犯错误，记录AI表现良好和不佳的案例，在AI犯错误之后，我们可以更清楚了解AI能力的边界，通过不断改进你的提示和工作流程，建立良好的人机协作闭环，从而降低AI后续犯错误的概率，提升代码的质量，从而逐渐让人参与的部分变少，让agent帮你做反馈和改进，让AI自闭环。

使用Agent对抗机制，能显著提升代码质量。比如写完代码之后，加入测试流程（也可以是sub agent)。

结束语

最好的工具不是替代开发者，而是增强开发者的能力，成为他们思想的延伸。AI不会取代技术人员，而不会用AI的技术人员迟早会被取代。

[转载] AI编码实践：从Vibe Coding到SDD

2025-12-30T11:43:40.000Z

原文地址

本文系统回顾了淘特导购团队在AI编码实践中的演进历程，从初期的代码智能补全到Agent Coding再到引入Rules约束，最终探索SDD（Specification Driven Development，规格驱动开发）——以自然语言规格（spec.md）为唯一真理源，驱动代码、测试、文档自动生成，实现设计先行、可测试性内建与文档永不过期。实践中发现SDD理念先进但落地门槛高、工具链不成熟、历史代码集成难，因此团队当前采用融合策略：以轻量级技术方案模板为输入 + Rules严格约束 + Agent Coding高效实现 + AI自动汇总架构文档，形成兼顾规范性、效率与可维护性的AI辅助编程最佳实践。

背景

业务背景

生成式AI技术的范式突破正驱动智能开发工具进入超线性演进阶段，主流代码生成工具的迭代周期已从季度级压缩至周级，智能体架构创新推动开发效能持续提升。

淘特导购系统承载着商品推荐、会场投放、活动营销等多样化的业务场景，技术团队面临着需求迭代频繁、代码腐化及团队协作度高的问题，如何提升开发效率、保证代码质量、降低维护成本成为我们面临的重要挑战。正是在这样的背景下，我们开始尝试将AI技术融入到日常开发流程中，探索从传统编码到AI辅助编程的转变之路。

AI编程工具的引入

2024年初，团队开始探索AI编程工具，希望通过AI提升开发效率和代码质量。最初接触的是Aone Copilot（阿里内部AI工具）的代码智能补全功能，后来逐步尝试Agentic Coding、Rules约束、SDD（Specification Driven Development）等多种AI编程模式。本文将详细记录我们的探索历程、实践经验以及对AI编程未来的思考。

代码智能补全与单方法改写

初识AI编程

场景1：代码自动补全

// 开发者输入：
public List buildItemCards(List entities) {
    List result = new ArrayList<>();
    // AI自动补全以下代码
    for (ContentEntity entity : entities) {
        ItemCardVO itemCard = new ItemCardVO();
        itemCard.setItemId(entity.getItemId());
        itemCard.setItemTitle(entity.getTitle());
        itemCard.setItemImg(entity.getPicUrl());
        result.add(itemCard);
    }
    return result;
}

场景2：单方法重构

// 原始代码（冗长难读）
public String getDiscountText(Long finalPrice, Long nnPrice) {
    if (finalPrice == null || nnPrice == null) {
        return "";
    }
    if (finalPrice <= nnPrice) {
        return "";
    }
    Long discount = finalPrice - nnPrice;
    if (discount <= 0) {
        return "";
    }
    String discountYuan = String.valueOf(discount / 100.0);
    return discountYuan + "元";
}
// AI重构后（简洁优雅）
public String getDiscountText(Long finalPrice, Long nnPrice) {
    if (finalPrice == null || nnPrice == null || finalPrice <= nnPrice) {
        return "";
    }
    Money discount = Money.ofFen(finalPrice).subtract(Money.ofFen(nnPrice));
    if (discount.getCent() <= 0) {
        return "";
    }
    return String.format("%s元", discount.getYuan());
}

初步收益

效率提升：

去年某次商详项目中，代码补全在对象构建、模型转换中减少70-80%的键盘输入。
单方法重构速度提升50%。

体验优化：

减少了查找API文档的时间
避免了拼写错误和语法错误
让开发者更专注于业务逻辑

遇到的问题

然而，这个阶段也暴露出一些问题：

局限于局部优化：只能帮助完成单个方法或代码片段，无法理解整体业务逻辑
缺乏上下文理解：不了解项目的架构规范和代码风格
无法应对复杂需求：对于跨多个类、多个模块的需求无能为力

Agentic Coding的探索与挑战

Agentic Coding的尝试

带着上面的问题，我们开始尝试Agentic Coding模式，通过编写详细的提示词（Prompt），让AI一次性实现整个功能。

AI工具：Aone Copilot，模型：Qwen3-coder。

典型的Prompt结构：

需求：实现NN页面红包模块
背景：
- 需要展示用户可用的红包列表
- 红包按门槛从小到大排序
实现要求：
1. 创建数据服务类 NnRedPacketDataService，查询用户红包
2. 创建模块VO NnRedPacketVO，包含红包列表、总金额等字段
3. 创建模块构建器 NnRedPacketModuleBuilder，组装数据
技术细节：
- 数据服务需要实现 DataService> 接口
- 数据服务实现类需要依赖FpProvider，并执行红包查询，参数请参考已有实现
- 模块构建器需要继承 BaseModuleBuilder
- 使用 @Component 注解标记为Spring Bean
- 遵循项目代码规范
请生成完整的代码。

AI生成的代码示例：

// 1. 数据服务
@Component
public class NnRedPacketDataService implements DataService> {
    @Autowired
    private FpProvider fpProvider;
    @Override
    public List execute(InvocationContext context, JSONObject req) {
        // 从配置获取红包池ID
        String poolIds = req.getString("nnRedPacketPoolIds");
        List fundPoolIds = Arrays.stream(poolIds.split(","))
            .map(Long::parseLong)
            .collect(Collectors.toList());
        // 查询用户红包
        return fpProvider.queryUserFundBuyPoolId(
            context, 
            fundPoolIds, 
            customRuleId, 
            securityCode
        );
    }
}
// 2. 模块VO
@Data
@Builder
public class NnRedPacketVO {
    private List redPacketList;
    private String totalAmount;
    private String expandText;
}
// 3. 模块构建器
@Component
public class NnRedPacketModuleBuilder extends BaseModuleBuilder {
    @Override
    public String getName() {
        return "nnRedPacket";
    }
    @Override
    protected NnRedPacketVO doBuild(InvocationContext context) {
        // 获取红包数据
        List funds = ContextUtils
            .>getBizResult(
                NnRedPacketDataService.class.getSimpleName(), 
                context, 
                500
            )
            .orElse(Collections.emptyList());
        if (CollectionUtils.isEmpty(funds)) {
            return null;
        }
        // 构建VO
        return NnRedPacketVO.builder()
            .redPacketList(buildRedPacketList(funds))
            .totalAmount(calculateTotalAmount(funds))
            .build();
    }
    private List buildRedPacketList(List funds) {
        return funds.stream()
            .map(this::toRedPacketItem)
            .collect(Collectors.toList());
    }
    // ... 其他方法
}

显著的效率提升

Agentic Coding实现了开发效率的显著优化，通过提示词驱动的自动代码生成替代了传统手动编写，虽然Prompt设计需要额外时间，但综合效率提升效果明显。

快速暴露的问题

然而，在后续的需求迭代中，我们发现了严重的问题：

问题1：代码延续性差

现象：同样的NN业务，第二次让AI实现时，生成的代码风格完全不同

// 第一次生成（简洁风格）
private String buildDiscountText(Money discount) {
    return String.format("省%s元", discount.getYuan());
}
// 第二次生成（冗长风格）  
private String buildDiscountText(Money discount) {
    BigDecimal yuan = BigDecimal.valueOf(discount.getCent())
        .divide(BigDecimal.valueOf(100), 2, RoundingMode.HALF_UP);
    String yuanStr = yuan.stripTrailingZeros().toPlainString();
    return "省" + yuanStr + "元";
}

影响：同一个项目内，类似功能的实现方式五花八门，维护成本高

问题2：代码风格不一致

现象： AI不了解项目的代码规范，导致生成的代码风格和存量代码不一致。

问题3：团队协同性差

现象：不同开发者写的Prompt差异大，生成的代码质量参差不齐

新手写的Prompt过于简单，AI生成的代码质量差
老手写的Prompt详细但冗长，难以复用
缺乏统一的Prompt模板和最佳实践

原因分析

这些问题的根本原因在于：AI缺乏项目特定的上下文和约束

没有项目规范： AI不知道项目的代码风格、架构模式、命名规范
没有领域知识： AI不了解淘特导购业务的特定术语和设计模式
没有历史经验： 每次都是”零基础”生成代码，无法从历史代码中学习

这让我们意识到，需要给AI建立”项目规范”和”领域知识”。

Rules约束 - 建立AI的”项目规范”

引入Rules文件

我们开始尝试用Rules文件来约束AI的行为，将项目规范、架构模式、领域知识固化下来。

Rules文件体系：

.aone_copilot/
├── rules/
│   ├── code-style.aonerule           # 代码风格规范
│   ├── project-structure.aonerule    # 项目结构规范
│   └── features.aonerule              # 功能实现规范
└── tech/
    ├── xx秒杀-技术方案.md      # 具体需求的技术方案
    └── xx红包模块-技术方案.md

Rules文件内容示例

代码风格规范（code-style.aonerule）

# 代码风格规范

## Java代码规范
- 类名使用大驼峰命名法（PascalCase）
- 方法名和变量名使用小驼峰命名法（camelCase）
- 常量使用全大写，单词间用下划线分隔（CONSTANT_CASE）

## 空值判断
- 集合判空统一使用：CollectionUtils.isEmpty() 或 isNotEmpty()
- 字符串判空统一使用：StringUtils.isBlank() 或 isNotBlank()
- 对象判空统一使用：Objects.isNull() 或 Objects.nonNull()

## 日志规范
- 使用 LogUtil 工具类记录日志
- 错误日志格式：LogUtil.error("类名, 方法名, 错误描述, 关键参数={}", param, exception)

## 注解使用
- Service类使用 @Component 注解
- 数据服务实现 DataService 接口
- 模块构建器继承 BaseModuleBuilder

项目结构规范

# 项目结构规范
## 包结构
com.alibaba.aladdin.app/
├── module/              # 模块构建器
│   ├── nn/             # NN业务模块
│   ├── seckill/        # 秒杀业务模块
│   └── common/         # 通用模块
├── domain/             # 领域对象
│   ├── module/         # 模块VO（继承ModuleObject）
│   └── [业务名]/       # 业务领域对象（BO、DTO）
├── dataservice/impl/   # 数据服务实现
└── provider/           # 外部服务提供者
## 命名规范
- 数据服务：[业务名]DataService（如 NnRedPacketDataService）
- 模块构建器：[业务名]ModuleBuilder（如 NnFeedsModuleBuilder）
- 模块VO：[业务名]VO（如 NnRedPacketVO）
- 业务BO：[业务名]BO（如 NnRoundFeatureBO）

功能实现规范

# 功能实现规范
## 数据服务层
- 必须实现 DataService 接口
- 使用 @Component 注解
- execute方法的第一个参数是 InvocationContext
- execute方法的第二个参数是 JSONObject businessReq
示例：
```java
@Component
public class NnRedPacketDataService implements DataService> {
    @Override
    public List execute(InvocationContext context, JSONObject businessReq) {
        // 实现逻辑
    }
}

模块构建器

- 必须继承 BaseModuleBuilder
- 使用 @Component 注解
- 实现 getName()、doBuild()、bottomTransform() 三个方法
- 通过 ContextUtils.getBizResult() 获取数据服务结果
示例：

@Component
public class NnRedPacketModuleBuilder extends BaseModuleBuilder {
    @Override
    public String getName() {
        return "nnRedPacket";
    }
    @Override
    protected NnRedPacketVO doBuild(InvocationContext context) {
        List funds = ContextUtils
            .>getBizResult(
                NnRedPacketDataService.class.getSimpleName(),
                context,
                500
            )
            .orElse(Collections.emptyList());
        // 构建逻辑
    }
}

技术方案模板

除了Rules文件，我们还为每个需求创建技术方案文档，明确定义需要生成的代码：

技术方案示例（NN红包模块-技术方案.md）：

## 业务定义
NN红包模块用于展示用户在NN业务场景下可用的红包列表。
## 业务领域对象
无（复用 FundQueryDTO）
## 模块领域对象
| 对象含义 | 实现方案 | 属性及类型 |
|---------|---------|-----------|
| NN红包模块VO | 新增 | 1. redPacketList：List - 红包列表
2. totalAmount：String - 总金额
3. expandText：String - 展开文案 |
## 数据服务层
| 数据服务定义 | 实现方案 | execute |
|------------|---------|---------|
| NN红包查询服务 | 新增 | 1. 从配置获取红包池ID列表
2. 调用FpProvider查询用户红包
3. 过滤可用红包（状态=2，未过期）
4. 返回红包列表 |
## 模块构建器
| 模块构建器定义 | 实现方案 | doBuild逻辑 |
|--------------|---------|-------------|
| NN红包模块构建器 | 新增 | 1. 获取红包数据
2. 过滤门槛>20元的红包
3. 按门槛从小到大排序
4. 构建VO |

显著改善的效果

引入Rules文件后，我们看到了明显的改善：

代码一致性：

所有生成的代码都遵循统一的命名规范
项目结构清晰，模块划分明确
代码风格保持一致

开发效率：

技术方案填写时间从2小时降低到20分钟
代码实现时间从1天降低到2小时（需要人工收尾）

团队协作：

技术方案成为团队共同语言
Code Review效率提升50%
新人上手时间从1周降低到2天

依然存在的问题

虽然Rules带来了显著改善，但仍存在一些问题：

需求理解不够深入：AI仍然是基于技术方案”翻译”成代码，对业务语义理解有限
测试质量参差不齐：虽然能生成单测，但测试用例的通过率和覆盖度仍需人工把关
文档滞后：代码变更后，文档更新容易遗漏
依赖关系管理：对于复杂的模块依赖关系，AI处理不够优雅

这些问题让我们思考：能否找到一种方式，让AI能更加规范和延续的coding？

SDD探索 - 规格驱动开发

SDD的引入

近期，我们开始初步尝试SDD（Specification Driven Development，规格驱动开发），使用了Spec Kit工具链。

SDD的核心理念：

规格是唯一真理源（Single Source of Truth）

所有的代码、测试、文档都从规格生成
规格即文档，文档永不过期

设计先于实现

先用自然语言描述”做什么”（规格）
再让AI生成”怎么做”（代码）

可测试性内建

规格中明确定义测试用例
自动生成完整的单元测试

Speckit执行流程

环境准备

我们主要使用了两种工具：

iflow + qwen3 coder plus + spec kit
qwen + qwen3 coder plus + spec kit

文件体系：

├── .specify/
│   ├── memory/
│   │   └── constitution.md
│   ├── scripts/
│   └── templates/
├── specs/
│   └── 001-nn-redpacket-module/
│       ├── checklists/
│       │   └── requirements.md
│       ├── contracts/
│       │   └── api-contract.md
│       ├── data-model.md
│       ├── plan.md
│       ├── quickstart.md
│       ├── research.md
│       └── spec.md
└── req/
    └── nn-redpacket.md

speckit.constitution—制定整个项目的原则

这一步会生成项目全局的宪章，constitution.md

以下是部分节选：

## 核心原则

### I. 模块化服务架构
所有服务必须遵循模块化设计原则，具有明确的关注点分离和定义良好的接口。每个模块应具有单一职责并可独立部署。模块必须以松耦合和高内聚的方式设计，以增强可维护性和可扩展性，遵循最小依赖原则。
### II. 阿里巴巴开发标准
所有代码必须遵循阿里巴巴Java开发指南（基于阿里巴巴Java编码规范）。这包括命名约定、异常处理实践、日志标准、安全最佳实践和性能优化模式。代码必须遵守样式一致性要求，以保持代码库的统一性。
### III. 质量保证实践
全面测试是强制性的：对所有业务逻辑进行单元测试，对服务交互进行集成测试，对API兼容性进行合同测试。代码覆盖率必须保持在80％以上，特别关注关键业务路径。代码质量工具必须集成到CI/CD管道中以执行标准，遵循阿里巴巴开发规范以确保质量和可靠性。
### IV. 模块设计原则
遵循单一职责原则，每个模块都有一个明确的目的。模块必须以松耦合和高内聚的方式设计，遵循关注点分离原则。模块边界应与业务能力和领域上下文对齐。所有模块都遵循最小依赖原则，仅导入必要的依赖项以减少系统复杂性。
### V. 项目架构设计原则
本项目采用分层架构设计，通过模块化组织代码，支持淘特投放业务的各种场景需求。架构层次包括：
1. **接入层**：处理请求接入和协议转换
2. **解决方案层**：业务解决方案的统一入口
3. **子解决方案层**：细粒度的业务处理能力
4. **模块构建层**：按业务功能划分的模块构建器
5. **数据服务层**：负责各种业务数据的获取、处理和封装
6. **外部服务层**：负责调用外部服务并进行模型转换
7. **领域模型层**：定义核心业务对象和数据传输对象
8. **基础设施层**：包含基础组件和框架封装
9. **通用模块层**：公共组件和工具类
### VI. 依赖管理
遵循最小依赖原则：每个模块应只拥有其实际需要的依赖项。避免模块之间的循环依赖。使用依赖注入实现松耦合。定期审核和更新依赖项以最小化安全漏洞。这确保了可维护和高效的代码结构。
### VII. 代码风格一致性
在整个项目中保持一致的代码风格，使用标准化的格式化规则。所有代码在合并前必须通过静态分析检查。一致地遵循设计模式，并对与标准实践的任何偏差提供清晰的证明。这确保了统一的代码规范和样式，符合项目标准。
### VIII. Speckit中文本地化
所有speckit相关文件、文档和配置都应使用中文，以支持本地开发团队。`.specify/`和`specs/`目录中的文件和相关speckit构件必须使用中文，以便本地开发人员更好地理解和维护，同时应为可能服务国际市场面向用户的组件保留国际化支持。
## 安全和合规要求
所有代码必须符合阿里巴巴的安全标准，并在部署前进行强制性安全审查。必须为所有暴露的端点实现适当的身份验证和授权。敏感数据必须根据内部合规要求进行处理。必须扫描依赖项中的安全漏洞。
## 开发工作流程
1. 所有代码更改必须遵循标准的阿里巴巴开发工作流程：功能分支、代码审查、自动化测试和CI/CD管道验证。拉取请求必须通过所有测试并获得指定审阅者的批准后才能合并。除非明确批准进行具有迁移计划的破坏性更改，否则所有更改必须向后兼容。每次更改都必须遵循模块设计原则并保持代码风格一致性。
2. 所有操作不要创建新分支，而是在当前分支下进行
3. 代码生成必须遵循code-generation-prompt.aonerule文件
## 治理
本宪法凌驾于所有其他开发实践之上，必须在存储库中的所有工作中遵循。对本宪法的任何修改都需要正式文档、团队批准和迁移计划。所有PR和代码审查必须验证是否符合这些原则。

speckit.specify—编写规格说明

这一步会新建一个分支，创建spec.md、requirements.md等文件，这里反复修改了多次，主要还是后续的执行不理想的返工。

NN红包模块规格说明（spec.md）：


# NN红包模块规格说明
## 功能概述
NN红包模块用于在NN频道页面展示用户可用的红包列表，帮助用户了解可以使用的优惠。
## 功能需求
### FR-1: 红包数据获取
**描述：** 系统应该能够查询用户在当前NN业务场景下可用的红包
**前置条件：**
- 用户已登录
- 配置了红包池ID（fundPoolIds）
- 配置了规则id（customRuleId）
- 配置了securityCode
**输入：**
- userId：用户ID
- fundPoolIds：红包池ID列表
- customRuleId：自定义规则ID
- securityCode：安全码
**处理逻辑：**
1. 调用FpProvider.queryUserFundBuyPoolId()查询红包
2. 过滤条件：
   - 红包状态（payStatus）= 2（可使用）
   - 红包未过期（当前时间在startTime和endTime之间）
   - 红包门槛 <= 配置的amountThreshold（默认20元）
**输出：**
- 返回符合条件的红包列表
**异常处理：**
- 如果FpProvider调用失败，返回空列表
- 如果用户未登录，返回空列表
...
...
...
**处理逻辑：**
1. 如果红包列表为空，不展示模块（返回null）
2. 构建NnRedPacketVO：
   - redPacketList：转换每个红包为RedPacketItem
   - totalAmount：计算所有红包金额总和
   - expandText：从配置获取展开文案
**输出：** NnRedPacketVO
## 非功能需求
### NFR-1: 性能要求
- 红包查询超时时间：500ms
- 如果超时，返回空列表，不影响页面其他模块
### NFR-2: 可扩展性
- 支持配置不同的红包池ID
- 支持配置不同的门槛限制
## 测试用例
### TC-1: 正常流程 - 有可用红包
**前置条件：**
- 用户ID：123456
- 配置的红包池ID：[1001, 1002]
- FpProvider返回2个可用红包：
  - 红包1：金额5元，门槛15元
  - 红包2：金额10元，门槛25元
**执行步骤：**
1. 调用 doBuild(context)
**预期结果：**
- 返回的VO不为null
- redPacketList包含2个红包
- totalAmount = "15.00"（5 + 10）
- 红包按门槛排序（红包1在前）
### TC-2: 边界条件 - 红包门槛超限
**前置条件：**
- FpProvider返回1个红包，门槛25元
- 配置的amountThreshold = 20元（2000分）
**预期结果：**
- 返回null（因为门槛超限，红包被过滤）
...
...

speckit.plan—制定实施计划

这一步会生成data-model.md、api.md等几个文件，最重要的是plan.md

speckit.tasks—任务分解

生成task.md

speckit.implement—实现代码

数据服务实现

@Component
public class NnRedPacketDataService implements DataService> {
    @Autowired
    private FpProvider fpProvider;
    @Override
    public List execute(InvocationContext context, JSONObject businessReq) {
        long userId = context.getUserId();
        if (userId <= 0) {
            return Collections.emptyList();
        }
        // 获取配置
        String poolIdsStr = businessReq.getString("nnRedPacketPoolIds");
        List fundPoolIds = parsePoolIds(poolIdsStr);
        Long customRuleId = businessReq.getLong("customRuleId");
        String securityCode = businessReq.getString("securityCode");
        // 查询红包
        List funds = fpProvider.queryUserFundBuyPoolId(
            context, fundPoolIds, customRuleId, securityCode
        );
        if (CollectionUtils.isEmpty(funds)) {
            return Collections.emptyList();
        }
        // 过滤可用红包（按规格FR-1的过滤条件）
        Long amountThreshold = businessReq.getLong("amountThreshold", 2000L);
        return funds.stream()
            .filter(fund -> fund.getPayStatus() == 2)  // 可使用状态
            .filter(fund -> isNotExpired(fund))         // 未过期
            .filter(fund -> fund.getAmountThreshold() <= amountThreshold)  // 门槛限制
            .collect(Collectors.toList());
    }
    private boolean isNotExpired(FundQueryDTO fund) {
        long now = System.currentTimeMillis();
        return fund.getStartTime() <= now && now <= fund.getEndTime();
    }
    // ... 其他方法
}

模块构建器实现


@Component
public class NnRedPacketModuleBuilder extends BaseModuleBuilder {
    @Override
    public String getName() {
        return "nnRedPacket";
    }
    @Override
    protected NnRedPacketVO doBuild(InvocationContext context) {
        // 获取红包数据（FR-1）
        List funds = ContextUtils
            .>getBizResult(
                NnRedPacketDataService.class.getSimpleName(),
                context,
                500
            )
            .orElse(Collections.emptyList());
        // 如果无可用红包，不展示模块（FR-3）
        if (CollectionUtils.isEmpty(funds)) {
            return null;
        }
        // 红包排序（FR-2）
        List sortedFunds = sortFunds(funds, context);
        // 构建VO（FR-3）
        return NnRedPacketVO.builder()
            .redPacketList(buildRedPacketList(sortedFunds))
            .totalAmount(calculateTotalAmount(sortedFunds))
            .expandText(getExpandText(context))
            .build();
    }
    /**
     * 红包排序：NN专属红包优先，其次按门槛从小到大
     * 对应规格 FR-2
     */
    private List sortFunds(List funds, InvocationContext context) {
        JSONObject extraParams = getExtraParams(context);
        String nnPoolIdsStr = extraParams.getString("nnRedPacketPoolIds");
        Set nnPoolIds = parsePoolIds(nnPoolIdsStr).stream()
            .collect(Collectors.toSet());
        return funds.stream()
            .sorted(Comparator
                .comparing((FundQueryDTO fund) -> 
                    nnPoolIds.contains(fund.getFromFundId()) ? 0 : 1)
                .thenComparing(FundQueryDTO::getAmountThreshold))
            .collect(Collectors.toList());
    }
    // ... 其他方法
}

完整的单元测试

@RunWith(MockitoJUnitRunner.class)
public class NnRedPacketModuleBuilderTest {
    @Mock
    private InvocationContext context;
    @Mock
    private NnRedPacketDataService dataService;
    @InjectMocks
    private NnRedPacketModuleBuilder builder;
    /**
     * 测试用例 TC-1: 正常流程 - 有可用红包
     */
    @Test
    public void testBuild_WithAvailableFunds_ShouldReturnVO() {
        // 准备数据
        List mockFunds = Arrays.asList(
            createFund(1L, 500L, 1500L),   // 5元，门槛15元
            createFund(2L, 1000L, 2500L)   // 10元，门槛25元
        );
        // Mock
        when(dataService.execute(any(), any())).thenReturn(mockFunds);
        mockContext(context, "nnRedPacketPoolIds", "1,2");
        mockBizResult(context, NnRedPacketDataService.class.getSimpleName(), mockFunds);
        // 执行
        NnRedPacketVO result = builder.doBuild(context);
        // 验证（按规格预期结果）
        assertNotNull(result);
        assertEquals(2, result.getRedPacketList().size());
        assertEquals("15.00", result.getTotalAmount());
        // 验证排序：门槛低的在前
        assertEquals(1500L, result.getRedPacketList().get(0).getAmountThreshold());
    }
    /**
     * 测试用例 TC-2: 边界条件 - 红包门槛超限
     */
    @Test
    public void testBuild_ThresholdExceeded_ShouldReturnNull() {
        // 准备数据：门槛25元，超过配置的20元
        List mockFunds = Arrays.asList(
            createFund(1L, 500L, 2500L)
        );
        // Mock（配置amountThreshold=2000，即20元）
        JSONObject businessReq = new JSONObject();
        businessReq.put("amountThreshold", 2000L);
        when(dataService.execute(any(), eq(businessReq))).thenReturn(Collections.emptyList());
        mockBizResult(context, NnRedPacketDataService.class.getSimpleName(), Collections.emptyList());
        // 执行
        NnRedPacketVO result = builder.doBuild(context);
        // 验证（按规格预期结果）
        assertNull(result);
    }
    /**
     * 测试用例 TC-3: 异常场景 - FpProvider返回null
     */
    @Test
    public void testBuild_ProviderReturnsNull_ShouldReturnNull() {
        // Mock
        when(dataService.execute(any(), any())).thenReturn(null);
        mockBizResult(context, NnRedPacketDataService.class.getSimpleName(), null);
        // 执行
        NnRedPacketVO result = builder.doBuild(context);
        // 验证（按规格预期结果）
        assertNull(result);
    }
    /**
     * 测试用例 TC-4: 异常场景 - 用户未登录
     */
    @Test
    public void testBuild_UserNotLogin_ShouldReturnNull() {
        // Mock：userId = 0
        when(context.getUserId()).thenReturn(0L);
        when(dataService.execute(any(), any())).thenReturn(Collections.emptyList());
        mockBizResult(context, NnRedPacketDataService.class.getSimpleName(), Collections.emptyList());
        // 执行
        NnRedPacketVO result = builder.doBuild(context);
        // 验证（按规格预期结果）
        assertNull(result);
    }
    // 辅助方法
    private FundQueryDTO createFund(Long id, Long amount, Long threshold) {
        FundQueryDTO fund = new FundQueryDTO();
        fund.setFundId(id);
        fund.setAvailableAmount(amount);
        fund.setAmountThreshold(threshold);
        fund.setPayStatus(2);  // 可使用
        fund.setStartTime(System.currentTimeMillis() - 3600000);  // 1小时前开始
        fund.setEndTime(System.currentTimeMillis() + 3600000);    // 1小时后结束
        return fund;
    }
}

SDD带来的改进

一致性显著提升

代码层面：

所有代码都严格遵循规格说明，消除了理解偏差
不同开发者实现相同规格，代码风格完全一致
代码变更时，必须先更新规格，保证文档与代码同步

业务层面：

产品、开发、测试对需求的理解高度一致
减少了需求理解偏差导致的返工

可测试性大幅提升

测试覆盖：

自动生成的测试用例覆盖了所有正常和异常流程
测试用例与规格说明一一对应，确保完整性
边界条件和异常场景都有明确的测试用例

测试质量：

Mock方式规范统一，符合项目最佳实践
断言准确全面，不会遗漏关键验证点
测试代码可读性好，易于维护

可维护性显著改善

文档永不过期：

规格说明就是最准确的文档
任何变更都先更新规格，再同步代码
新人通过阅读规格说明就能快速理解功能

变更影响分析：

修改规格时，清晰知道影响哪些代码模块
依赖关系在规格中明确定义
重构时可以基于规格验证正确性

代码可读性：

代码结构清晰，层次分明
注释完整准确，与规格保持一致
命名规范统一，易于理解

团队协作效率提升

新人通过阅读规格说明快速上手
跨团队协作时，规格成为统一语言
历史需求回溯更容易，规格即完整记录

SDD的问题与挑战

虽然SDD带来了价值，但在实践中也遇到了一些明显的问题：

问题1：规格编写门槛高

现象：编写高质量的规格说明需要较强的抽象能力和文档编写能力

新手往往写不好规格，过于技术化或过于模糊
规格模板虽然有，但如何填写仍需要经验
不合格的规格对后面的代码实现影响

影响：对于简单需求，写规格的时间甚至超过直接写代码

问题2：Spec Kit工具链不成熟

遇到的具体问题：

规格解析不准确
- AI有时无法正确理解规格中的复杂逻辑
- 需要用非常精确的语言描述，稍有歧义就可能理解错误
代码生成质量不稳定
- 相同的规格，不同时间生成的代码质量差异大
- 有时生成的代码过于冗长，有时又过于简化
增量更新困难
- 规格修改后，很难做到只更新变化的部分
- 往往需要重新生成整个文件，导致手工修改的部分丢失

问题3：与现有代码库集成困难

现象：我们的代码库已经有大量历史代码，SDD更适合从零开始的新项目

历史代码缺乏规格说明，无法纳入SDD体系
新老代码风格混杂，维护成本反而增加
团队一部分人用SDD，一部分人用传统方式，协作困难

问题4：学习成本高

数据：

写出合格的第一份规格说明，平均需要3-5次迭代
老员工接受度较低，认为”还不如直接写代码快”

SDD适用场景分析

经过3个月的实践，我们总结出SDD的适用场景：

适合使用SDD：

✅ 全新的项目或模块

✅ 核心业务逻辑，需要长期维护

✅ 复杂度高，需要详细设计的功能

✅ 多人协作的大型需求

✅ 对质量要求极高的场景

不适合使用SDD：

❌ 简单的工具函数或配置修改

❌ 快速验证的实验性功能

❌ 一次性的临时需求

❌ 对现有代码的小修改

当前最佳实践 -

Rules + Agentic Coding + AI文档汇总

融合各阶段优势

核心思路：

用Rules约束AI
用技术方案指导实现
用Agentic Coding快速迭代
用AI汇总文档保持同步

技术方案模板优化

我们优化了技术方案模板，更加轻量级：

# [需求名称]-技术方案
## 业务定义
[简要描述业务背景和目标，1-2句话]
## 业务领域对象
[如果需要新增/修改BO或DTO，在此说明]
## 模块领域对象
[需要新增/修改的VO对象]
| 对象含义 | 实现方案 | 属性及类型 |
|---------|---------|-----------|
| [对象名] | 新增/修改 | 1. 字段1：类型 - 说明
2. 字段2：类型 - 说明 |
## 数据服务层
[需要新增/修改的数据服务]
| 数据服务定义 | 实现方案 | execute逻辑 |
|------------|---------|-----------|
| [服务名] | 新增/复用 | 1. 步骤1
2. 步骤2 |
## 模块构建器
[需要新增/修改的模块构建器]
| 模块构建器定义 | 实现方案 | doBuild逻辑 |
|--------------|---------|-------------|
| [构建器名] | 新增/修改 | 1. 获取数据
2. 处理逻辑
3. 构建VO |

特点：

比SDD规格更轻量，编写时间从2小时降低到30分钟
比纯Agentic Coding更规范，有明确的结构约束
聚焦于”做什么”，而非”怎么做”（实现细节交给AI）

AI文档汇总机制

即：让AI自动维护”整体架构与业务逻辑文档”

文档汇总流程

1	完成需求开发 → 提交AI："将本次代码逻辑汇总到汇总文档" → AI分析代码 → AI更新文档

Prompt示例：

我刚完成了NN红包模块的开发，请分析以下代码：
- NnRedPacketDataService.java
- NnRedPacketModuleBuilder.java
- NnRedPacketVO.java
然后将其业务逻辑汇总到"NN业务整体架构与逻辑文档.md"中，确保：
1. 描述模块的核心功能和业务价值
2. 说明数据流转过程
3. 列出关键的业务规则和判断逻辑
4. 保持与现有文档的风格一致

架构文档结构

# NN业务整体架构与逻辑文档
## 一、业务概述
[业务背景、目标、核心价值]
## 二、整体架构
### 2.1 技术架构
[分层架构图、技术栈]
### 2.2 模块组成
[各个模块的功能和关系]
## 三、核心模块详解
### 3.1 NN Feeds模块
#### 3.1.1 功能说明
[模块的核心功能]
#### 3.1.2 数据流转
[数据从哪里来，经过哪些处理，最终输出什么]
#### 3.1.3 关键逻辑
[重要的业务规则、计算逻辑、判断条件]
#### 3.1.4 代码位置
[对应的类和方法]
### 3.2 NN红包模块
[类似结构]
### 3.3 NN吊钩层模块
[类似结构]
## 四、数据服务层
[各个数据服务的功能和依赖]
## 五、关键流程
[重要的业务流程时序图]
## 六、配置说明
[配置项说明]
## 七、扩展点
[未来可能的扩展方向]

AI汇总效果示例

AI生成的文档片段：

### 3.2 NN红包模块
#### 3.2.1 功能说明
NN红包模块用于在NN频道页面展示用户可用的红包列表，帮助用户了解可以使用的优惠，提升转化率。
#### 3.2.2 数据流转
用户请求 → NnRedPacketDataService 
         → 调用FpProvider查询用户红包
         → 过滤可用红包（状态=2，未过期，门槛<=20元）
         → 返回红包列表
         ↓
NnRedPacketModuleBuilder
         → 获取红包数据
         → 红包排序（NN专属优先，门槛从小到大）
         → 构建NnRedPacketVO
         → 返回前端

#### 3.2.3 关键逻辑
**1. 红包过滤规则**
```java
// 只展示满足以下条件的红包：
// 1. 状态为可使用（payStatus = 2）
// 2. 未过期（当前时间在startTime和endTime之间）
// 3. 门槛 <= 配置的amountThreshold（默认20元）
if (fund.getPayStatus() != 2) return false;
if (fund.getStartTime() > now || now > fund.getEndTime()) return false;
if (fund.getAmountThreshold() > amountThreshold) return false;
**2. 红包排序规则**
```java
// 排序规则：
// 1. NN专属红包（配置的nnRedPacketPoolIds）优先
// 2. 其次按门槛从小到大排序
funds.stream()
    .sorted(Comparator
        .comparing(fund -> nnPoolIds.contains(fund.getFromFundId()) ? 0 : 1)
        .thenComparing(FundQueryDTO::getAmountThreshold))
**3. 总金额计算**
```java
// 计算所有可用红包的金额总和
String totalAmount = funds.stream()
    .map(FundQueryDTO::getAvailableAmount)
    .reduce(0L, Long::sum)
    .map(PriceUtils::getPriceFenToYuan)
    .orElse("0.00");
#### 3.2.4 代码位置
- 数据服务：`NnRedPacketDataService`
  - 位置：`dataservice/impl/nn/NnRedPacketDataService.java`
  - 核心方法：`execute(InvocationContext, JSONObject)`
- 模块构建器：`NnRedPacketModuleBuilder`
  - 位置：`module/nn/NnRedPacketModuleBuilder.java`
  - 核心方法：`doBuild(InvocationContext)`、`sortFunds(List)`
- 模块VO：`NnRedPacketVO`
  - 位置：`domain/module/nn/NnRedPacketVO.java`
#### 3.2.5 配置项
```json
{
  "nnRedPacketPoolIds": "1001,1002,1003",  // NN专属红包池ID
  "amountThreshold": 2000,                  // 红包门槛上限（分）
  "expandText": "展开查看更多"              // 展开文案
}

思考总结

在淘特导购业务的AIcoding实践中，我们经历了从简单代码补全到Agentic Coding，再到基于规则和SDD的编程模式的演进过程。每个阶段都有其价值和局限性：

初期探索让我们认识到AI在编码辅助方面的潜力，但也暴露了缺乏规范指导的问题；
Agentic Coding提升了功能实现的完整性，但可延续性和一致性仍有不足；
基于规则的模式有效解决了代码规范和架构一致性问题，成为当前的主要实践方式；
SDD尝试虽然在理念上很有价值，但在实际应用中还需要进一步完善。

虽然在SDD编程方面遇到了一些挑战，但我们认为AI规范化编程是未来发展的方向。团队中的同学正在持续探索和优化：

完善工具链：改进Spec Kit等工具，提升自动化能力
优化流程整合：更好地将SDD模式与现有开发流程结合
降低学习成本：通过培训和实践案例帮助团队成员适应新模式
持续改进规则：根据实践经验不断完善规则定义

我们相信，通过持续的探索和实践，一定能找到更适合团队的AI辅助编程模式，进一步提升开发效率和代码质量。

Kuikly 开发框架笔记

2025-12-30T09:32:58.000Z

Kuikly 开发框架笔记

Kuikly（Kotlin UI Kit，发音同quickly），是使用Kotlin开发了声明式UI框架，映射到系统原生控件做渲染，最终用KMM（Kotlin Multiplatform Mobile）实现跨端。
Kuikly是一个开发语言高度同源的跨端框架，从业务代码、UI框架、布局层以及渲染层全部使用Kotlin语言（iOS渲染层是OC），这样不仅减少跨语言通信的性能成本，而且开发体验上更纯粹和高效。编译产物上，Android端采用原生的AAR方式，而iOS端通过KMM编译生成.framework，这样就不仅保证了原生开发体验，也保证了原生性能。如果希望实现动态化，Android端可以通过KMM编译成SO，iOS端可以编译成JS（KMM已经可以编译成Wasm，未来有稳定版本后就可以正式使用）。Kuikly具有优异的原生开发体验，相比于Hippy，更符合终端开发习惯。

跨端框架对比

对比维度	H5	Hippy	Hippy + 预渲染/预加载	Hippy-SSR + 强缓存	Kuikly
性能表现	首屏 >1300ms	首屏在 800ms~1000ms	首屏 <300ms	非首次 ~350ms 首次 ~800ms	安卓原生 iOS接近原生
方案说明	传统的基于 WebView 的前端开发方案，拥有最广的通用性	Hippy 相对于 WebView 是一个更轻量的 UI 引擎，内存占用只有 20MB，能实现 Hippy 的主进程运行	在 Hippy 的基础上，针对核心页面加入预渲染/预加载能力，进一步提高启动性能	在 Hippy 的基础上引入服务端渲染 + 强缓存能力，能针对所有页面进一步解决非预渲染场景下的启动问题和版本覆盖问题	Hippy 固有的终端+JS 的跨端方案，对于 iOS 端能力受限，需要新的能力来突破前端的 JS 边界，而基于 KMM 的 Kuikly 则是直接建立在纯终端之上，能做到更好的能力扩展
存在问题	问题1：消耗资源多，启动慢（>500ms） • WebView 内存占用超过 200MB • 安卓 X5 需要 tool 进程启动，动态预加载 5 分钟内会自动释放，命中率低问题2：缓存策略不可控 • 只能基于 HTTP 的缓存策略，无法通过编程的方式控制	问题1：版本无法实时更新 • Hippy 通过异步拉取模式进行更新，需要用户二次访问才能生效问题2：JS 包大小影响启动性能 • Hippy 引擎启动快，但是需要动态载入业务 JS 包，JS 包越大加载启动越慢	问题1：预渲染命中率低 • 动态预渲染的整体命中率不到 10% • 后端请求放大问题2：终端资源占用 • 在预渲染模式下，除了加载 Hippy 引擎外还需要运行业务代码，整体内存占用超过 40MB	问题1：首次访问的加载问题 • 首次载入 JS 包时需要请求网络，同时由于没有本地缓存，白屏时间较长问题2：可交互耗时仍有优化空间 • 服务端渲染能解决首屏问题，但可交互仍需要加载完整的 JS（>1s）进一步思考： • 版本覆盖问题 • 动态模式下性能问题 • 能力与接口丰富度	-
优化措施	WebView 启动慢： • 预加载 tool 进程 • 点击/网络请求并行 • 预截图缓存策略不可控： • 升级 HTTP2（server push） • 离线包提高静态资源缓存命中率 • 基于 PWA 通过编程的方式控制缓存策略	版本覆盖问题： • 支持预下载能力 • 支持同步更新策略 JS 包大小问题： • JS 分包策略 • 支持离线包能力	预渲染命中率低： • 只针对特定入口启动 • 优化预渲染策略：红点+活跃用户资源占用问题： • 低端机器降级为预加载 • 长时间不启动自动释放	首次访问无缓存白屏： • 内置骨架屏+动态数据 • 缓存数据预下发 • 终端强缓存能力提升可交互耗时： • 点击/网络请求并行 • JS 分包策略 • JS 内嵌直出能力 • JS 提前载入内存	-
安装包大小		RN7.5MB, Hippy 3.8MB			0.3MB

Kuikly 和 ComposeDSL 的对比

最终选择方向 2

对比官方Compose 区别

特性	Kuikly	官方
平台支持	iOS, Android, 鸿蒙、H5、小程序	iOS, Android, PC, H5
动态更新	支持	不支持
渲染层	纯原生	Skia渲染
包体积	较小	较大

Kuikly 架构图

Kuikly 跨端渲染原理

将 Kotlin 代码编译成各个平台可执行产物
运行时调用各平台 Native 层渲染接口进行渲染
1. RN 框架的流程 (三个虚拟树)
  1. 创建JS DOM 树 (平台无关)
  2. C++ 影子树 (平台无关)
  3. 原生渲染树
2. 问题 - 跨语言序列化反序列化开销
3. Kotlin 只维护一个树, 直接映射到原生渲染
  1. 在 Kotlin 层构建原型树
  2. 在 Kotlin完成测量和布局(影子树)
  3. 各平台支持统一的渲染接口, 如创建/删除/插入/设置属性/设置节点位置
  4. 转到平台各自原生渲染层,
原生渲染层, 渲染分为三种类型承接:
1. View 通用属性
  1. Modifier.border 映射到 View.border
  2. .background 映射到 View.background
  3. .scale 映射到 View.transform
2. 原子组件
  1. Text () 创建组件 TextView
  2. Image() 创建组件 ImageView
  3. LazyXXX() 创建组件 ScrollView
3. Canvas 渲染
  1. Canvan { drawRect, drawCircle} 转发原生 CanvasView -> drawRect/ drawCircle

Kuikly DSL语法

声明式 api: 在原类拓展一个 init 的语法糖, 比如 TextView, 对应语法糖是 Text,
使用@DslMarker解决不能 Text 不应该嵌套的问题

Diff 性能

对比维度	类RN	Flutter	Compose	SwiftUI
框架类型	跨平台框架	跨平台UI框架	Android声明式UI	iOS声明式UI
Diff方案	运行时虚拟Dom Tree Diff	运行时Element Tree Diff	编译时+运行时Diff	编译时+运行时Diff
Diff性能	O(n)	O(n)	O(1-n)	O(1-n)
优化策略	虚拟DOM树对比	Element树对比	编译时优化+运行时增量更新	编译时优化+运行时增量更新

调研结果：现有框架没有完全O（1）的解决方案

Kuikly 解决方案:

if -> vif
else -> velse
elseif -> velseif
when -> vbind
for -> vfor
开发的时候需要额外学习成本, 渲染时候能精确更新, 实现 O(1)的性能

怎么基于 Kotlin实现响应式?

基于 Kotlin 的属性委托能力 by observable() 将属性变成响应式属性
属性 getter/setter 触发时候, 触发依赖收集/订阅分发
只收集单向依赖, 破解死循环

比鸿蒙原生还快

鸿蒙性能优化关键点

llvm 的 CPU Feature参数错误导致内联(inline)生效, 修正后性能提升 30%
鸿蒙软件模拟了线程私有参数, 导致频繁 throw 的时候性能低下, 提升 30%
GC 优化

Qcon 上海 2025 Vibe Coding 在代码生成与协作中的实践与思考

2025-12-25T16:28:24.000Z

Vibe Coding 在代码生成与协作中的实践与思考 - 向邦宇

自我介绍：

多年从事研发者工具开发，包括内部 AI Coding 工具和 Web IDE 工具
从 2023 年开始，从内部 Copilot 转型到 AI Agent 方向
作为产品提供方，接触了大量内部用户，观察他们如何使用工具以及遇到的问题

演讲选题思考：

Vibe Coding 概念出现几个月，但并非确定性的东西
不同人对 Vibe Coding 理解不同，使用的工具也不同
从两个视角分享：用户使用场景和问题、产品提供方的思考和解决方案

演讲结构：

简单介绍业界和内部有哪些 Vibe Coding 工具在使用
用户在使用 Vibe Coding 工具过程中遇到的问题
作为 Vibe Coding 工具核心主导者的思考
国产模型适配过程中遇到的问题和解决方案

Vibe Coding 产品形态

当前工具分类的模糊性：

大家对 Vibe Coding 工具的理解和分类不够清晰
每个工具都有人在用，但缺乏明确的定位

不同 Vibe Coding 工具的主要区别

1. Native IDE（原生集成开发环境）

代表产品：Cursor、Cline、阿里 Qoder 等
特点：以独立 IDE 形式存在
优势：灵活性高，功能完整

2. IDE Plugin（IDE 插件）

代表产品：内部 Aone Copilot 等
基于现有 IDE（主要是 VS Code 或 JetBrains）的插件形式
内部用户使用插件是比较主流的习惯
灵活性可能没有 Native IDE 那么高

3. Web IDE

入口在浏览器上
整个执行在远端容器里，可能是沙箱环境
优势：
- 解决信任问题和云端执行的安全问题
- 更适合协作：多个同学可以在同一个 Web IDE 里进行同步协作和分享
- 跨平台支持

4. CLI 命令行工具

代表产品：Copilot CLI
最初没想到会受欢迎，但实际上非常受主流研发欢迎
未来可能在被集成的方式（如 CI/CD）中执行一些自动化任务
在这种场景下会有更高的可能性

内部 Vibe Coding 工具的使用实践

Aone Copilot（依托于 IDE 的Wibe Agent工具）：

内部协作多年的产品
用户规模：数万用户，每周几千周活
主要使用场景：
- 代码生成
- Bug 修复
- 代码分析
用户分布：后端场景渗透率较高，前端用户更倾向使用 Native IDE（如 Cursor 或 Qoder）

AI Agent（异步容器执行的 Agent 工具）：

以 Web 端发起的容器内运行的异步任务工具
核心特点：用户通过自然语言发起任务
在异步容器里拉起 Agent，Agent 自己调用工具（搜索工具、文件读写工具、Shell 工具等）
用户角色更加多元：
- 主要用户：后端开发
- 其他用户：测试、前端、算法、产品、运营、设计、运维等
任务类型丰富多元：
- 代码分析
- 代码改动
- 单元测试
- 代码生成
- 文案方案调研等

工具尤其是 Agent 带来的效率提升

数据观察（从 4 月份开始的 Agent 模式）：

代码提交量的显著提升：

蓝色线：高频用户（使用 Agent 模式）
橙色线：其他用户
Agent 模式下，高频用户的每日代码提交行数有非常大的提升
到 9 月份，高频用户每天提交 540-560 行代码，其他用户只有 400 多行
至少从定量指标看，Agent 模式对提效肯定有帮助

用户分层现象：

Top 10% 用户的代码提交量是其他人的两倍
认为 Agent 对人的提效可能大于两倍，因为大量工作在协同、开会等非编码环节
Top 10% 用户的 Copilot 消耗占整体消耗的 80%

AI 新的应用场景：

单元测试由 AI 生成的提交代码占比越来越高
JDK 升级、NPM 包升级、SDK 升级等工作已经可以由 AI 完成
- JDK 11 及以上版本升级场景，内部基本全部交给工具处理
数据分析、数据整理工作部分交给 AI
传统必须由人完成的任务现在由 Agent 完成：
- 测试过程中的截图
- 压测过程中的重复任务
过去成本过高无法做的事情现在可以做：
- 一次发布是否会引起其他相关系统故障
- 每一行代码对其他系统的影响分析

用户使用 Vibe Coding 工具遇到的问题

用户情绪问题

AI 表现不足导致的崩溃：

后台日志中大量用户抱怨”AI 太笨了”等激动的话
用户反复删除代码、修改代码的行为
无论公司内部还是社区，都能看到用户因 Agent 能力不足而崩溃

GitHub 上的”八荣八耻”提示词：

用户分享给 Agent 的提示词规范
例如：”以不能修改原始代码为荣”等

5.2 代码质量问题

我们看到的 Vibe Coding 的问题是多方面的

代码风格不一致
- 生成的代码质量和风格差异较大
- 在存量仓库里写代码时，可能以自己的风格编写，而非遵循项目规范
边界条件处理不完善
- 对复杂业务逻辑的边界情况处理不够充分
性能缺陷
- 生成的代码存在性能问题
安全漏洞
- SQL 注入类漏洞严重
- 斯坦福研究表明：AI 生成代码中注入类漏洞比例约 45%
- 其他安全问题：
  - 接口注入
  - XSS 攻击
  - 逻辑错误
  - 边界条件处理错误
  - 异常控制

数字越界

代码逻辑自洽问题

AI 在代码生成过程中会有非常多的”自洽”
案例：数据去重函数及其对应的单元测试
- 测试通过率 100%
- 针对代码做了单测
- 但如果让 AI 同时写单测和业务逻辑，无法保证质量
- 会出现”自己和自己对话”的情况
建议：至少有一项（单测或业务逻辑）是人去 review 的

调试和维护困难

调试时间增加：

使用工具后，调试时间增加 30%-50%

黑盒问题
- Vibe Coding 更倾向于黑盒代码逻辑生成
- 虽然最后会让人确认代码 diff 才能提交
- 但生成过程是黑盒，不会有人认真看每一条
- AI 生成代码像”黑魔法”，出问题时完全不知道如何下手
- 技术债务越来越深
上下文理解局限
- 存量任务的业务逻辑可能积累十几年
- 有些代码为什么要这么写？有些代码是否能去掉？对 AI 来说都很困难
- Vibe Coding 工具缺乏全局思维
- 生成的代码模块化程度不够，代码耦合度很高
- 解决方案：RepoWiki, DeepWiki 等方案
缺乏可追溯性
- Vibe Coding 一次性生成大量代码
- AI 无法知道：是新需求导致代码写错，还是一开始就写错了
  - 缺乏版本管理和版本概念
  - 一次生成代码出错后，不知道从哪个地方回滚
- 现有方法：
  - 每次改完测试通过后提交一个 commit, 下次可以从这个 commit 回滚
  - 使用 Cursor 等回滚工具
- 但仍然缺乏可追溯性，用户无法做版本管理，无法回到正确状态，只能重来

Vibe Coding 工具普遍不会使用常用的调试工具

AI 普遍不会使用人类常用的调试工具
传统”古法编程”中，开发者大量使用 Debug、断点等工具
浏览器上也可以做调试
但让 Vibe Coding 工具使用这些调试工具去找堆栈、找问题非常困难
工具能力缺失导致的问题：
- AI 只能打大量的 console.log, 让用户执行完后，把 log 或控制台的报错、打印信息再粘贴给工具
- 需要人介入
- 不是高效的模式
大模型的调试手段比较单一，传统调试方法无法被大模型用起来

Vibe Coding 工具本身存在的问题

1. 稳定性和成功率：

最大的问题
Vibe Coding 工具执行时间很长（30 秒到 5 分钟）
不是每次都能成功
失败原因：
- 模型问题
- 工具反馈不对
- 某些工具出错
- IDE 本身不稳定
用户体验：用过一次发现不稳定，在时间紧、任务重时就不会再使用

2. 交互界面设计问题：

大量 Vibe Coding 工具产品频繁改版，功能丢失
案例：Devin
- 改版后用户找不到原来的功能
- 工具里增加越来越多功能（剧本、MCP 市场、知识引入等）
- 现在再看又没有了
交互界面频繁改版

3. 沟通和交互障碍：

理解能力不足：AI 无法完全理解用户意图，需要反复确认
不同场景下确认的必要性不同：
- 复杂任务：需要确认（如 SpecCoding - 先建需求、生成设计稿、再让 AI 做）
- 简单任务：不需要确认，需要 Agent 自由探索

4. 长链路任务执行能力不足：

无法维持长期上下文
Agent 大模型的 token 有上限
上下文过长时，记忆和召回能力不足

5. 工程工作流程中断：

大量工具（IDE, CLI, Web Agent 等）各有擅长领域
无法让用户在相同流程或上下文窗口里解决问题
案例：在 IDE 里做一件事,需要切换CLI, 重新给 Agent介绍诉求和需求
导致用户在不同工具间频繁切换

成本问题

成本问题导致各方不满意：

1. Agent 的 Token 消耗巨大：

代码补全场景：
- 调用频次高
- 单次消耗约 4000 Tokens
Vibe Coding 任务：
- 单次消耗百万级甚至千万级 Tokens
- 原因：
  - 上下文更长
  - 交互轮次多（几十上百次）

2. Vibe Coding 加速带来的技术债务：

技术债务反而对 Agent 提出更高要求

3. 成本上升导致产品方频繁调整计费逻辑：

产品方（Cursor、Qoder 等）频繁切换计费逻辑
没有任何一款产品敢保证包月或无限次使用
成本压力导致产品设计不断调整：
- 压缩上下文
- 削减能力
恶性循环：
- 成本降低 → 成功率下降 → 用户多试几次 → 成本又上升
产品方为了活下去压缩成本，但效果变差，用户要多试几次，成本又上去
使用闭源模型（Claude、GPT-4、GPT-5）后成本难以下降

5. 缺乏规模效应：

大模型应用有规模效应，但不明显
不存在”用户规模越大，成本就越低”的效应
Token 成本是固定的

产品自身也遇到的挑战

产品的演进导致模型成本越来越高

Token 消耗的演进：

代码补全场景：
- 单个任务：约 4000 Tokens 输入
- 输出：20-30 Tokens
Chat 模式：
- 单个任务：约 1000+ Tokens 输入
- 输出：约 4000+ Tokens
单个 Agent 模式（IDE/CLI）：
- 单个任务：约 10 万级 Tokens
具备独立容器的 Vibe Coding Agent：
- 能广泛使用各种工具
- 实现各种内容、各种任务类型
- 单个任务：百万级 Tokens
未来的架构（Cursor, TRAE 等）：
- 单个任务：可能上亿 Tokens

产品设计的两个同等重要目标：

用户满意度
成本控制能够匹配用户规模

产品形态的问题

1. 产品界面区分度不够：

无论 Chat 产品还是 Vibe Coding 产品，都处于摸索阶段
模型能力变化使产品不断变化
所有产品都是一个对话框（ChatGPT、DeepSeek、AI 产品）
用户难以区分不同产品的区别

2. 用户缺乏引导：

给用户一个对话框，但用户不知道应该输入什么
“Prompt Free”现象
不同工具有不同使用场景，但用户往往一刀切
用户印象中产品应该能做什么，但试用后发现达不到目标
功能学习成本高，使用频次低
留存率非常低（Devin 等 Vibe Coding 工具都存在这个问题）

3. 缺乏一站式功能闭环：

无法在一个产品里解决所有问题
案例：
- 一个 Vibe Coding Agent 能解决复杂产品问题
- 但又能解决小白/初学者问题
- 小白面临的问题不仅是代码能否写完，还有发布、部署、调试等
发展过程中存在各种调整

安全风险问题

案例 1：Cursor 删除本地代码：

Cursor 把用户本地代码删掉
类似的小 case 还有一些

案例 2：Anthropic Claude 被劫持：

今年出现好几次
Claude 被劫持后，让 Vibe Coding 工具在用户网络里探测漏洞
写代码把敏感信息暴露出来

内网使用的安全考虑：

不能完全相信 Vibe Coding 工具
供应链攻击问题
开源代码的风险：
- 很多人在开源社区里种木马
- 不注意可能拉取到的 SDK 或代码存在漏洞
Vibe Coding 工具对代码和电脑有基本控制权
能够自由探索，找到系统漏洞并攻击

Agent 建设过程中一些经验分享

All In One 架构导致成本几句上升

最初的 All In One 架构问题：

建设 Vibe Agent 时采用的架构就是一个输入框
外围：MCP 工具、knowledge、Playbook 一些剧本
最外围：场景图（数据处理、后端开发、前端开发、代码浏览、风险管理等）

All In One 架构的问题：

所有工具都放入沙箱
Context 特别长，无法压缩成本
最开始一个任务调用 Claude 模型需要几百块钱成本，非常高
任务成功率低
All-in-one 时，所有工具和 knowledge 放在一起：
- 成本特别高
- 占用特别长
- 消耗大量资源
很难针对不同场景进行调优
- 案例：与 Bolt 等产品对比，发现它们在前端场景有很好实现
- 但自己的产品在前端场景做得不够让人满意

知识和数据建设

代码数据建设
- 通过建设 DeepWiki、RepoWiki、Embedding 数据库
- 增强对整体代码库的搜索、理解和搜索能力
研发行为数据
- 构建、CI/CR、发布、监控等行为数据
- 背靠整个集团内部平台（发布平台、代码平台等）
- 建立代码数据和需求数据与这些行为的组合
文档知识库
- 问题：文档知识库无法被Agent 直接用起来
- 原因：
  - 文档可能过时
  - 前后矛盾
  - 图文混杂
  - 存在错误信息
- 直接把这些信息丢给 Agent 会产生误导
- 解决方案：
  - 不用传统 RAG 技术解决
  - 建立中间层
  - 面向 Agent 的数据处理协议
开发者知识沉淀
- 很多知识不在文档里，也不在代码里，在开发者脑子里
- 需要产品设计帮助用户沉淀这些知识
- 不是靠任何东西生成，而是靠人来写

Agent 对上下文记忆处理的几个核心

记忆处理机制：

写入
提取
压缩
隔离

任务管理和技能交互
文件操作
- 读写编辑
- 文件管理
命令行和执行监控
- Agent 可以执行命令行
- 有些命令是长耗时的
- 如何监听命令结果
- 超时后如何 kill 掉
浏览器自动化工具
- 执行网页操作
- 使用 Playwright 等方式点击页面, 帮助登录或解决交互问题
手机相关工具
多媒体工具
开发工具
- 将用户写的代码部署、调试到指定地方
协作工具
- 团队协作
- 任务分享给其他人
- 基于任务继续协作
高级功能
- 并行执行优化
- 网络搜索

成本控制方案

Token 消耗优化历程：

最开始：400-1000 万 Tokens/任务
意识到这是最严重的问题
通过各种设计和操作降低 Token 成本

国产模型适配实践

为什么要拥抱国产开源模型

国外闭源模型的风险：

成本高
- 复杂问题往往很长
- 能让 Agent 在复杂任务下跑起来的模型非常贵
隐私问题：
- 闭源模型存在合规风险
被限流和被降质：
    - 即使用同一个供应商的模型
    - 不同时候表现也不一样
    - 有时会出现格式不对、陷入循环等问题
国外模型的备案问题：
- C 端用户使用可能存在备案问题

国产模型在短链和长链任务的问题

短链任务表现已经很好
长链任务还存在一些问题

国产模型存在的问题

死循环问题：
    - Agent 有很多选择和路径
    - 执行过程中可能陷入某种循环
    - 反复出不来
    - 案例：反复打开一个文件、反复执行某一项命令
格式遵循能力不足：
    - 常见问题：XML 标签格式不准确
    - 前后无法匹配
    - 导致无法被正确解析
    - 容易失败
指令遵循问题：
    - 在高达百万 Token 的上下文下
    - System Prompt 里给的规则
    - 模型如果没有被训练到，很难使用这些工具
    - 运行过程中会忘记某些指令
全局智能问题：
    - 观察发现模型存在全局任务理解能力缺陷
    - 容易陷入”一步一步看”的情况
    - Token 消耗大
    - 步骤时间长

解决方案

针对稳定性问题：
- 主流模型的切换和重试
应对速度慢和 Infra 稳定性问题：
- 当模型输出被截断时
- 做一些有效输出或续写设计
健康检查和死循环检测：
    - 在 Agent 里做检测
    - 针对重复执行某个指令的死循环场景
    - 相同错误点的无限循环问题
    - 陷入明显错误逻辑时能够检查到
格式检查和修复：
- 检测到不完整标签时
- 通过堆栈方式自动补齐缺失的结束标签来修复

重试机制

主备切换

工具的解析与自动修复

成果

在内部基本已经把国外模型全部去掉
内部全部使用国产模型
实时检测任务是否进入死循环
进入死循环后进行干预：
- 把后面任务执行截掉
- 对任务总体做 summary 压缩
- 让它继续往下走

模板化设计解决 Prompt Free 问题

Prompt Free 问题

普通用户/小白用户面临的问题：

不知道产品能干什么
知道要干什么，但不知道如何提要求
不知道在产品里使用什么样的工具或知识
导致任务成功率很低
Token 消耗也很大

模板化解决方案:

某个垂直任务，有人通过很多探索做成功了（很满意）能否把它抽象成一套模板？
针对不同垂直场景不断积累这些模板
使成功率变高，Token 消耗变低
面对对话框时给用户一些灵感

模板的本质：

一套工具的组合
一个知识的组合

使用流程：

用户看到对话框
先选一个模板
再执行任务

效果：

约 50% 的用户任务现在都用了模板
使用模板后任务成功率提升

总结下：

固化 Prompt
固化工具
固化知识
形成模板后，用户生成任务时先选模板，再执行

架构上的更多创新

长上下文任务的问题

案例：

先做深度调研
- 要先写一个网页
- 再写一个 PPT

单 Agent 的问题：
- 上下文非常长
- 需要频繁做 summary、压缩
- 裁剪工具输出
- 才能保证任务质量高
没有子 Agent 之前的主任务需要频繁做所有琐事
- 从上到下每个步骤：
  - 调网页
  - 打开网页
  - 把网页内容写下来
  - 做 summary
  - 写 PPT
  - 写网页
- 项目越来越长, 任务执行完成率非常低, 效果也不好

Agents 拓扑解决方案

灵感来源：

Manus 1.5, 提出 Agents 拓扑概念
Agent 本身也是一个工具

实现方式：

假设有一个 Deep Research 工具，做得很好
可以自己做网页搜索、做 summary
主 Agent 只要调用它就够了
把这部分工具抽象出来，成为一个工具

演进路径：

过去：Function Call
后来：LLM Call
现在：用 Agent 来做
把一个 Agent 当作一个工具去做子任务

微言 | wyanassert 个人工作总结

一次服务器排查经历

用 AI 做需求澄清：从「找问题」到「辅助决策」的演进

背景：需求澄清是一个被低估的成本中心

第一阶段：打通主链路

最初的设计

SSE 解析的坑

TAPD URL 兼容性

版本管理：patch-based 版本链

Knot 凭证安全设计

第二阶段：平台化——从本地工具到协作平台

数据模型

状态机

完成澄清的并发控制

大模型调用边界的划分

产物生成

TAPD 回写：状态必须持久化

第三阶段：体验升级——从「找问题」到「辅助决策」

问题的核心

推荐答案和选项

归属体系扩展

协议生成：从推测到 Knot 生成

Knot 模型一致性

推荐确认人的坑

澄清项评论

工作量变化与 ROI 提醒

参考文档来源

产物重试

技术文档改为手动触发

第四阶段：统计口径和 AI 效果度量

采纳率的坑

漏报率

完成引导弹窗

各环节耗时统计

数据看板

第五阶段：体验细节和 UX 打磨

主版本（Primary Run）

首页筛选：我的需求澄清 / 全部澄清

UI 从工具页升级为 Dashboard

知识沉淀

几个关键设计决策的反思

小结

Codelix 客户端三端需求开发流水线设计：从 iOS 迁移到三端统一的工程实录

背景

一、iOS 流水线的设计：7 个 Agent 的协作链路

二、iOS coder 的性能灾难

根因一：路径搜索空转

根因二：工具白名单过宽

根因三：没有轮次收敛机制

解决方案

实测效果

三、iOS 编译验证：5 轮假设才找到真正根因

核心教训

四、Fix Mode 的设计：编译、语义、CR 三类修复

Fix Mode 独立 Agent

优化前的实测数据（22:30 那一轮）

优化后效果

三类 Fix 统一设计（Unified Fix Mode）

CR Fix 引入了新编译错误

五、Kuikly 接入：一个低级 bug 导致所有 Agent 全部被拦截

六、Android 需求分析：21 分钟 4 次 Compacting

七、五轮跨三端统一优化

第一轮：收敛广撒网

第二轮：为了补覆盖率，耗时再次劣化

第三轮：三端统一 + 方案设计约束

第四轮：Contract Gate

第五轮：把闭环延伸到编码 + 校验

八、工程保障：为什么不能只靠提示词

九、首轮试点数据

Android 阶段明细（最复杂的一单）

关键观察

十、几个核心设计决策

小结

iOS AutoFix Agent 阶段性收尾：可迁移的 Agent 工程经验沉淀

前言

V5 走到了哪里

当前的分层架构

可迁移的工程经验

1. 先有编排框架，再往里插能力

2. 闸门是一等公民 + 智能回退

微言 | wyanassert
个人工作总结