单主循环极简控制架构(高频)
- 核心设计:全程保留单一主线程,拒绝复杂多智能体嵌套;仅支持单层子代理,子代理不可二次衍生下级代理。
- 消息机制:采用扁平化消息历史,无层级嵌套,大幅降低日志排查、问题调试难度。
- 任务处理:简单任务依靠主循环迭代调用工具完成;复杂任务仅克隆轻量化子代理协助处理。
- 设计初衷:规避多层架构带来的运维复杂度,贴合大模型持续迭代的技术演进方向。
大小模型混合智能调度
- 落地数据:超50%的日常调用复用低成本Claude-3.5-Haiku小模型。
- 小模型适用场景:读取大文件、解析网页、梳理Git日志、对话总结、轻量化标签生成。
- 成本优势:小模型相比旗舰大模型,调用成本降低70%-80%,兼顾性能与性价比。
- 分工逻辑:复杂推理、核心编码、架构决策交由高阶大模型,基础算力任务下放小模型。
大模型用来推理,小模型用来简单任务
XML结构化提示词工程(中频)
- 标准化标签:自定义
<system-reminder>系统提醒、<good-example>正向案例、<bad-example>反向案例。 - 格式优势:替代杂乱纯文本指令,让大模型精准区分规则、案例、提醒三类信息。
- 辅助优化:搭配Markdown分级标题划分模块,进一步提升指令识别准确率。
claude.md全局上下文固化机制(高频)
- 核心特性:上下文文件永久挂载,每一次模型请求都会全量携带文件内容。
- 内容承载:固化团队编码规范、用户个性化偏好、隐性业务上下文(模型无法自主推导的信息)。
- 实战价值:彻底解决长会话上下文丢失、模型理解偏差、协作标准不统一的问题。
- 落地场景:团队协作开发、定制化AI编码助手、长期项目持续迭代。
三级分层工具架构(中频)
- 底层工具:Bash、Read、Write,覆盖基础读写与命令执行。
- 中层工具:Edit、Grep、Glob,适配高频代码编辑、检索场景。
- 高层工具:Task、WebFetch、ExitPlanMode,管控整体任务流程与外部资源拉取。
- 设计原则:高频操作定制专属工具,小众边缘场景复用通用Bash命令。
LLM原生检索替代传统RAG(高频)
- 技术选型:放弃传统分块、向量化、重排序的RAG架构,改用ripgrep、jq、find原生命令。
- 核心优势:无相似度匹配误差、无文本分块缺陷、天然适配代码、日志、JSON复杂文件解析。
- 底层逻辑:依托大模型原生代码理解能力,自主编写正则、筛选内容,规避RAG隐性故障。
智能体自主待办任务管理(中频)
- 运行模式:模型自主维护、修改、新增待办清单,无需人工干预或多代理交接。
- 价值作用:保障长周期开发任务上下文连贯,支持中途灵活调整开发方案。
- 能力依托:复用模型交错思考能力,实时校验、优化任务优先级。
AI输出风格强约束管控(低频)
- 硬性规范:禁止冗余开场白、无需求不追加代码注释、不随意使用表情包。
- 强化指令:通过IMPORTANT、NEVER、ALWAYS等强调词汇,锁定核心禁令与强制规则。
- 落地效果:统一输出标准,避免模型话术杂乱、专业度不足的问题。
- 提示词Token工程化配置:系统提示词、工具描述、上下文文件均有固定Token量级标准,平衡上下文承载力与调用成本;
- 子代理单层嵌套的底层容错原理:限制代理层级,杜绝递归调用引发的算力爆炸与逻辑死循环;
- LLM工具调用的频次优化逻辑:高频操作固化专属工具,减少重复推理,提升响应速度。
- 所有日志扁平化存储
- 全部下放小模型,仅架构评审、核心算法编码、复杂Bug修复启用旗舰大模型,
- 配置输出风格强约束,杜绝冗余话术,让AI输出贴合工程师专业习惯
有一个问题挺值得想的:假如一个任务你说不清楚「什么叫做完」,那大概率也不适合直接扔给 Claude 自主完成,验证标准本身都没有,Claude 再聪明也跑不出正确答案。
【AI】Claude Code 提示词的动态组装与缓存分界线(Prompt Caching)
Claude Code 将系统提示词视为「编译器的输出」,通过 SYSTEM_PROMPT_DYNAMIC_BOUNDARY 将提示词划分为静态和动态两部分。
- 静态部分: 位于分界线上方,API 会进行缓存处理,大幅降低 token 费用并提升响应速度。
- 动态部分: 位于分界线下方,实时注入 Git 分支、项目约定(CLAUDE.md)、历史偏好等。
- 工程价值: 将 Prompt 工程系统化,通过缓存边界优化,在高频对话中兼顾成本与环境感知。
【AI】Claude Code 每一个工具独立的「使用手册」(prompt.ts)
Claude Code 为其注册的工具提供了独立的 prompt.ts 文件,这本质上是写给 LLM 看的「行为准则」。
- 工具手册: 每次启动时,工具的使用规则会被注入系统提示词,明确 AI 的行为边界(如:禁止
git push --force)。 - 延迟加载: 只有当 LLM 需要时才通过
ToolSearchTool按需注入工具描述,减少不必要的 token 消耗。 - 原子化设计: 每一个工具(如 BashTool)都自带精密的安全防御逻辑,不仅仅是简单的 API 调用。
【AI】【最佳实践】Claude Code 的文件修改安全机制:先读后改
为了防止 AI 凭空生成代码导致文件覆盖错误,Claude Code 的 FileEditTool 强制执行「先理解再修改」的流程。
- 铁律校验: 工具会检查当前会话中是否已使用过
FileReadTool读取目标文件。 - 防御逻辑: 若未先读取文件,系统将直接报错并拦截修改操作。
- 核心逻辑: 这种「读-写」闭环确保了 AI 对文件内容的准确掌握,避免产生逻辑断层。
【AI】Claude Code 的仿生记忆系统与 KAIROS 模式
Claude Code 的记忆系统不依赖简单的关键词搜索,而是通过专门的 AI 模型(如 Sonnet)进行语义关联检索。
- 动态检索: 每次对话时,小模型会扫描记忆标题,选出最多 5 条最相关的记忆注入上下文。
- KAIROS 模式: 采用追加式日志存储长会话记忆,并在低活跃期通过
/dream技能进行「记忆蒸馏」。 - 工程实现: 这种「做梦」机制将原始日志转化为结构化的主题文件,实现了类似人类的知识沉淀过程。
【AI】Claude Code 的子 Agent 蜂群与协调器模式
在处理复杂任务时,Claude Code 会启动多 Agent 协作模式,通过分工提升处理效能。
- 角色分工: Coordinator(经理模式)负责任务编排,Worker(工人模式)负责具体执行。
- 并行策略: 只读研究任务并行执行,写文件任务按文件分组串行执行(避免并发冲突)。
- 缓存优化: 所有子 Agent 启动时使用相同的占位符文本,利用字节级匹配极大化 Prompt Cache 命中率。
【AI】Claude Code 应对 token 超限的三层自动压缩策略
面对 LLM 的上下文窗口限制,Claude Code 设计了梯次压缩机制,确保长对话「永不超限」。
- 微压缩 (Micro): 仅清理旧的工具执行结果(如长文件的读取内容),保留对话主线。
- 自动压缩 (Auto): 当 token 消耗达到 87% 时触发,设有熔断机制防止死循环。
- 完全压缩 (Full): 让 AI 对整段对话生成摘要并替换历史消息,摘要过程严格禁止调用其他工具。
- 预算分配: 为文件恢复、单文件内容和技能说明分配了固定的 token 预算。