A Course on Building Agents

学会设计与工程化一个 AI Agent

从能力设计到生产交付，一门问题驱动的 AI Agent 工程公开课。两条主线：把 Agent 当产品来设计，把 Agent 当系统来交付。

AAgent 产品与能力设计6 讲

以 L3 五维能力为主轴，技术地基五层做底座。讲「怎么设计与评估一个 Agent」。

第 0 讲

为什么搞懂 Agent，要先把它拆成五层来看

Agent 的能力与故障都长在 Loop / Tool / Planning / Memory / Multi-Agent 这五层地基上。

第 1 讲

为什么 Agent 接到任务后，第一步不该是动手

任务完成路径是 Agent 从需求到产出的拆解与推进能力，PM 要把它设计成可观测、可埋点的维度。

第 2 讲

为什么 Agent 失败不能笼统归因，必须按节点拆开

把 Agent 失败拆成输入 / 工具 / 推理 / 输出四类节点，先定位再改进。

第 3 讲

为什么没有错误恢复策略的 Agent 会一错就崩

用 4+1 分类、4 问诊断 SOP 和反模式清单，讲清 Agent 出错后如何活下来。

第 4 讲

为什么 Agent 的透明度不是越多越好

透明度不是一个标量，而是「对象 × 粒度 × 传达路径」的矩阵。给错对象，透明就成了负价值。

第 5 讲

为什么 Agent 不会守边界就会成为危险的「瞎自信助手」

把 4 类边界 × 4 行为模式拆成可设计、可度量的边界行为体系。

BAgent 工程地基6 讲

Harness、Gateway、上下文工程、评测、框架选型。讲「怎么让 Agent 可靠地跑起来」。

第 0 讲

为什么换更强的模型救不了你的 Agent，先修 Harness

模型是司机，Harness 是车；交付不了多半是车的问题，不是司机。

第 1 讲

为什么管不好上下文窗口，再聪明的 Agent 也会变蠢

上下文是 Agent 最稀缺的资源，用七维透镜和构成审计把它当系统来工程化。

第 2 讲

为什么 Agent 上了生产，先崩的不是模型而是那层管道

Agent Gateway：接入、路由、持久化、可靠投递、并发，让 Agent 真正活在生产环境。

第 3 讲

为什么 Agent 框架要按需求选，而不是默认上 LangGraph

用决策树和取舍表讲清 LangGraph / Checkpoint / Map-Reduce / Multi-Agent 何时该上、何时别上。

第 4 讲

为什么没有评测体系的 Agent 只能靠拍脑袋迭代

讲透 Agent 评测维度、测试集构建、输入质量分级路由与模型路由选型四件套。

第 5 讲

为什么多 Agent 平台不能一步到位，而要分四阶段长出来

从单 Agent 到多 Agent 平台的四阶段演进，及交接、共享、聚合三类新成本。

CHarness 工程7 讲

让 Agent 可靠地跑完长任务的工程方法论。以 walkinglabs《Harness Engineering》为骨架，融合一套真实项目里跑出来的实战做法。

第 0 讲

为什么能力强的 Agent 仍然会失败

失败多半不在模型权重，而在权重之外那层叫 harness 的工程基础设施。

第 1 讲

为什么模型一样强，效果却天差地别——Harness 才是那个变量

Harness 是模型权重之外的全部工程基础设施，五子系统是组件、四层防御是落地。

第 2 讲

为什么仓库必须成为 Agent 的唯一事实源

不在仓库里的信息对 Agent 等于不存在，知识必须沉淀为文件而非散在工具里。

第 3 讲

为什么一个巨型指令文件会拖垮你的 Agent

600 行的 CLAUDE.md 是自我强化的失败循环，拆成入口加分册才是解药。

第 4 讲

为什么跨会话的长任务会断片

长任务必然耗尽上下文，靠初始化与持久化工件让新会话三分钟接班。

第 5 讲

为什么 Agent 越界又做不完：WIP=1 与 feature list 原语

同时开多任务必全败，靠 WIP=1 加可执行验证的 feature 原语锁住边界。

第 6 讲

为什么跑通端到端才算完成，且每次会话都要留干净状态

单测过≠任务完成，完成判定必须外部化跑通 E2E，并以五维清洁状态收尾对抗熵增。

DAgent 设计模式（21 式）5 讲

Google《Agentic Design Patterns》21 个核心模式的中文精炼。一本「遇到这类问题用哪个套路」的模式食谱，补全前三个模块的盲区。

第 0 讲

21 个 Agent 设计模式的全景地图

把 Google《Agentic Design Patterns》的 21 个模式一次铺开、归成 6 组，并标注本课讲过没。

第 1 讲

反思与推理：让 Agent 回头改一遍、也想得更深

一遍过会错而不自知，反思带批评定向改，推理把思考显式化想得更深。

第 2 讲

学习与适应 + RAG：让 Agent 不再每次从零，也不再瞎编

学习让 Agent 从反馈中改进策略，RAG 让它接上你的私有知识——都在上下文层做文章。

第 3 讲

智能体间通信（A2A）：当 Agent 开始互相说话，话会变形

多 Agent 协作的真正难点不是分工，而是它们之间怎么传话不失真。

第 4 讲

优先级排序 + 探索发现：先做哪个，与如何不只走老路

优先级解决「先做哪个」，探索解决「敢不敢走没走过的路」——Module D 收官。

EContext Engineering 上下文工程7 讲

模型每轮实际看到的上下文怎么拼、怎么省、怎么验。以 7 层次为主轴，把 CE 从「读过方法论」练成「能拆、能埋点、能算账」。

第 0 讲

为什么模型这一轮看到的，从来不是你写的那段 prompt

模型每轮收到的上下文，是框架替你拼出来的一整坨；先让七层 100% 可见，才谈得上优化。

第 1 讲

为什么你读到的那份 prompt 文件，常常不是模型真正收到的 system

一条 system message 往往由多源拼成；规则该写文件还是写代码，看作用域、优先级、健壮性三连。

第 2 讲

为什么模型这一轮的输出，不该让它「既要念又要解析」

一段输出该说人话还是吐 JSON，唯一判据是「给谁消费」；工具该 eager 还是 deferred，看延迟红线乘以 tool 数量。

第 3 讲

为什么记忆「注进去了」，模型却用错了

记忆该不该注、注多少、注错了怎么办——七维透镜做决策，三层分工避免重复灌，相反本能让你别把记忆当圣旨。

第 4 讲

为什么对话历史会在你看不见的地方悄悄涨到爆

对话历史每轮在悄悄变长，多半是框架替你托管的，代码里看不见——只有实测增长曲线才照得出它离上限多远。

第 5 讲

为什么静态前缀打了 cache 标记，还是每轮重新付费

cache 是前缀逐字节匹配，差一字节后面全废；打标记不等于缓存，先数 token 过没过模型阈值。

第 6 讲

为什么你说的「优化生效了」，不拿日志根本没人信

cache 命中、上下文瘦身、压缩生效——每一句声称都得能用 usage 日志还原；没观测的优化只是玄学。

例实战示例3 篇

用框架拆解真实 Agent 产品

Claude Code

拆解 Claude Code：一个把五层架构做到极致的编码 Agent

用课程框架当透镜，拆解 Claude Code 的五层地基、透明度、错误恢复与上下文管理。

Cursor

拆解 Cursor：上下文工程与人在环透明度

用技术地基五层与 Harness 框架拆 Cursor，看它如何把整个 codebase 喂进有限窗口、用 diff 守住信任。

Parrot / Lassie

垂直 AI-OS 实战拆解：Parrot 与 Lassie 为什么先挖一口深井

用汽修 Parrot 和牙科 Lassie 对照，讲清「垂直深井型 Agent 产品」这一形态。