上下文工程与智能体专题
这个专题面向已经不满足于写提示词的人。目标是让模型在真实任务里能读对资料、调用工具、跨步骤保持状态,并且能被测试和复盘。
学习路径
- 从提示词工程到Harness工程:让大模型稳定完成任务的系统方法
研究聚焦提示词工程在生产级大模型应用中的能力边界:为什么清晰指令能够改善单次回答,却难以保证长链路任务稳定完成。方法上,文章把 Harness 视为围绕模型构建的任务执行系统,从上下文装配、工具权限、状态管理、结构化输出、评估观测与人在环路六个维度重构 AI 功能。结论是,提示词仍是必要语言接口,但稳定交付依赖可恢复、可验证、可追踪的外部结构;成熟 AI 产品应把“模型会说”转化为“系统会干活”。
- 智能体与多智能体系统:规划、工具调用、记忆、协作与评测
研究聚焦智能体从单轮问答走向可执行任务时产生的系统问题:模型如何形成计划,如何调用工具,如何保存状态,多个智能体如何协作而不互相制造噪音。方法上,文章用“目标、状态、行动、观察、评测”的闭环解释单智能体,再用角色分工、协议边界和共享记忆分析多智能体。结论是,智能体不是角色扮演模板,而是带有执行权、状态迁移和验收机制的工程系统;多智能体的价值来自明确责任和可验证协作,而不是堆叠更多人格设定。
- 上下文工程实践:长上下文、RAG、记忆、压缩、路由和缓存
研究聚焦上下文工程在大模型应用中的实践问题:如何在长上下文、RAG、记忆、压缩、路由和缓存之间做系统性取舍。方法上,文章把上下文视为面向模型的动态供应链,分析任务上下文、知识上下文、会话上下文、记忆上下文、工具上下文和治理上下文的组织方式。结论是,稳定 AI 应用不应依赖“把材料全部塞进去”,而应通过边界定义、证据选择、状态压缩、链路路由和缓存治理,让模型在每次请求中获得最少但足够的信息。
- RAG工程全流程:切分、嵌入、召回、重排、引用、评测和线上监控
研究聚焦 RAG 从演示到生产的关键断点:为什么“文档进向量库、片段进提示词”不足以支撑可核验知识问答。方法上,文章把 RAG 拆为知识摄取、切分、嵌入、召回、重排、上下文组装、引用生成、评测监控七个闭环,并分别分析每个闭环的质量风险。结论是,生产级 RAG 是面向业务事实的知识供应链;回答质量来自知识覆盖、检索命中和生成约束同时成立,任何单点优化都无法替代端到端评测。
- Prompt模式库:角色、任务、约束、示例、评分器、反思和工具协议
本文把 Prompt 视为面向大模型的任务接口,而不是可复制咒语。角色、任务、约束、示例、评分器、反思和工具协议共同构成一套可组合、可诊断、可评测的模式库。文章强调,生产级 Prompt 的价值不在长度,而在于把目标、证据、边界、输出契约和失败路径清楚地传递给模型;模式库也不应沦为模板仓库,而应服务于任务拆解、质量控制和持续迭代。好的 Prompt 体系能让模型真正执行工作,坏的 Prompt 只会把模糊需求包装得更长。
- 工具调用与函数调用:Schema设计、错误恢复、幂等性和安全边界
本文把工具调用和函数调用解释为一套受控执行系统,而不是模型输出 JSON 的技巧。Schema 设计、参数来源、错误恢复、幂等性、安全边界和提示注入防护共同决定模型能否从“会说”走向“会办事”。文章强调,模型只能提出调用意图,真正执行权必须保留在应用和业务系统中;高风险动作要拆分为可审计的工具、可验证的参数和可恢复的状态。工具调用的生产价值,不在工具数量多,而在模型、接口和权限之间形成清晰契约。
- Agent记忆系统:短期记忆、长期记忆、情景记忆、知识库和遗忘机制
本文讨论 Agent 记忆系统如何从聊天历史扩展为可治理的工作记忆、长期记忆、情景记忆、知识库和遗忘机制。记忆的目标不是无限保存,而是在长期协作中降低重复探索、保留稳定偏好、复用历史经验、引用外部事实并清除过期或敏感信息。文章强调,记忆必须带有作用域、来源、时间、置信度、权限和删除路径;否则记忆越强,错误污染和隐私风险越大。生产级 Agent 的记忆能力,本质上是选择、检索、压缩、验证和遗忘的组合。
- 多智能体编排:监督者、黑板、投票、辩论、流水线和蜂群协作
本文把多智能体编排视为任务分工、状态传递、证据合并和冲突处理的工程问题,而不是角色扮演。监督者、黑板、投票、辩论、流水线和蜂群协作分别适合不同任务结构:有的强调协调,有的强调共享工件,有的强调候选比较,有的强调批判性审查,有的强调稳定工序,有的强调大规模探索。文章的核心观点是,多智能体只有在责任边界、工具权限、中间工件和停止条件清楚时才可能提高质量;否则它只会增加成本、延迟和错误传播路径。
- AI工作流自动化:n8n、Dify、LangGraph、AutoGen、CrewAI和自研编排
本文把 AI 工作流自动化定义为可控智能执行系统,而不是把大模型接入自动化平台。n8n、Dify、LangGraph、AutoGen、CrewAI 和自研编排分别代表连接器优先、应用交付、有状态图、多智能体运行时、流程加团队和深度业务定制六种路线。文章强调,框架选择应由任务状态、外部系统、人工介入、失败恢复、权限审计和长期维护决定。AI 可以参与判断和生成,但业务系统必须保留状态、确认、回滚和最终执行权。
- 长文写作智能体:选题、资料、结构、事实、风格和发布流程
长文写作智能体不应被理解为自动扩写器,而是一个围绕选题判断、资料研究、结构设计、事实核验、风格控制和发布复盘工作的知识生产系统。本文把长文写作拆成可追踪的状态流,讨论智能体怎样判断题目是否值得写、怎样建立证据库、怎样把资料转化为论证结构、怎样在事实与表达之间保持边界。文章强调好文章不是字数堆积,而是问题、证据、方法、取舍和读者路径同时成立。
- 大模型应用测试:单元测试、金集、回归、红队、离线评估和线上A/B
大模型应用测试不能停留在接口可用和页面可点,因为模型输出具有概率性、上下文依赖性和版本漂移。一个生产系统需要同时验证确定性代码、提示词、检索证据、工具调用、模型回答、安全边界、用户体验和线上效果。本文把单元测试、金集、回归、红队、离线评估、线上 A/B 和生产监控放进一套质量体系中,强调测试不是上线前的一次验收,而是模型、数据、提示词和产品流程持续变化时的治理机制。
- LLM可观测性:Trace、Token、延迟、成本、质量、失败类型和告警
LLM 应用的可观测性不能只复用普通 Web 日志,因为一次回答往往跨越模型网关、检索、重排、工具调用、上下文组装、安全策略、流式输出和用户反馈。Trace、Token、延迟、成本、质量、失败类型和告警需要被放在同一条请求链路里理解。本文主张把可观测性从“系统有没有报错”提升为“模型为什么这样回答、花了多少、慢在哪里、失败属于哪类、是否影响业务”的证据系统。