提示词、Harness 与上下文工程
把提示词从个人技巧升级为可测试、可回归、可治理的上下文工程体系。
推荐阅读顺序
- 从提示词工程到Harness工程:让大模型稳定完成任务的系统方法
研究聚焦提示词工程在生产级大模型应用中的能力边界:为什么清晰指令能够改善单次回答,却难以保证长链路任务稳定完成。方法上,文章把 Harness 视为围绕模型构建的任务执行系统,从上下文装配、工具权限、状态管理、结构化输出、评估观测与人在环路六个维度重构 AI 功能。结论是,提示词仍是必要语言接口,但稳定交付依赖可恢复、可验证、可追踪的外部结构;成熟 AI 产品应把“模型会说”转化为“系统会干活”。
- 上下文工程实践:长上下文、RAG、记忆、压缩、路由和缓存
研究聚焦上下文工程在大模型应用中的实践问题:如何在长上下文、RAG、记忆、压缩、路由和缓存之间做系统性取舍。方法上,文章把上下文视为面向模型的动态供应链,分析任务上下文、知识上下文、会话上下文、记忆上下文、工具上下文和治理上下文的组织方式。结论是,稳定 AI 应用不应依赖“把材料全部塞进去”,而应通过边界定义、证据选择、状态压缩、链路路由和缓存治理,让模型在每次请求中获得最少但足够的信息。
- RAG工程全流程:切分、嵌入、召回、重排、引用、评测和线上监控
研究聚焦 RAG 从演示到生产的关键断点:为什么“文档进向量库、片段进提示词”不足以支撑可核验知识问答。方法上,文章把 RAG 拆为知识摄取、切分、嵌入、召回、重排、上下文组装、引用生成、评测监控七个闭环,并分别分析每个闭环的质量风险。结论是,生产级 RAG 是面向业务事实的知识供应链;回答质量来自知识覆盖、检索命中和生成约束同时成立,任何单点优化都无法替代端到端评测。
- Prompt模式库:角色、任务、约束、示例、评分器、反思和工具协议
本文把 Prompt 视为面向大模型的任务接口,而不是可复制咒语。角色、任务、约束、示例、评分器、反思和工具协议共同构成一套可组合、可诊断、可评测的模式库。文章强调,生产级 Prompt 的价值不在长度,而在于把目标、证据、边界、输出契约和失败路径清楚地传递给模型;模式库也不应沦为模板仓库,而应服务于任务拆解、质量控制和持续迭代。好的 Prompt 体系能让模型真正执行工作,坏的 Prompt 只会把模糊需求包装得更长。
- AI知识库设计:文档、网页、代码、表格、多模态资料的统一治理
AI 知识库不是把资料切块后写入向量库,而是把组织知识变成可检索、可授权、可引用、可更新、可评测的证据系统。本文以文档、网页、代码、表格和多模态资料为对象,讨论资料模型、解析、分块、元数据、权限过滤、混合索引、增量同步、引用生成和质量评测之间的关系。文章强调向量相似度只是召回手段之一,知识库的可靠性最终取决于资料结构是否保真、权限是否前置、答案是否能回到来源,以及更新后旧索引和缓存是否失效。
- AI搜索与研究助手:查询改写、网页检索、引用、事实校验和报告生成
AI 搜索与研究助手的价值不在于把搜索结果重新写成一段顺滑文字,而在于把模糊问题转化为可检索、可阅读、可引用、可核验的研究过程。本文围绕查询改写、网页检索、内容抽取、证据管理、事实校验和报告生成展开,强调研究助手必须能区分来源质量、时间敏感性、断言粒度和证据覆盖。一个可靠的研究助手不应假装知道所有答案;当证据不足、来源冲突或时间信息不确定时,它应把不确定性写入结论结构。
- 长文写作智能体:选题、资料、结构、事实、风格和发布流程
长文写作智能体不应被理解为自动扩写器,而是一个围绕选题判断、资料研究、结构设计、事实核验、风格控制和发布复盘工作的知识生产系统。本文把长文写作拆成可追踪的状态流,讨论智能体怎样判断题目是否值得写、怎样建立证据库、怎样把资料转化为论证结构、怎样在事实与表达之间保持边界。文章强调好文章不是字数堆积,而是问题、证据、方法、取舍和读者路径同时成立。
- 大模型应用测试:单元测试、金集、回归、红队、离线评估和线上A/B
大模型应用测试不能停留在接口可用和页面可点,因为模型输出具有概率性、上下文依赖性和版本漂移。一个生产系统需要同时验证确定性代码、提示词、检索证据、工具调用、模型回答、安全边界、用户体验和线上效果。本文把单元测试、金集、回归、红队、离线评估、线上 A/B 和生产监控放进一套质量体系中,强调测试不是上线前的一次验收,而是模型、数据、提示词和产品流程持续变化时的治理机制。
- LLM可观测性:Trace、Token、延迟、成本、质量、失败类型和告警
LLM 应用的可观测性不能只复用普通 Web 日志,因为一次回答往往跨越模型网关、检索、重排、工具调用、上下文组装、安全策略、流式输出和用户反馈。Trace、Token、延迟、成本、质量、失败类型和告警需要被放在同一条请求链路里理解。本文主张把可观测性从“系统有没有报错”提升为“模型为什么这样回答、花了多少、慢在哪里、失败属于哪类、是否影响业务”的证据系统。