本文把 AI 工作流自动化定义为可控智能执行系统,而不是把大模型接入自动化平台。n8n、Dify、LangGraph、AutoGen、CrewAI 和自研编排分别代表连接器优先、应用交付、有状态图、多智能体运行时、流程加团队和深度业务定制六种路线。文章强调,框架选择应由任务状态、外部系统、人工介入、失败恢复、权限审计和长期维护决定。AI 可以参与判断和生成,但业务系统必须保留状态、确认、回滚和最终执行权。
AI 工作流;自动化;n8n;Dify;LangGraph;AutoGen;CrewAI;自研编排;有状态 Agent
本文研究的问题是:不同 AI 工作流框架适合承载哪类生产任务,以及什么时候应该从低代码平台转向代码编排或自研运行时。方法上,文章先区分工作流、链、Agent 和编排,再按连接器、应用交付、状态管理、多智能体、人工介入、审计和扩展性比较六条路线。评估重点不是示例是否炫目,而是任务失败后能否恢复、动作是否可确认、状态是否可追踪、成本是否可预测。
下面的图把框架选择放进流程复杂度和业务风险的坐标中。它说明没有万能平台,只有适配任务结构的运行方式。
一个工作流是否值得自动化,可以用收益与控制成本比较:
该式提醒团队:低频、低价值、高风险任务即使能自动化,也未必值得全自动;高频、可校验、可回滚任务才适合优先进入 AI 工作流。
AI工作流自动化的核心不是把大模型接到几个接口后自动发送结果,而是把“判断、调用、等待、校验、回退、人工确认、记录”这些动作组织成稳定链路。传统自动化擅长处理确定流程:订单创建后发通知,表单提交后写入表格,每天定时同步数据。大模型进入流程后,系统多了一类不确定能力:理解用户意图、生成计划、抽取字段、选择工具、比较资料、解释异常、根据中间结果调整路径。工作流自动化因此从“固定步骤执行器”变成“可控智能执行系统”。
真正有用的 AI 工作流要同时满足两种要求:一方面让模型参与判断,让它能处理自然语言、缺失信息和复杂上下文;另一方面让系统保留控制权,确保状态可追踪、工具调用可验证、失败可恢复、成本可管理。n8n、Dify、LangGraph、AutoGen、CrewAI 和自研编排代表了几种不同路线。n8n 更像连接器丰富的可视化自动化平台,适合把 AI 节点放进业务自动化。Dify 更像面向应用交付的 LLM 工作流平台,适合快速构建可发布的聊天应用、表单应用和知识库应用。LangGraph 更偏代码优先的有状态图执行,适合复杂 Agent、长任务和人工介入。AutoGen 以多智能体对话和运行时为中心,适合研究多角色协作和复杂任务分工。CrewAI 把 Flow 和 Crew 分开,强调流程控制和多角色团队协作。自研编排则适合当业务边界、权限、审计和可靠性要求已经超过通用框架时。
选择哪一种,不取决于哪个名字更热,也不取决于示例看起来多酷。关键是任务本身:流程是否固定,是否需要用户界面,是否需要多人审批,是否有长时间等待,是否要写入真实业务系统,是否要保留完整证据,是否允许失败重试,是否必须和现有后端深度结合。只要这些问题没想清楚,任何框架都会变成漂亮但脆弱的演示。
工作流是一个面向结果的执行结构。它关心开始条件、步骤顺序、分支条件、数据传递、异常处理和完成标准。普通工作流可以没有大模型,只要触发器、条件判断和动作节点即可完成任务。AI 工作流则把大模型能力放进某些节点,让系统具备自然语言理解、生成、抽取、总结、分类、计划和工具选择能力。
链通常是更窄的概念。一个链可以是“检索资料、拼上下文、调用模型、格式化回答”,也可以是“提取字段、验证字段、生成摘要”。链强调顺序调用,路径相对固定。n8n 文档中也区分了 chain 和 agent:链按预先设定的顺序调用组件,Agent 则用语言模型判断下一步行动。这个区别很重要,因为许多所谓“智能体工作流”其实只是多个 LLM 节点串联。它们能自动化,但不一定具备自主决策。
Agent 是带有目标、工具和决策循环的系统。用户给出目标后,Agent 不只是生成一次回答,而是会观察环境、选择工具、读取结果、继续推理、再调用工具,直到达到目标或遇到阻塞。n8n 的 Agent 节点在一次工作流执行中可能运行多轮,例如先做初始化,再调用工具,再评估工具结果。OpenAI Agents SDK 文档也把 agents 描述为能计划、调用工具、跨专家协作并保持足够状态完成多步工作的应用。
编排是比节点更高一层的控制问题。它决定谁来启动任务,哪些步骤由模型决定,哪些步骤必须固定,哪些工具可见,状态存在哪里,失败如何重试,人工确认何时介入,最终如何验收。编排做得好,AI 是流程里的能力增强;编排做不好,AI 会变成不可预测的黑盒。
最容易出错的地方,是把“模型生成了一个计划”误认为“系统已经会编排”。计划只是文本,编排是运行时行为。计划不会自动处理接口超时,不会自动保存检查点,不会自动避免重复下单,不会自动知道用户是否有权限,也不会自动证明任务已完成。生产级 AI 工作流必须把模型判断落到可执行、可观察、可恢复的结构里。
n8n 的优势在于连接现实系统。邮件、表格、数据库、Webhook、CRM、协作工具、HTTP 请求、定时任务、代码节点、条件分支、错误处理,这些都是传统自动化的基本材料。AI 节点进入 n8n 后,最自然的用法不是让模型“统治全流程”,而是让模型在某个环节完成文本理解或决策,再把结果交给确定性节点执行。
例如一个客户线索处理流程:Webhook 收到表单,n8n 先清洗字段,再让 LLM 判断行业、预算、意向强度和下一步建议,然后由条件节点决定进入销售提醒、自动回复、人工复核或低优先级队列。这里 AI 节点负责理解和分类,n8n 负责触发、路由、写入、通知和执行记录。这样的组合比让一个开放式 Agent 直接操作 CRM 更稳。
n8n 文档把一次 workflow run 称为 execution,并区分手动执行和生产执行。这个概念对生产很关键。开发阶段可以手动跑、局部跑、看节点数据;生产阶段则由触发器、定时器或轮询自动启动。执行历史、节点状态、耗时、错误和脱敏能力,决定了任务失败后能不能排查。AI 工作流尤其需要保留这些痕迹,因为模型输出不稳定,问题可能来自输入数据、提示词、模型服务、工具响应或后续业务节点。
n8n 适合三类场景。第一类是“系统连接多、逻辑中等复杂”的自动化,比如把客服邮件分类后写入工单,把合同附件摘要后发给法务,把会议纪要拆成任务同步到项目管理工具。第二类是“低代码团队需要快速搭流程”的场景,运营、销售、客服或数据人员能看懂画布,工程团队只需要提供关键 API 和安全边界。第三类是“AI 只做局部判断”的流程,模型结果可以被后续节点校验或人工复核。
n8n 不适合把大量复杂状态都塞进画布。多轮 Agent、长时间任务、复杂回退、细粒度权限、跨任务记忆、版本化提示词、严格审计和自动评测,如果都用节点拼,会很快变成难维护的大图。画布越大,越难理解每条边背后的数据契约。此时可以把 n8n 作为入口和连接器,把核心智能逻辑放进后端服务或 LangGraph 这类代码编排,再让 n8n 调用这个服务。
使用 n8n 做 AI 工作流时,要记住一条边界:节点图负责可见流程,模型负责局部智能,业务系统负责最终状态。不要让模型直接生成未经校验的参数去执行高风险动作。退款、删数据、发外部邮件、创建订单、改权限、提交审批这些动作,应该经过确定性校验和必要的人工确认。
Dify 更适合从“我要交付一个 AI 应用”的角度理解。它提供工作流、聊天流、知识库、模型配置、发布接口和 Web 应用入口。Dify 文档强调 Workflow 和 Chatflow。Workflow 适合单轮任务,可以通过用户输入、API 或触发器启动;Chatflow 是每轮对话都会触发的特殊工作流,可以处理对话变量、记忆和流式输出。所有应用背后都运行在同一套工作流引擎上,并且可以导出为 Dify DSL,方便迁移和共享。
这意味着 Dify 的重点不是“把所有 SaaS 连接器都接进来”,而是“把一个 LLM 应用从设计变成可访问的产品”。一个知识库问答、简历筛选、内容生成、合同条款解释、内部客服、报价生成助手,都可以在 Dify 中用开始节点、LLM 节点、知识检索、条件分支、变量和输出节点组织起来。对产品团队来说,它比从零写后端更快,比纯聊天框更可控。
Dify 的编排逻辑支持串行和并行。串行节点一个接一个执行,后面的节点可以读取前面节点变量;并行节点同时执行,分支汇合后下游节点可以读取各分支输出。这个能力适合做多视角分析。例如用户提交一份供应商方案后,系统可以并行做技术风险分析、价格合理性分析和合同风险分析,再汇总成一个面向业务人员的决策建议。并行不是为了炫技,而是为了让不同判断维度互不干扰,并降低整体等待时间。
Dify 的强项是产品化路径。它能快速把提示词、知识库、变量、工作流和前端入口串起来,让非底层工程团队也能迭代应用。它适合业务知识问答、文本处理、轻量 Agent、内容生产和内部工具。对于中文团队尤其有价值,因为很多团队的第一步不是构建复杂 Agent 平台,而是先把一个真实业务助手交给用户试用。
Dify 的限制也很明显。复杂业务系统往往不只需要 LLM 工作流,还需要权限模型、审批链、事务一致性、计费、租户隔离、灰度发布、审计、评测、数据生命周期管理。Dify 能承载应用层逻辑,但不应该替代核心业务后端。对生产系统来说,更稳的方式是让 Dify 做 AI 应用层和人机交互层,让后端服务提供经过授权和校验的工具接口。
使用 Dify 时,最重要的是把变量和节点输出当作契约。每个节点输出什么字段,字段是否来自用户、知识库、模型生成还是外部工具,都要清楚。模型生成的内容不能默认可信,尤其是金额、日期、合同条款、政策适用和客户承诺。关键字段要通过规则、数据库或人工复核确认。Dify 可以让应用更快上线,但可靠性仍然来自严谨的流程设计。
LangGraph 的价值在于把 Agent 执行变成有状态图。它不是单纯的提示词框架,而是把节点、边、状态、检查点和恢复机制组合起来。LangGraph 文档中的 durable execution 强调,工作流在关键点保存进度,可以暂停并从上次位置恢复,适合人工介入、长时间任务、模型超时或系统中断。它还提醒开发者把副作用和非确定操作包进 task,并让流程尽可能具备确定性和幂等性。
这正是复杂 AI 工作流最需要的能力。一个研究型 Agent 可能要搜索网页、读取文件、生成提纲、等待用户确认、继续写作、校验来源、再修改。一个代码 Agent 可能要读仓库、改文件、跑测试、根据错误继续修复。一个业务流程 Agent 可能要查客户、生成方案、请求审批、写入 CRM、发送通知。这样的任务不能只靠一条链完成,因为中间有循环、有分支、有失败、有等待、有人工判断。
LangGraph 适合代码团队。它给的是可编程结构,不是纯可视化画布。工程师可以明确状态结构,控制节点输入输出,决定路由函数,配置检查点存储,接入自己的数据库、消息队列、权限系统和观测系统。相比在低代码画布中堆复杂逻辑,代码图更容易做版本控制、测试和评审。
LangGraph 的另一个价值是让“人工介入”成为一等能力。很多生产 AI 工作流并不追求全自动。模型可以分析合同,但高风险条款需要法务确认;模型可以起草退款建议,但真实退款需要客服主管确认;模型可以生成数据库修复脚本,但执行前必须由工程师批准。一个可以暂停、展示状态、等待人工输入、再继续执行的图,比一个假装全自动的长链更可靠。
使用 LangGraph 的难点是工程复杂度。团队需要懂状态建模、幂等、工具副作用、异常恢复和测试。它不是给所有人拖节点的工具,而是给工程团队构建可靠 Agent 运行时的框架。若只是做一个简单摘要工具,LangGraph 可能过重;若要做跨系统长任务,它的状态和恢复能力会变得很有价值。
判断是否需要 LangGraph,可以问四个问题:任务是否多轮循环,是否可能跨会话继续,是否有人工审核点,是否需要失败后从中间恢复。只要三个答案是“是”,就不应该只用一次性链路。状态、检查点和恢复机制会比更长的提示词更重要。
AutoGen 来自 Microsoft Research 相关工作,论文把它定义为通过多个可对话智能体构建 LLM 应用的开源框架。AutoGen agents 可以定制,可以对话,也可以组合 LLM、人类输入和工具。后续稳定文档中的 AgentChat 是用于构建多智能体应用的高层 API,提供 Agents、Teams、Selector Group Chat、Swarm、GraphFlow、Memory、Logging、Tracing 等能力。AutoGen 的重点不是画一个固定流程,而是组织多个角色通过消息协作完成任务。
多智能体适合什么?适合一个任务天然需要不同角色视角,并且这些角色之间需要互相挑战、分工和汇总。比如复杂调研中,可以有研究员搜资料、分析师做结构化比较、审稿员检查证据、撰写者生成最终报告。代码任务中,可以有定位者分析报错、实现者改代码、审查者检查回归风险、测试者运行用例。这里的多智能体不是为了模拟办公室,而是为了把不同目标函数分开,减少一个模型在同一轮里既当作者又当审稿人的偏差。
AutoGen 的风险也来自这里。多个 Agent 对话很容易变长,成本上升,结论漂移,责任不清。角色越多,不代表能力越强。很多任务用一个强模型加两个工具就能完成,拆成五个 Agent 只会制造沟通噪声。多智能体系统要有明确的终止条件、发言规则、任务分派规则、共享状态和最终裁决机制,否则会出现热闹但无效的讨论。
AutoGen 适合研究和复杂原型,也适合需要多角色协作的工程系统。它的文档和 Microsoft Research 资料都强调多智能体、工具使用、状态管理、观测和可扩展架构。对于希望探索 Agent 团队模式、复杂任务分工、多人审查机制的团队,AutoGen 是值得研究的路线。
但在生产里,AutoGen 不应被当作“自动聪明”的保证。系统仍然要决定:哪些 Agent 有权调用哪些工具,谁能执行有副作用动作,谁来判断完成,怎样记录每轮消息,如何限制循环,怎样处理模型相互认同但事实错误的情况。多智能体最大的价值是分工,最大的风险是把错误包装得更像共识。
一个实用原则是:先做单智能体可用闭环,再引入第二个角色;先让审查者发现真实错误,再增加更多专家;先让工具结果可验证,再让多个 Agent 基于工具协作。不要从“六个角色开会”开始。真正的多智能体系统要靠任务成功率证明,而不是靠角色名称证明。
CrewAI 的文档把架构分成 Flows 和 Crews。Flow 是应用的流程定义,管理步骤、逻辑、状态和数据流;Crew 是在某个 Flow 步骤里执行复杂任务的智能体团队。CrewAI 文档明确建议生产就绪应用从 Flow 开始,在需要自治和协作的复杂任务中再调用 Crew。这个设计对工程实践很有启发:先有流程控制,再把智能体团队放进流程中的某个受控位置。
Flow 适合做确定性骨架。它负责从事件开始,读取输入,保存状态,触发某个分析任务,接收结果,写入数据库,继续下一步。Crew 适合做局部复杂推理。比如在“竞品分析”流程里,Flow 负责拿到产品链接、创建任务记录、调用 Crew、等待返回、保存报告、通知用户;Crew 内部可以让研究员、比较者、编辑者协作。这样系统不会把所有控制权交给 Agent,而是让 Agent 在框架内完成一块复杂工作。
CrewAI 的优势是概念直观。很多团队理解“流程”和“团队”的差异比理解底层状态机更容易。Flow 中的状态 ID、监听器和输出,让任务执行有连续性;Crew 中的角色、目标和工具,让协作逻辑更自然。对需要快速搭建多角色任务系统的 Python 团队,它比从零实现 Agent 运行时更省力。
CrewAI 的挑战同样在边界。角色定义如果太戏剧化,输出会变成表演;任务拆分如果不基于真实能力差异,只是把一个模型调用拆成多个角色,效果不一定更好;工具权限如果不严格,多个 Agent 都可能尝试执行同一动作;状态如果没有持久化到业务系统,Flow 内部状态也不足以满足审计和恢复。
使用 CrewAI 时,最稳的模式是“Flow 做主线,Crew 做专业子任务,后端做事实和权限”。例如招聘筛选:Flow 接收简历和岗位要求,Crew 分别评估技能匹配、项目真实性和风险点,Flow 汇总并生成候选人短名单,后端保存评分和证据,人工最终决定是否约面。Crew 不直接发 Offer,不直接淘汰候选人,不直接修改 HR 系统核心状态。它提供判断,流程负责控制。
自研编排不是因为框架不好,而是因为有些需求已经进入业务核心。只要任务涉及强权限、强审计、强一致性、复杂计费、租户隔离、多系统事务、长期运行、离线任务、灰度发布、回滚和严格验收,通用框架往往只能覆盖一部分。此时更合理的做法是把 AI 编排能力做进自己的后端架构。
自研编排至少要包含八个模块。第一是任务模型,记录任务目标、范围、用户、状态、优先级和截止时间。第二是步骤模型,记录每一步输入、输出、工具调用、耗时、错误和证据。第三是工具注册与权限,明确每个工具的参数、返回、风险等级、幂等键和授权规则。第四是模型网关,统一管理模型、密钥、路由、成本、超时和降级。第五是状态存储,支持跨请求、跨会话、跨服务恢复。第六是人工确认,把高风险动作变成可审查的确认单。第七是验收层,自动检查格式、引用、工具结果、业务规则和测试结果。第八是观测与评测,记录 trace、指标、失败类型和用户反馈。
自研的重点不是把所有能力都自己造一遍。连接器可以用 n8n,LLM 应用原型可以用 Dify,复杂 Agent 子流程可以用 LangGraph,实验性多智能体可以参考 AutoGen 或 CrewAI。自研编排要做的是业务不可外包的部分:权限、状态、审计、数据契约、风险控制、用户体验和最终责任。
例如一个企业采购助手,用户让 AI 分析供应商、比较报价、起草采购申请。系统可以用模型生成建议,但供应商主数据、预算余额、审批规则、合同模板、发票信息、付款条件都来自内部系统。最终动作不是“AI 说可以”,而是创建一条经过校验的采购申请,并进入公司审批流。这个场景中,通用 Agent 框架只能做判断层,编排必须贴近企业后端。
自研编排的常见错误是过早平台化。团队刚有两个 AI 功能,就开始设计通用 Agent 平台、统一插件市场和复杂 DSL,结果半年后还没有一个稳定场景。更稳的路径是从一个真实高价值流程开始,把任务、状态、工具、确认、验收做扎实,再抽象共性。抽象应该来自重复的痛点,而不是来自架构想象。
如果任务以 SaaS 连接、通知、表格、Webhook 和定时器为主,n8n 通常是优先选择。它能快速把 AI 嵌入业务自动化,适合运营型流程和跨工具协作。它的边界是复杂状态和核心业务权限。
如果任务以交付一个 LLM 应用为主,Dify 通常更合适。它把工作流、聊天流、知识库、API 和 Web 应用放在一起,适合知识问答、文本处理、内部助手和轻量产品验证。它的边界是复杂后端逻辑和企业级业务控制。
如果任务需要可恢复、多轮循环、人工介入和代码级控制,LangGraph 更合适。它适合工程团队构建可靠 Agent,尤其是代码修复、研究任务、长流程审批和复杂工具调用。它的边界是上手成本和工程复杂度。
如果任务需要研究多角色协作、Agent 团队和对话式分工,AutoGen 值得考虑。它适合实验复杂多智能体模式,也适合构建带消息运行时的协作系统。它的边界是成本、循环控制和生产治理。
如果团队喜欢“流程骨架加智能团队”的模式,CrewAI 是直接路线。Flow 管状态和控制,Crew 做复杂自治任务,适合内容生产、调研、分析、运营和轻量后端任务。它的边界是角色设计质量和业务系统集成深度。
如果任务已经触及核心业务、强审计和深度权限,自研编排不可避免。自研不是排斥框架,而是把框架放在正确位置:连接器、应用层、子图、实验模块都可以用现成工具,核心状态和责任边界要掌握在自己系统里。
选型时可以用一个简单问题压缩判断:失败后谁负责恢复?如果答案是“业务系统必须恢复并给出审计证据”,就不能只依赖低代码画布或多智能体对话。必须有自己的任务状态、工具日志和验收记录。如果答案是“失败后用户手动重试即可”,则可以优先使用更轻的可视化工具。
第一,流程骨架要确定,智能判断要局部化。不要让模型决定所有事情。触发、权限、写入、通知、审批、幂等和日志应由系统控制。模型适合判断模糊输入、生成候选方案、选择低风险工具、解释异常和补全结构化信息。
第二,工具必须有清晰契约。工具名称要表达动作,参数要最小,返回要结构化,错误要可恢复。不要把内部 API 原样暴露给模型。模型不需要知道数据库表结构,也不需要看到所有字段;它需要知道当前任务允许做什么、需要什么输入、成功会返回什么证据。
第三,状态不能只放在上下文里。对话上下文会丢,会压缩,会混入旧信息。任务目标、已完成步骤、外部副作用、用户确认、工具结果、阻塞原因和验收结论,都应该结构化存储。LangGraph 的检查点思想、自研编排的任务表、n8n 的 execution 记录,本质都是在解决同一件事:让过程可恢复。
第四,高风险动作必须有确认。发送外部邮件、退款、删除、提交审批、修改权限、执行命令、写入财务系统,这些动作不能只靠系统提示词约束。应该生成确认单,展示对象、字段、影响、依据和回滚方式。用户确认后再执行,并记录确认内容。
第五,验收要外部化。模型说“完成”没有意义。代码要跑测试,报告要有来源,RAG 要有引用,表单要有提交编号,数据分析要能复算,自动化要有执行记录。完成必须绑定证据。
第六,成本和延迟是设计约束。多智能体、并行分析、长上下文和多次重试都会消耗 token 和时间。流程应该把高频低风险任务用小模型或规则处理,把复杂任务交给强模型,把长文档处理拆成可缓存步骤。不要用最贵的 Agent 处理每一次简单分类。
第七,失败路径要比成功路径更清楚。模型服务超时怎么办,工具返回权限不足怎么办,用户输入缺字段怎么办,外部 API 重复提交怎么办,人工超过期限未确认怎么办,模型输出格式错误怎么办。生产工作流的可靠性主要体现在这些不顺利的路径里。
AI 工作流不要一开始就做成大平台。最稳的演进节奏,是先把一个具体流程做成闭环,再把共性抽出来。第一阶段只解决单点自动化:用户提交输入,系统调用模型,输出一个可用结果。这个阶段的目标不是复杂,而是验证真实需求。比如售前线索分级、会议纪要整理、合同摘要、知识库问答,都可以先用 Dify 或 n8n 快速交付。
第二阶段要解决“可追踪”。当流程开始被真实用户使用,团队就会遇到同样的问题:为什么这次结果差,为什么花费突然升高,为什么某个工具失败,为什么用户说没有完成。此时需要记录模型版本、提示词版本、输入摘要、检索证据、工具调用、人工修改和最终采纳情况。没有这些记录,后续优化只能靠感觉。
第三阶段要解决“可恢复”。流程一旦变长,就会遇到中断。用户关闭页面,模型请求超时,外部系统维护,审批人隔天才处理,任务都不能从头重来。这个阶段适合引入 LangGraph 这类有状态图,或者在自研后端里建立任务表和步骤表。每一步有状态、输入、输出和错误,系统才能从中间继续。
第四阶段要解决“可治理”。当多个团队、多个应用、多个模型同时使用一套 AI 能力,权限、成本、质量和风险会成为主要问题。模型网关要管理预算和路由,工具注册要管理风险等级,评测集要管理质量回归,人工确认要管理外部副作用。此时再做平台化才有意义,因为平台抽象来自真实重复需求。
这个演进节奏能避免两种浪费。第一种是过早平台化,团队花很多时间做通用插件、通用画布、通用 Agent 运行时,却没有一个业务流程真正跑稳。第二种是长期脚本化,每个场景都临时写一段代码,最后密钥散落、日志缺失、权限不清、无法复用。小团队可以从 n8n 或 Dify 开始,但要在第二阶段就补记录,在第三阶段补状态,在第四阶段补治理。
很多 AI 工作流上线后质量漂移,并不是模型突然变差,而是某个隐含契约改变了。提示词改了一句话,工具返回字段改了名字,知识库分块策略变了,模型供应商升级了版本,后处理规则放宽了,都会影响最终结果。如果没有版本记录,团队只能看到“今天不如昨天”,却不知道原因。
提示词版本化不只是保存文本。还要保存适用场景、输入变量、输出格式、示例、禁区和评测结果。一个提示词如果要求输出 JSON,就要有对应 schema 和失败处理;如果要求引用资料,就要说明引用来自哪个检索节点;如果要求给出建议,就要说明哪些建议必须人工确认。提示词不是独立文案,而是工作流契约的一部分。
工具也要版本化。工具参数变更、返回字段变更、错误码变更,都可能让模型行为异常。比如原本返回 status,后来改成 state,确定性代码会直接报错,模型却可能猜测字段含义并继续执行,风险更隐蔽。生产工具接口要尽量稳定,重大变更要保留旧版本或做适配层。
数据契约同样重要。知识库文档版本、分块算法、embedding 模型、重排模型、权限规则和过滤条件,都要能追溯。RAG 工作流中,答案错误不一定来自 LLM,也可能来自索引版本不一致。记录这些版本,才能把一次失败定位到正确层级。
版本化的目标不是制造文档负担,而是让回归评测有意义。每次改提示词、换模型、改工具或重建索引,都跑一组代表性样本,比较通过率、引用准确率、成本和延迟。只有这样,AI 工作流才会持续变好,而不是在一次次“优化”中随机波动。
第一步,选择一个真实但边界清楚的场景。不要从“全自动经营公司”开始。选择一个每天重复、有明确输入输出、人工耗时明显、错误代价可控的流程。例如售前线索分级、会议纪要转任务、知识库问答、合同摘要初筛、内容审核建议、客服工单预处理。
第二步,写任务契约。输入有哪些,输出是什么,哪些系统会被读取,哪些系统会被写入,哪些动作需要确认,完成标准是什么,失败时如何处理。任务契约比提示词更重要,因为它决定系统边界。
第三步,决定编排工具。如果要快速连工具,用 n8n;如果要交付 AI 应用,用 Dify;如果要复杂状态和恢复,用 LangGraph;如果要多角色协作,用 AutoGen 或 CrewAI;如果要碰核心系统,用自研后端做主编排。选型不要一次定终身,可以让一个场景同时使用两种工具:例如 Dify 做用户入口,后端调用 LangGraph 执行长任务,n8n 负责通知。
第四步,设计工具接口。每个工具都要有最小权限。查询客户只返回当前用户可见字段,创建草稿和提交正式审批分开,发消息前必须预览,删除类动作默认不可见。工具要返回结构化证据,例如记录 ID、状态、时间、错误码和可展示摘要。
第五步,做最小闭环。不要先做复杂平台。让一个流程从触发到结果完整跑通,包括异常处理和验收。比如工单分类助手,最小闭环是读取工单、生成分类和摘要、写入草稿字段、人工确认、记录采纳结果。先不要自动关闭工单。
第六步,加入观测。记录每次模型输入输出摘要、工具调用、耗时、成本、错误、人工修改和最终结果。不要只看平均成功率,要看失败样本。AI 工作流的迭代材料来自真实失败,而不是来自设计文档。
第七步,扩大自动化权限。先让系统给建议,再让系统写草稿,再让系统自动执行低风险动作,最后才考虑高风险动作。每扩大一层权限,都要增加验收和回滚能力。
假设一个小型法务团队要处理供应商合同初审。最简单做法是把合同上传给模型,让模型输出风险点。但生产工作流不能停在这里。一个更可靠的流程应当这样设计。
入口层由 Dify 或自研页面接收合同、合同类型、供应商名称和业务部门。文件进入对象存储后,系统创建任务 ID。解析服务提取正文和关键页码,知识库检索公司标准条款、付款政策、数据处理要求和审批规则。LLM 节点按条款类别生成风险候选,并为每个风险附上合同位置和制度依据。
如果使用 n8n,可以让它负责接收 Webhook、通知法务、同步任务状态和写入协作工具。如果使用 LangGraph,可以把“解析、检索、风险识别、人工确认、修订建议、最终报告”做成有状态图,中间允许法务暂停并修改判断。如果使用 CrewAI,可以让一个 Crew 分别从商业条款、数据合规、付款风险和履约责任角度审查,再由 Flow 汇总。若团队已有合同系统,则核心编排最好在自研后端,因为权限、审计和合同状态是业务核心。
这个流程中,AI 不直接给出最终法律结论,而是生成可审查风险清单。高风险条款需要人工确认,确认后系统生成修订建议和对外沟通稿。最终报告包含合同名称、版本、风险等级、条款位置、制度依据、建议动作和人工确认记录。完成标准不是“模型写了一段分析”,而是“法务可以基于证据快速决定下一步”。
这个案例说明,AI 工作流的价值不是替代所有人,而是把重复阅读、初步归类、证据定位和草稿生成自动化,让专家把时间放在判断上。
第一个误区是把可视化画布当成生产保障。画布让流程更容易理解,但不自动解决权限、幂等、回滚、审计和测试。节点连通只说明能跑一次,不说明能长期稳定运行。
第二个误区是把多智能体当成高级架构。多角色只有在角色之间有真实能力差异和审查关系时才有价值。如果五个 Agent 都看同一段上下文、调用同一个模型、没有工具证据,只是在互相附和,结果可能更贵也更慢。
第三个误区是让模型直接执行高风险动作。模型可以建议退款,不应该绕过规则直接退款;模型可以起草邮件,不应该未经预览发给客户;模型可以生成 SQL,不应该未经审查执行写操作。
第四个误区是把上下文当数据库。长上下文能放更多材料,但不能替代任务状态。已确认事项、外部副作用和验收结果必须存储在系统里。
第五个误区是只评估回答质量。工作流要评估任务完成率、工具成功率、人工采纳率、回退次数、成本、延迟和严重错误。回答看起来专业但没有完成业务状态,就是失败。
第六个误区是过早追求全自动。好的 AI 工作流通常从建议开始,逐步进入草稿、半自动和自动执行。人类介入不是失败,而是风险控制的一部分。
第七个误区是每个场景都自研。连接器、知识库应用、简单流程和多智能体实验都有成熟工具可用。自研应该集中在业务不可外包的状态、权限、审计和验收。
AI 工作流自动化的成熟标志,不是画布更复杂,也不是 Agent 名字更多,而是用户目标能稳定完成。n8n 解决连接和自动化,Dify 解决 LLM 应用交付,LangGraph 解决有状态复杂执行,AutoGen 解决多智能体协作探索,CrewAI 解决流程与智能团队的组合,自研编排解决业务核心控制。它们不是互斥选项,而是不同层级的工具。
真正落地时,团队还要保持一个朴素判断:凡是可以确定执行的部分,交给流程和代码;凡是需要理解、比较、生成和推理的部分,交给模型;凡是会影响真实业务状态的部分,交给权限、确认和审计。这个分工越清楚,系统越容易从演示走向长期使用。
最稳的架构通常是混合的:用可视化工具处理入口和通知,用应用平台快速交付用户界面,用代码图处理长任务和人工介入,用后端掌握权限和审计,用评测体系证明质量。模型负责聪明,编排负责可靠。只有两者都成立,AI 工作流才是真正能干活的生产系统。
写作日期:2026-05-22