多模态 AI 的难点不在于同时接入图像、语音、视频、OCR 和文本模型,而在于不同模态的证据密度、时间结构、空间结构和不确定性完全不同。本文把多模态系统理解为证据对齐问题:图像需要定位,语音需要时间戳,视频需要事件切片,文档需要版面结构,跨模态检索需要统一语义空间与可回源引用。文章避免把多模态当成能力清单,重点讨论资料如何被解析、对齐、检索、交给模型,并在最终回答中保留可核验依据。
多模态 AI;图像理解;语音转写;视频理解;OCR;文档理解;跨模态检索;证据对齐
本文的研究问题是:当同一任务同时依赖文本、图像、语音和视频证据时,系统如何判断“模型看见了什么”和“结论依据在哪里”。方法上采用模态到证据的映射分析,把每种资料先转化为带坐标、时间戳、页码或片段 ID 的证据单元,再讨论检索、重排和生成阶段如何保持这些锚点。
图中“证据单元库”是多模态系统区别于单纯模型调用的地方。没有坐标、页码、时间戳和片段 ID,模型只能给出看似合理的描述,用户却无法复核。多模态任务可用下面的表判断主要风险。
| 模态 | 关键证据锚点 | 常见失效 |
|---|---|---|
| 图像 | 坐标、对象、OCR 区域 | 把局部内容当全图事实 |
| 语音 | 时间戳、说话人、置信度 | 转写错误被当成原话 |
| 视频 | 镜头、事件片段、关键帧 | 忽略时间顺序和因果关系 |
| 文档 | 页码、表格结构、标题层级 | 版面丢失导致引用错位 |
多模态 AI 指的是同一个系统能够接收、理解和关联不止一种信息形态,例如文字、图片、音频、视频、扫描件、表格、图表和结构化数据。它不是把图片先转成一句说明、把语音先转成文字、再交给语言模型那么简单。真正有用的多模态系统要知道不同模态各自带着什么证据,如何保留时间、空间、版面和来源位置,怎样把这些证据交给模型推理,并且在回答里让用户能够回到原始图片、音频片段、视频时间点或文档页面。
很多中文学习者第一次接触多模态 AI 时,会把它理解成“模型能看图”或“模型能听语音”。这只是入口。图像理解涉及物体、场景、文字、关系、细节和不确定性;语音理解涉及转写、说话人、语气、噪声、时间戳和实时性;视频理解涉及镜头、动作、字幕、音轨、事件顺序和长时记忆;OCR 涉及文字识别、版面还原、低质量扫描和表格结构;文档理解涉及 PDF 页面、图表、脚注、目录、跨页表格和引用;跨模态检索则要把文字问题、图片证据、视频片段和文档页面放进同一套检索系统。若只把所有内容压成纯文本,系统看似统一,实际会丢掉大量关键信息。
本篇从工程视角系统讲清楚多模态 AI 的基本概念和落地路线。重点不是列模型名称,而是解释每类模态应该怎么处理、如何组合、怎样评测,以及在生产应用中应该避免哪些常见误区。读者可以把它当成学习路线,也可以把它当成设计多模态知识库、智能客服、资料审查、视频分析、语音助手和内容检索系统时的基础框架。
多模态系统的关键在“关联”。如果一个应用只是有一个图片识别接口、一个语音转文字接口、一个 PDF 解析器和一个视频摘要按钮,它还不一定是一个真正的多模态 AI 系统。真正的多模态系统会把不同来源的信息组织成可推理的上下文。例如用户上传一段产品演示视频,同时问“第二个步骤里屏幕上出现的错误码是什么意思,文档里有没有修复办法”。系统需要从视频里定位第二个步骤,读取画面文字或字幕,识别错误码,再去文档库检索对应说明,最后把视频时间点和文档来源一起给出。
这种能力依赖三件事。第一是模态编码,系统要能把图片、音频、视频和文档转换成模型可处理的表示。第二是结构保留,系统要保留页面、区域、时间戳、说话人、镜头、表格行列和来源链接。第三是跨模态推理,系统要能把一个模态里的线索用于另一个模态的检索和判断。少了结构保留,多模态会退化成“先转文本再聊天”;少了跨模态推理,多模态会变成一堆互不相干的工具。
从用户角度看,多模态 AI 的价值在于降低信息转换成本。用户不必手动截图、打字、转录、摘表、剪视频或复制 PDF 段落,可以直接把真实材料交给系统。系统应该理解材料本身,而不是逼用户把所有资料预先整理成模型喜欢的文本格式。从工程角度看,多模态的难点也正来自这里:真实材料往往质量不齐、格式复杂、上下文很长、权限敏感、成本较高,并且需要可核验的输出。
多模态系统不是要完全替代传统工具。OCR、ASR、图像分类、目标检测、版面分析、全文检索、向量检索、关系数据库、规则校验仍然有价值。大模型擅长把多种证据放在一起解释和推理,但稳定的工程系统通常会让专用工具处理可确定的基础任务,再让多模态模型处理理解、归纳、对齐和复杂判断。两者配合,比把所有任务交给一个模型更可靠。
讨论多模态前,要先分清三个概念:模态是信息载体,任务是用户目标,证据是能支撑结论的具体来源。图片、音频、视频、PDF 是模态;识别发票金额、总结会议、回答产品问题、检查合同风险是任务;图片中的某个文字框、音频第十五秒的说话内容、视频第二分钟的画面、PDF 第三页表格是证据。
同一种模态可以支持不同任务。一张商品图可以用于识别品类、检查瑕疵、读取包装文字、生成营销描述、查找相似商品或判断是否违规。一段音频可以用于转写、摘要、情绪分析、说话人分离、客服质检或会议纪要。一份 PDF 可以用于全文问答、表格抽取、合同条款审查、图表解释和跨页信息整合。任务不同,处理链路也不同,不能用同一套“摘要提示词”覆盖全部场景。
同一个任务也可能需要多种模态共同支撑。视频课程问答需要画面、字幕、教师语音和课件文字;客服质检需要录音转写、语气变化、工单记录和业务规则;报表分析需要 PDF 文本、图表图像、表格结构和计算口径;设备巡检需要现场照片、检测仪表读数、历史维修记录和语音备注。真正的系统设计要围绕任务组织证据,而不是围绕模型接口堆功能。
证据边界尤其重要。模型回答“该合同包含自动续约条款”时,证据应该是合同中的具体段落;回答“这张发票金额是 1280 元”时,证据应该是图像中金额所在区域和 OCR 结果;回答“演示视频中失败发生在登录后”时,证据应该是对应时间段和画面变化。没有证据边界,多模态回答很难被用户信任,也很难排查错误。
图像理解是多模态 AI 最容易展示效果的能力。现代视觉语言模型可以描述场景、识别对象、读取图片中文字、解释图表、比较两张图、指出界面元素、分析手写笔记或根据截图回答操作问题。OpenAI、Anthropic 和 Gemini 的官方文档都把图片输入作为多模态能力的重要入口,说明图像已经不只是计算机视觉专用模型的领域,而是进入了通用智能应用的输入层。
图像理解的第一类任务是描述和分类。用户给一张图片,模型回答画面里有什么、是什么场景、可能属于什么类别、哪些元素最显眼。这类任务适合内容审核、素材管理、商品归类、图片搜索和辅助标注。但描述并不等于准确识别。模型可能把相似物体混淆,把小字看错,把被遮挡物体补全成常见对象,也可能在专业领域误判设备、病灶、零件或仪表。
第二类任务是空间关系和界面理解。截图问答、UI 自动化、表单检查、流程指导都需要模型理解按钮、输入框、菜单、状态提示和布局关系。此时只知道“图片里有一个按钮”不够,还要知道按钮在哪里、和哪个说明对应、当前是否可用、下一步该点哪里。工程上常把视觉模型输出与坐标、DOM、可访问性树或截图元素检测结合,避免模型凭自然语言描述盲目操作。
第三类任务是图表和视觉化信息解释。折线图、柱状图、饼图、流程图、架构图、地图和仪表盘都包含文字、位置、颜色和数值编码。模型能读懂图表趋势,但数值抽取常需要额外校验。对于财务、运营和科学图表,最好同时保留原图、图表标题、坐标轴、图例、数据来源和模型抽取结果。若图表来自结构化数据,优先使用原始数据计算,视觉模型更适合解释图表含义和指出异常。
第四类任务是细粒度比对。用户可能问“这两张发票哪里不同”“改版前后界面有什么变化”“产品外观有没有划痕”“这张图是否和说明书一致”。这类任务要注意分辨率、裁剪、压缩、旋转和光照。很多模型文档都会提醒图像大小、格式、数量和成本限制,因为图片会进入模型上下文并消耗 token 或类似计费资源。工程系统应在上传前做压缩和切片策略,但不能压到丢失关键小字和细节。
图像理解的常见误区是把模型描述当成事实。图片中的文字、图表数值、医疗影像、合同扫描件、证件信息和安全隐患,都需要更严格的核验。能看图不等于能保证每个细节正确。可靠系统会把视觉模型输出、OCR 结果、规则校验和人工复核结合起来,并在回答中标出不确定区域。
语音多模态通常从 ASR 开始,也就是把音频转换成文字。OpenAI 的语音转文字文档列出了转写、翻译、流式转写和说话人区分等能力;Gemini 的音频理解文档也把总结、问答、转写、翻译、说话人识别、情绪和时间戳作为典型场景。对学习者来说,先把音频变成文本是最直观的步骤,但真实应用还需要处理更多信息。
第一是音频质量。电话录音、会议室录音、路边采访、直播切片、课堂录音和多方通话的质量差异很大。背景噪声、重叠说话、方言、口音、语速、麦克风距离和压缩格式都会影响转写。模型在安静英文演示里的准确率,不能直接代表它在中文客服录音或车间现场里的表现。生产系统要抽样评估真实音频,而不是只看公开样例。
第二是时间戳。很多应用不只需要完整文字,还要知道一句话发生在什么时候。会议纪要要能回听原话,客服质检要定位争议片段,视频分析要把字幕和画面对齐,法务和合规场景要保留证据链。若转写结果没有时间戳,后续引用、纠错和人工复核都会变得困难。
第三是说话人。多人会议、访谈和客服通话需要区分谁说了什么。说话人分离不只是把段落标成“说话人 A、B”,还要和业务身份关联,例如客服、客户、主持人、老师、学生、医生、患者。自动说话人识别可能出错,尤其在多人抢话或声音相似时。系统应允许人工修正,并把修正结果回写到后续摘要和质检。
第四是语义和语气。用户真正需要的往往不是逐字稿,而是结论、待办、风险、承诺、疑问、情绪变化和关键证据。语音模型或语言模型可以在转写基础上生成会议纪要、客服评分、访谈主题和课程知识点。但这里必须区分“音频中明确说过”和“模型根据上下文推断”。尤其是投诉、医疗、金融和法律场景,不能让模型把语气猜测当成事实。
实时语音还有额外挑战。实时转写要考虑延迟、分段、打断、端点检测和上下文滚动。语音助手还涉及语音输入、模型理解、工具调用和语音输出的闭环。低延迟体验往往需要专门的实时 API 或流式架构,而不是把完整录音上传后等待离线处理。系统设计时要明确是离线分析、准实时字幕,还是实时对话,因为这三者的技术路径和成本差别很大。
视频包含画面、音轨、字幕、时间线、镜头变化和动作过程。Gemini 的视频理解文档明确把视频描述、分段、信息抽取、问答和时间戳引用列为能力方向。工程上可以把视频理解看成“图像理解加音频理解再加时间推理”,但这仍然过于简化,因为视频最重要的信息常常来自事件顺序和跨时间段变化。
视频分析的第一步通常是分段。按固定秒数切片最简单,但不一定符合内容边界。更好的方法是结合镜头切换、字幕段落、语音停顿、画面场景和章节标题。课程视频可以按知识点切,产品演示可以按操作步骤切,监控视频可以按事件切,会议录像可以按议题切。切分质量会直接影响摘要和检索质量。
第二步是提取多层证据。关键帧可以描述画面,字幕可以表示语言内容,音频转写可以补充没有字幕的说话,OCR 可以读取屏幕文字,目标检测可以定位对象,元数据可以记录来源、时长、分辨率和发布时间。一个视频片段不应该只保存一句摘要,而应保存“这段里有哪些可检索证据”。用户问问题时,系统才能把答案指回具体时间点。
第三步是处理长上下文。一个小时的视频即使抽帧后也会产生大量图像和文本。直接把整段视频交给模型可能成本高、延迟长,也可能超过上下文限制。实用架构通常会先做离线索引:按片段保存摘要、字幕、关键帧描述、OCR、对象和向量。用户提问时先检索相关片段,再把少量片段交给模型精读。
第四步是处理音画不一致。视频里常见情况是画面展示 A,讲解说 B,字幕写 C,评论区又补充 D。模型如果只看字幕,会错过画面细节;只看画面,会错过讲解;只看自动转写,会受噪声影响。多模态视频问答要明确使用了哪些证据,并在冲突时给出保守回答。例如“画面显示当前步骤停在登录页,语音提到后续配置,但片段中没有看到配置完成画面”。
视频理解的应用很广:课程知识库、会议录像搜索、直播切片、客服质检、工业巡检、体育分析、安防事件回放、产品演示问答、短视频内容审核和素材管理。不同场景的风险不同。娱乐内容可以接受概括性错误,安全巡检和合规质检则需要高置信证据、可回放片段和人工复核入口。
OCR 是把图像中的文字识别出来。Tesseract 这类开源 OCR 工具长期用于扫描件、票据、证件和图片文字识别。现代多模态模型也能直接读取图片中文字,但这不意味着传统 OCR 过时。相反,在很多生产系统中,OCR 仍然是基础件,因为它更容易批量处理、保存字符位置、输出置信度,并和版面分析、表格抽取、规则校验结合。
OCR 的核心难点不是识别清晰截图里的大字,而是处理真实世界的低质量材料。扫描倾斜、拍照反光、纸张褶皱、印章遮挡、手写内容、低分辨率、压缩噪声、复杂背景、多语言混排和竖排文字都会影响结果。中文 OCR 还要面对相似字、繁简体、字体差异、标点和数字混淆。发票金额里的“1”和“I”、合同编号里的“O”和“0”、药品名称里的相近汉字,都可能造成业务错误。
OCR 结果要保留位置。只输出一大段文本不够,系统还要知道每个词、行、段落或区域在图像哪里。位置用于表格还原、字段抽取、人工复核、高亮引用和纠错。比如用户问“付款账号在哪里”,系统可以高亮扫描件中的账号区域;模型回答“发票日期是 2026 年 5 月 12 日”,引用应指向日期所在位置,而不是只给一段纯文本。
OCR 还要和版面分析配合。很多扫描件不是从左到右的一条文本流,而是包含标题、正文、表格、页眉、页脚、侧栏、印章、签名和二维码。错误的阅读顺序会让合同条款、表格字段和公告内容混乱。文档理解系统往往先做页面分区,再分别识别正文、表格、图片和页脚,最后重建阅读顺序。
多模态模型和 OCR 的关系可以理解为互补。OCR 适合稳定抽取文字和位置,多模态模型适合解释图像语境、处理复杂版面、理解图表和回答开放问题。对于票据、证件、合同、财报和档案,稳妥做法是同时保存 OCR 文本、坐标、置信度、原图和模型解释。高风险字段再用规则、数据库或人工复核确认。
文档理解是多模态 AI 最重要的工程场景之一。PDF、PPT、Word、扫描件、表格、手册、论文、合同、报告和票据都属于常见输入。Gemini 文档理解文档强调 PDF 可以用视觉方式理解页面中的文本、图片、图表和表格;Claude PDF 支持文档也把图表、表格、法律文件和结构化抽取列为典型用途。这说明文档理解已经从“提取文字”走向“理解版面和视觉元素”。
PDF 的复杂性来自它不是语义文档格式。许多 PDF 更像页面绘制结果,文字顺序、段落边界、表格结构和图片关系未必天然清楚。数字 PDF 可以抽取文字,但多栏论文、脚注、页眉页脚、跨页表格和公式会打乱顺序。扫描 PDF 更依赖 OCR。图片型报告中的图表和流程图即使有文字,也需要视觉理解才能解释。把 PDF 直接转成纯文本,经常会丢掉关键信息。
文档理解应分层处理。第一层保存原文件和元数据,包括来源、版本、上传人、权限、页数、语言和文件哈希。第二层生成页面图像或解析元素,包括标题、段落、表格、图片、脚注、页码和坐标。第三层做任务相关抽取,例如合同字段、报表指标、论文结构、发票信息或操作步骤。第四层建立检索索引,把文本、页面图像、表格结构和摘要连接起来。第五层输出引用,让用户能回到原文页码或区域。
表格是文档理解中最容易出错的部分。表格的含义来自标题、行列、单位、合并单元格、注释和上下文。模型把表格读成自然语言摘要时,可能漏掉单位或把列错配。对财务、运营和科学数据,应该优先抽取为结构化表格,再进行计算和问答。视觉模型适合解释表格趋势和发现异常,但计算结果应尽量来自结构化数据。
图表和示意图也不能忽视。论文图、产品架构图、组织结构图、流程图、地图和仪表盘都包含重要信息。传统文本解析会跳过这些内容,导致知识库回答缺失关键证据。多模态文档系统可以为每张图生成描述、OCR、图例解析和位置引用,同时保留原图。用户需要验证时能打开对应页面,而不是只看到一句模型总结。
文档理解的关键原则是“原文可追溯”。无论系统如何抽取、总结和索引,最后都要能回到原始文件、页面和区域。对于合规、学习和工程实践,文档问答不能只给模型答案,还要给证据位置。否则系统再聪明,也难以成为可信资料入口。
跨模态检索是多模态 AI 从“单次理解”走向“知识系统”的关键。用户可能用文字搜索图片,用图片搜索相似商品,用截图搜索文档,用错误画面搜索解决方案,用视频片段搜索会议记录,也可能上传一页 PDF 后查找相关图表和说明。传统全文检索只能处理文字,无法直接理解图片和视频;跨模态检索要把不同模态映射到可比较的表示空间,或建立能互相跳转的索引。
CLIP 论文展示了通过图文对比学习建立图像和文本关联的路线:图像和文字可以进入共享语义空间,从而支持零样本分类和图文检索。后续的多模态 embedding、视觉文档检索和多向量检索继续发展了这个方向。ColPali 这类文档检索方法则把文档页面当作视觉对象来索引,更适合包含版面、表格和图片的文档。这些研究说明,跨模态检索不一定要先把所有内容转成纯文本。
工程上常见的跨模态检索有三种路线。第一种是文本代理路线:图片、视频和文档先生成文字描述、OCR、字幕和摘要,再进入文本检索。这种方法实现简单,能复用现有全文和向量检索,但会丢失视觉细节。第二种是共享向量路线:图片和文字使用同一类多模态 embedding,用户文字问题可以直接检索图片或页面。这种方法适合相似图搜索、素材库和视觉文档检索。第三种是混合路线:同时保存文本索引、视觉向量、结构化字段和元数据过滤,再根据问题类型组合召回。
跨模态检索不能只看向量相似度。用户问“红色按钮旁边的错误提示”时,系统需要图片区域和 OCR;问“第 3 步演示失败原因”时,需要视频时间线和字幕;问“这个架构图里哪个组件连到数据库”时,需要图像空间关系;问“这份报告里的利润率图表”时,需要文档页面、图表标题和表格数据。向量检索提供候选,最终答案还需要多模态模型精读和证据定位。
向量数据库在跨模态检索中主要承担索引和近邻搜索。Qdrant 文档中提到基础相似搜索、混合查询和多模态查询能力;很多系统也会用 Milvus、pgvector、Elasticsearch、OpenSearch 或专门检索引擎管理向量和元数据。选择哪种工具不是多模态系统的第一问题。更重要的是定义索引单元:是一张图片、一页 PDF、一个视频片段、一个 OCR 区块,还是一个表格单元。索引单元定义错了,再快的向量库也召回不到合适证据。
跨模态检索还要处理权限和生命周期。图片、录音、合同、视频和扫描件往往包含敏感信息。检索时必须按用户权限过滤,不能先召回再让模型“不要说”。资料删除、过期、权限变化和重新解析后,向量索引也要同步更新。多模态索引只是派生数据,不应成为唯一事实来源。
一个可用的多模态系统通常分为七层。第一层是采集层,接收图片、音频、视频、文档、网页、截图、扫描件和结构化数据。第二层是原始存储层,保存不可篡改的原文件、来源、版本、哈希和权限。第三层是解析层,执行 OCR、ASR、视频切片、关键帧抽取、版面分析、表格解析和元数据提取。第四层是索引层,建立全文索引、向量索引、结构化索引和多模态索引。第五层是检索层,根据问题选择合适证据。第六层是推理层,让模型基于证据回答。第七层是引用和反馈层,让用户验证来源并改进系统。
采集层要处理格式和质量。图片可能是 JPG、PNG、HEIC 或截图;音频可能是 WAV、MP3、M4A、WebM;视频可能是 MP4、MOV、AVI;文档可能是 PDF、DOCX、PPTX、HTML 或扫描件。系统要明确支持格式、大小限制、页数限制、时长限制和失败提示。错误体验要面向用户,不能让用户看到底层异常或看不懂的接口信息。
原始存储层是可靠性的基础。解析结果可以重建,embedding 可以重算,摘要可以更新,但原始文件必须可追溯。每个派生结果都应记录来自哪个文件、哪个版本、哪个解析器和哪个时间。这样当 OCR 出错、视频切片不合理、模型摘要错误或索引需要升级时,系统可以回到原始资料重新处理。
解析层要保留不确定性。OCR 置信度低的文字、ASR 听不清的片段、视觉模型不确定的对象、视频中被遮挡的画面,都不应该被包装成确定事实。可以在内部记录置信度、来源类型和人工修正状态。回答时,系统应优先使用高可信证据;如果证据弱,就说明“当前资料中未能明确确认”。
索引层要支持多种检索。全文检索适合错误码、姓名、编号、专有名词和原文短语;向量检索适合语义相近问题;结构化查询适合表格、字段和统计;视觉索引适合图片和页面;时间索引适合音视频片段;图关系适合章节、引用、流程和依赖。多模态应用很少靠一种索引长期稳定运行。
推理层要限制上下文。不要把整份长文档、整段视频或大量图片全部塞给模型。先检索,再精读;先定位证据,再生成答案。对于复杂任务,可以让模型分步工作:识别问题涉及的模态,选择检索器,读取候选证据,判断证据是否足够,生成带引用答案。这样系统更可控,成本也更低。
引用层要面向最终用户。图片引用应能打开图片并高亮区域,音频引用应能播放对应时间段,视频引用应能跳到时间点,文档引用应能定位页码或章节,表格引用应能显示行列。引用不是给工程师看的日志,而是用户验证答案的入口。
多模态提示词不是“请描述图片”这么简单。提示词要告诉模型任务目标、输出结构、证据优先级和不确定性处理方式。比如处理票据时,要说明只抽取图片中可见字段,无法确认的字段留空;处理视频时,要要求回答包含时间段;处理文档时,要引用页码和章节;处理图表时,要区分视觉估计和数据计算。
输入顺序也会影响效果。Claude 视觉文档建议中提到图片和文本的摆放顺序会影响模型理解,Gemini 和 OpenAI 的多模态 API 也都采用由内容块组成的请求结构。工程上应把相关图片、文本说明和任务放在一起,而不是把所有附件堆到最后。多图比较时要给每张图明确编号,视频片段要标时间,文档页面要标页码。
输出结构要适配任务。信息抽取适合 JSON 或表格;学习讲解适合分层说明;质检适合评分、证据和建议;文档问答适合结论、依据和限制;视频摘要适合时间线;图片审查适合区域、问题和置信度。不要把所有多模态结果都变成一段长回答,用户很难验证和复用。
交互设计要让用户自然提供证据。图片上传后可以让用户框选区域,音频转写后可以让用户修正说话人,视频摘要后可以让用户点击时间点,文档问答后可以让用户打开引用页。多模态系统的体验不应只是一块聊天框,而应围绕材料本身提供查看、定位、修正、追问和导出能力。
提示词不能替代权限和校验。不能靠提示词要求模型“不要泄露不可见内容”,也不能靠提示词保证发票金额正确。权限过滤、字段校验、数值计算、格式约束和人工复核应在系统层完成。提示词用于指导模型理解和表达,不应该承担安全边界。
多模态评测要比文本问答更细。图像任务要评估对象识别、文字读取、位置关系、图表理解和细节遗漏;音频任务要评估字错率、说话人分离、时间戳、噪声鲁棒性和摘要忠实度;视频任务要评估事件定位、时间段引用、音画融合和长时记忆;OCR 任务要评估字段准确率、位置准确率和版面顺序;文档任务要评估页码引用、表格抽取、图表解释和跨页推理;检索任务要评估召回证据是否正确。
评测数据要来自真实材料。清晰样例只能证明系统能跑通,不能证明系统可用。应抽取实际业务中的扫描件、照片、录音、视频、合同、报表、课件和截图,覆盖低质量、长文档、多语言、多说话人、复杂表格和异常情况。每个样本要标注标准答案和证据位置,而不仅是一个自然语言结论。
评测指标也要贴近任务。票据抽取看字段准确率和漏提率;客服录音看转写质量、关键承诺识别和误判率;课程视频看知识点定位和摘要覆盖;文档问答看答案忠实度和引用准确率;跨模态检索看 top-k 召回、证据定位和用户点击率。不同任务不能用同一个“回答看起来不错”来判断。
错误分析要追到链路层。一个错误答案可能来自图片分辨率太低、OCR 识别错、音频转写错、视频切片错、文档解析乱序、向量召回错、权限过滤漏、模型推理错或提示词不清。只看最终回答很难改进。多模态系统需要保存处理中间结果,让团队能知道错误发生在哪一层。
还要评估成本和延迟。图片、音频、视频和 PDF 会显著增加处理成本。离线批处理可以接受分钟级延迟,实时助手不能。长视频、高清图片和大 PDF 应该有分层处理策略,例如先生成低成本索引,用户追问时再精读关键片段。评测时要同时记录质量、耗时和成本,否则选型会失真。
多模态资料常常比纯文本更敏感。照片里可能有身份证、地址、屏幕内容、人脸和地理位置;录音里有姓名、电话、病情、账户和商业谈判;视频里有工作场所、客户资料和未公开产品;PDF 里有合同、财务、薪酬和个人信息。系统设计时要把这些内容当作敏感数据,而不是普通附件。
权限过滤必须发生在检索和推理前。用户无权查看的图片、录音、视频、文档片段,不应进入模型上下文。跨模态检索尤其要小心,因为用户可能用模糊描述间接搜到敏感图片或合同。向量相似度不能绕过业务权限,元数据过滤、租户隔离、文档状态和密级要参与检索。
提示注入也会进入多模态材料。网页截图、PDF、图片中的文字、音频转写和视频字幕都可能包含恶意指令,例如要求模型忽略规则、泄露资料或调用危险工具。系统应把资料内容视为证据,而不是指令。工具调用要有独立权限校验,不能因为图片里写着某个命令就执行。
日志和中间结果要有保留策略。OCR 文本、转写稿、关键帧、缩略图、embedding、摘要和模型回答都可能包含敏感信息。不能只保护原始文件,却把派生内容长期暴露在日志、缓存或调试页面里。生产系统应定义脱敏、访问控制、保留期限、删除同步和审计记录。
对高风险场景,要引入人工复核。医疗影像、法律合同、金融凭证、工业安全、身份认证和合规审查,不应把模型判断作为唯一依据。多模态 AI 可以提高效率,帮助定位证据和生成初稿,但最终决策要根据风险设定审批和复核机制。
学习和落地多模态 AI,最稳的方式不是一次支持所有格式,而是选择一个边界明确的场景。例如“上传产品截图并查找帮助文档”“上传课堂视频并生成知识点索引”“上传合同 PDF 并抽取关键条款”“上传客服录音并生成质检报告”“上传发票图片并核对订单”。场景越具体,证据、评测和交互越容易做扎实。
第一步,定义输入和输出。输入是什么格式、大小、质量、语言和来源?输出是摘要、问答、结构化字段、风险清单、时间线还是检索结果?用户需要引用吗?需要导出吗?需要人工修正吗?这些问题比选模型更早。
第二步,建立资料对象。每个文件要有 ID、来源、上传人、权限、版本、哈希、状态和处理记录。不要把附件直接丢给模型后就结束。多模态系统需要长期维护资料和索引,原始材料、派生结果和用户反馈之间要能追溯。
第三步,做解析和质量检查。图片要检查分辨率和方向,音频要检查时长和采样,视频要抽取关键帧和音轨,PDF 要判断数字文本还是扫描件,OCR 和 ASR 要保存置信度。解析失败要给用户清楚提示,而不是让模型猜。
第四步,建立最小检索。先把文本、OCR、转写和摘要做全文或向量索引,再逐步加入图片向量、页面视觉索引、视频片段索引和表格结构索引。不要一开始就追求复杂架构,先让用户能找到证据,再提升召回质量。
第五步,接入模型推理。模型输入应包含问题、任务说明、少量相关证据和输出格式要求。回答中必须区分结论、依据和不确定性。对于抽取类任务,输出要能被程序验证;对于问答类任务,引用要能打开。
第六步,建立评测和反馈。收集真实用户问题,标注正确证据,记录错误类型。每次更换模型、OCR、ASR、分块、索引或提示词,都跑一组回归样本。多模态系统的质量不是上线时一次决定,而是在持续材料和反馈中维护。
假设要做一个中文 AI 课程知识库,资料包括视频课程、课件 PDF、课堂板书照片、教师录音、代码截图和补充文档。用户会问“老师讲 RAG 切分策略时举了什么例子”“这页课件里的图是什么意思”“视频里提到的 OCR 工具有哪些限制”“截图中的报错如何解决”。这个场景同时覆盖图像、语音、视频、OCR、文档理解和跨模态检索。
系统可以先把视频按章节和字幕切分,抽取关键帧,保留每段的开始和结束时间。音频转写生成带时间戳的文本,并标出教师和学生提问。课件 PDF 按页面解析,提取标题、正文、图表和表格。板书照片做 OCR 和视觉描述,保留图片区域。代码截图做 OCR,并尽量识别文件名、错误信息和命令。所有片段都带上课程、章节、时间、页码、来源和权限。
用户问“RAG 切分策略”时,系统先检索字幕、课件标题和板书 OCR,再召回相关视频片段和课件页。模型回答时引用视频时间点和课件页码。用户问“这张图是什么意思”时,系统把课件页面图像、图表描述和前后讲解一起交给模型。用户问“报错如何解决”时,系统用 OCR 精确匹配错误信息,同时检索代码说明和课堂讲解。
这个例子的重点不是模型有多强,而是证据组织合理。视频片段、课件页面、板书图片和转写文本不是孤立附件,而是围绕同一知识点建立关系。用户可以从回答跳回原视频和原页面,发现错误后也能修正转写或 OCR。这样的多模态知识库才适合学习和工程实践。
第一个误区是认为多模态模型可以替代所有解析工具。实际工程里,OCR、ASR、版面分析、表格抽取、全文检索和结构化数据库仍然重要。多模态模型适合理解和推理,不应承担所有基础数据处理。
第二个误区是把图片、音频和视频全部转成一段摘要。摘要方便阅读,但会丢掉证据边界。图片区域、音频时间戳、视频片段、文档页码和表格坐标都应保留,否则用户无法核验。
第三个误区是只做单轮演示,不做资料生命周期。多模态资料会更新、删除、改权限和重新解析。索引、缓存、摘要和引用都要跟着同步。否则系统越用越不可信。
第四个误区是忽视成本。高清图片、长音频、长视频和大 PDF 都会带来明显成本。应先用索引和粗粒度摘要缩小范围,再让模型精读关键证据。
第五个误区是把模型输出当成精确抽取结果。发票金额、合同日期、图表数值、身份信息和设备读数需要校验。模型可以辅助抽取,但高风险字段要结合规则、结构化数据或人工复核。
第六个误区是只看最终回答,不看中间结果。多模态错误可能发生在采集、解析、切分、检索、推理和引用任意一层。没有中间结果,就无法定位问题。
第七个误区是让界面只剩一个上传框和聊天框。多模态材料需要预览、定位、框选、播放、跳转、修正和引用。交互设计必须围绕材料,而不是只围绕文字对话。
多模态 AI 的核心不是“模型支持哪些输入格式”,而是系统能否把真实世界的材料转化为可理解、可检索、可推理、可核验的证据。图像提供空间和视觉细节,音频提供语言和语气,视频提供时间线和事件过程,OCR 把图像文字变成可定位文本,文档理解保留版面和结构,跨模态检索把不同证据连接到同一个问题。
学习多模态 AI 时,可以从单一能力入手,但落地时必须回到完整链路:原始资料保存、解析、索引、权限、检索、推理、引用、评测和反馈。只有这条链路成立,多模态系统才不是一次漂亮演示,而是可以服务学习、工程、知识管理和业务流程的生产级能力。