模型、数据、检索与知识库
理解大模型训练、训练数据、向量数据库、Embedding、Reranker 和知识库设计。
推荐阅读顺序
- 大模型训练、推理与部署:从预训练到线上服务的工程全景
研究聚焦大模型工程从训练产物到线上服务之间的断裂:为什么一个 checkpoint 能通过离线评测,却不必然成为稳定、可控、可扩展的模型服务。方法上,文章把生命周期拆为数据与预训练、后训练与评测、推理与缓存、服务化部署与线上治理四条链路,并用成本、延迟、显存、版本和安全边界贯穿分析。结论是,大模型工程不是模型文件管理,而是数据、训练系统、推理引擎、平台运维和产品验收的联合工程;任何只优化单点指标的方案都会在生产流量中暴露代价。
- 国内外大模型版图:OpenAI、Anthropic、Google、Meta、Mistral、DeepSeek、Qwen、Kimi、智谱、MiniMax
本文把国内外大模型竞争解释为“能力、生态、成本、治理”共同作用的产业结构,而不是把厂商按榜单成绩排成单列。OpenAI、Anthropic、Google、Meta、Mistral 与 DeepSeek、Qwen、Kimi、智谱、MiniMax 的差异,主要体现在模型能力如何被产品化、是否开放权重、能否承载长上下文和工具使用、推理成本怎样被转嫁给应用,以及企业能否在合规和可控性之间获得稳定选择。文章的核心判断是:大模型版图正在从单模型能力
- 开源模型选型指南:Llama、Qwen、DeepSeek、Mistral、Gemma、Phi、GLM与Yi
本文讨论开源和开放权重模型的生产选型问题。文章不把 Llama、Qwen、DeepSeek、Mistral、Gemma、Phi、GLM 与 Yi 处理成“谁更强”的横向榜单,而是把它们放入任务、许可证、推理栈、语言场景、量化质量、硬件预算、微调空间和长期维护成本构成的决策系统中。核心观点是:开源模型的真正优势不是“免费”,而是当团队拥有评测、部署和治理能力时,可以把模型变成可控的产品资产;如果缺少这些能力,本地能跑只会把外部 API 风
- 微调与对齐:SFT、LoRA、QLoRA、DPO、RLHF、RLAIF和偏好数据
本文把微调与对齐视为一个错误归因和行为塑形问题,而不是训练算法名词表。SFT、LoRA、QLoRA、DPO、RLHF、RLAIF 和偏好数据分别适合不同缺口:任务格式、表达习惯、偏好判断、安全边界和长期可维护性。文章强调,训练不能替代检索、权限、工具和运行时控制;只有先确认问题来自模型行为而非系统链路,再选择训练方法,微调才可能提高产品质量。对齐的目标也不是让模型机械听话,而是在有用、真实、可控和可恢复之间建立稳定策略。
- 训练数据工程:采集、清洗、去重、过滤、标注、合成和数据治理
本文把训练数据工程定义为模型能力边界和风险边界的塑形工程。采集、解析、清洗、去重、过滤、标注、合成、混合和治理不是训练之前的杂务,而是决定模型能学到什么、会错误记住什么、评测是否可信、数据是否可删除、结果能否复现的核心系统。文章从目标反推数据规格,强调来源许可、元数据、重复控制、质量过滤、偏好标注和闭环评测之间的连锁关系。核心观点是:数据工程做得越像可审计产品,模型训练越不依赖偶然运气。
- AI知识库设计:文档、网页、代码、表格、多模态资料的统一治理
AI 知识库不是把资料切块后写入向量库,而是把组织知识变成可检索、可授权、可引用、可更新、可评测的证据系统。本文以文档、网页、代码、表格和多模态资料为对象,讨论资料模型、解析、分块、元数据、权限过滤、混合索引、增量同步、引用生成和质量评测之间的关系。文章强调向量相似度只是召回手段之一,知识库的可靠性最终取决于资料结构是否保真、权限是否前置、答案是否能回到来源,以及更新后旧索引和缓存是否失效。
- 向量数据库教程:FAISS、Milvus、Qdrant、Weaviate、pgvector和Chroma
向量数据库在 RAG、语义搜索和智能体记忆中经常被当成单一组件讨论,但生产质量通常取决于一条更长的检索链:文档治理、切分策略、embedding 模型、索引结构、metadata 过滤、重排、权限、引用和评测共同决定答案是否可靠。本文把 FAISS、Milvus、Qdrant、Weaviate、pgvector 和 Chroma 放在同一个工程坐标系中比较,不追求“哪个产品最好”,而追问在什么数据规模、过滤复杂度、权限边界、运维能力和重
- 嵌入模型教程:语义向量、中文Embedding、稠密/稀疏/混合检索
嵌入模型把文本、图像或其他对象映射到向量空间,但生产检索的关键不只是“向量相似”。中文语义、专有名词、短查询、长文档、术语匹配、表格片段和代码片段会共同改变召回表现。本文把 embedding 模型放在检索系统中讨论:模型训练目标、正负样本构造、稠密和稀疏信号、混合检索、查询改写、索引版本和业务评测必须一起设计。文章的目标不是推荐某个单一模型,而是帮助读者建立从语义表示到生产召回的判断框架。
- 重排模型教程:Cross Encoder、BGE Reranker、ColBERT和业务排序
重排模型位于召回和生成之间,决定哪些证据最终进入用户可见答案。向量检索负责把可能相关的候选找出来,但候选集合往往包含语义相近但事实不匹配、权限不合适、时间过期或业务价值较低的片段。Cross Encoder、BGE Reranker 和 ColBERT 的价值,只有放在候选规模、延迟预算、证据质量和业务排序目标中才清楚。本文把重排视为一个证据治理问题,而不是简单的“给搜索结果再打分”。