模型训练、推理与评测专题
本专题帮助读者把模型能力拆成可判断的工程要素:数据从哪里来,模型如何对齐,推理如何提速,评测如何避免自我欺骗。
学习路径
- 大模型训练、推理与部署:从预训练到线上服务的工程全景
研究聚焦大模型工程从训练产物到线上服务之间的断裂:为什么一个 checkpoint 能通过离线评测,却不必然成为稳定、可控、可扩展的模型服务。方法上,文章把生命周期拆为数据与预训练、后训练与评测、推理与缓存、服务化部署与线上治理四条链路,并用成本、延迟、显存、版本和安全边界贯穿分析。结论是,大模型工程不是模型文件管理,而是数据、训练系统、推理引擎、平台运维和产品验收的联合工程;任何只优化单点指标的方案都会在生产流量中暴露代价。
- 大模型推理优化:KV Cache、PagedAttention、连续批处理、量化和投机解码
研究聚焦大模型推理服务的核心瓶颈:在线系统为何经常不是被权重大小限制,而是被 KV Cache、调度、量化误差和真实流量分布共同限制。方法上,文章把推理拆为 prefill 与 decode 两个阶段,围绕 KV Cache、PagedAttention、连续批处理、量化、投机解码、前缀缓存和压测指标展开机制分析。结论是,推理优化不是追求单次最快,而是在吞吐、首 token 延迟、输出稳定性、显存容量、质量和成本之间建立可观测取舍;上线
- 国内外大模型版图:OpenAI、Anthropic、Google、Meta、Mistral、DeepSeek、Qwen、Kimi、智谱、MiniMax
本文把国内外大模型竞争解释为“能力、生态、成本、治理”共同作用的产业结构,而不是把厂商按榜单成绩排成单列。OpenAI、Anthropic、Google、Meta、Mistral 与 DeepSeek、Qwen、Kimi、智谱、MiniMax 的差异,主要体现在模型能力如何被产品化、是否开放权重、能否承载长上下文和工具使用、推理成本怎样被转嫁给应用,以及企业能否在合规和可控性之间获得稳定选择。文章的核心判断是:大模型版图正在从单模型能力
- 开源模型选型指南:Llama、Qwen、DeepSeek、Mistral、Gemma、Phi、GLM与Yi
本文讨论开源和开放权重模型的生产选型问题。文章不把 Llama、Qwen、DeepSeek、Mistral、Gemma、Phi、GLM 与 Yi 处理成“谁更强”的横向榜单,而是把它们放入任务、许可证、推理栈、语言场景、量化质量、硬件预算、微调空间和长期维护成本构成的决策系统中。核心观点是:开源模型的真正优势不是“免费”,而是当团队拥有评测、部署和治理能力时,可以把模型变成可控的产品资产;如果缺少这些能力,本地能跑只会把外部 API 风
- 微调与对齐:SFT、LoRA、QLoRA、DPO、RLHF、RLAIF和偏好数据
本文把微调与对齐视为一个错误归因和行为塑形问题,而不是训练算法名词表。SFT、LoRA、QLoRA、DPO、RLHF、RLAIF 和偏好数据分别适合不同缺口:任务格式、表达习惯、偏好判断、安全边界和长期可维护性。文章强调,训练不能替代检索、权限、工具和运行时控制;只有先确认问题来自模型行为而非系统链路,再选择训练方法,微调才可能提高产品质量。对齐的目标也不是让模型机械听话,而是在有用、真实、可控和可恢复之间建立稳定策略。
- 训练数据工程:采集、清洗、去重、过滤、标注、合成和数据治理
本文把训练数据工程定义为模型能力边界和风险边界的塑形工程。采集、解析、清洗、去重、过滤、标注、合成、混合和治理不是训练之前的杂务,而是决定模型能学到什么、会错误记住什么、评测是否可信、数据是否可删除、结果能否复现的核心系统。文章从目标反推数据规格,强调来源许可、元数据、重复控制、质量过滤、偏好标注和闭环评测之间的连锁关系。核心观点是:数据工程做得越像可审计产品,模型训练越不依赖偶然运气。
- 大模型评测体系:MMLU、GPQA、HumanEval、Arena、RAG评测和业务评测
本文讨论大模型评测如何从公开榜单走向生产决策。MMLU、GPQA、HumanEval 和 Arena 能帮助团队理解基础能力、专业推理、代码生成和人类偏好,但它们不能替代 RAG、工具调用、Agent 执行和业务结果评测。文章的核心观点是:评测对象必须分清模型、系统和业务结果;指标必须能够定位失败来源;上线门槛必须由真实任务完成率、事实忠实度、风险暴露和成本共同决定。没有业务评测的榜单分数,只能作为候选筛选,不能作为上线证据。
- GPU与算力基础:显存、带宽、Tensor Core、NVLink、MIG和云GPU
GPU 选型常被简化成显卡型号和峰值算力比较,但生产系统真正遇到的约束来自容量、带宽、计算吞吐、互联、调度和价格的耦合。本文把 GPU 看成一个受多重上界限制的计算系统:显存决定任务能否启动,带宽决定数据能否喂饱计算单元,Tensor Core 决定低精度矩阵计算能否进入高效路径,NVLink 与 NCCL 决定多卡扩展是否有效,MIG 与云实例形态决定资源能否被稳定共享。文章不以硬件参数罗列为中心,而以瓶颈诊断和成本决策为中心,讨论如
- 模型量化教程:INT8、INT4、GPTQ、AWQ、GGUF、FP8和质量评估
模型量化不是把权重文件压小的后处理步骤,而是一次改变数值表达、推理内核、显存结构和业务质量边界的系统改造。INT8、INT4、GPTQ、AWQ、GGUF 和 FP8 的差异,只有放在硬件、推理引擎、校准数据、KV Cache、长上下文、工具调用和上线评测中才有意义。本文把量化视为“资源收益与能力退化”的联合优化问题:显存下降、吞吐提升和成本降低必须与格式稳定性、引用正确率、结构化输出、拒答边界和高风险动作质量一起评估。
- 大模型应用测试:单元测试、金集、回归、红队、离线评估和线上A/B
大模型应用测试不能停留在接口可用和页面可点,因为模型输出具有概率性、上下文依赖性和版本漂移。一个生产系统需要同时验证确定性代码、提示词、检索证据、工具调用、模型回答、安全边界、用户体验和线上效果。本文把单元测试、金集、回归、红队、离线评估、线上 A/B 和生产监控放进一套质量体系中,强调测试不是上线前的一次验收,而是模型、数据、提示词和产品流程持续变化时的治理机制。