AI 基础与词元系统
从 Token、词元化、上下文窗口到模型评测,建立学习 AI 工程所需的基础概念。
推荐阅读顺序
- AI、本地AI、Token与上下文工程:从词元到可部署智能体的完整入门
研究聚焦初学者进入 AI 应用工程时最容易混淆的三个层次:模型能力、上下文组织与执行系统。方法上,文章以 Token 作为资源计量单位,以上下文窗口作为运行时工作台,再把本地部署、检索增强、工具调用、记忆、安全与评测纳入同一工程框架。结论是,可部署智能体的核心不在于把提示词写得更长,而在于用可计量的 Token 预算、可追溯的证据、可控的工具权限和可复验的评测闭环,把模型能力转化为稳定系统行为。
- Token与词元化原理:BPE、SentencePiece、中文切分、成本与上下文预算
研究聚焦 Token 与词元化在大模型应用中的工程影响:同一段文本为何在不同模型中产生不同成本、不同上下文占用和不同切分行为。方法上,文章从 BPE、字节级 BPE、SentencePiece、WordPiece 与 Unigram 的基本机制出发,分析中文、代码、Markdown、JSON、RAG 切块、缓存和多模型网关中的 Token 预算问题。结论是,Token 不是“字数换算”问题,而是模型接口、成本控制、上下文治理和产品体验的
- 国内外大模型版图:OpenAI、Anthropic、Google、Meta、Mistral、DeepSeek、Qwen、Kimi、智谱、MiniMax
本文把国内外大模型竞争解释为“能力、生态、成本、治理”共同作用的产业结构,而不是把厂商按榜单成绩排成单列。OpenAI、Anthropic、Google、Meta、Mistral 与 DeepSeek、Qwen、Kimi、智谱、MiniMax 的差异,主要体现在模型能力如何被产品化、是否开放权重、能否承载长上下文和工具使用、推理成本怎样被转嫁给应用,以及企业能否在合规和可控性之间获得稳定选择。文章的核心判断是:大模型版图正在从单模型能力
- 开源模型选型指南:Llama、Qwen、DeepSeek、Mistral、Gemma、Phi、GLM与Yi
本文讨论开源和开放权重模型的生产选型问题。文章不把 Llama、Qwen、DeepSeek、Mistral、Gemma、Phi、GLM 与 Yi 处理成“谁更强”的横向榜单,而是把它们放入任务、许可证、推理栈、语言场景、量化质量、硬件预算、微调空间和长期维护成本构成的决策系统中。核心观点是:开源模型的真正优势不是“免费”,而是当团队拥有评测、部署和治理能力时,可以把模型变成可控的产品资产;如果缺少这些能力,本地能跑只会把外部 API 风
- 微调与对齐:SFT、LoRA、QLoRA、DPO、RLHF、RLAIF和偏好数据
本文把微调与对齐视为一个错误归因和行为塑形问题,而不是训练算法名词表。SFT、LoRA、QLoRA、DPO、RLHF、RLAIF 和偏好数据分别适合不同缺口:任务格式、表达习惯、偏好判断、安全边界和长期可维护性。文章强调,训练不能替代检索、权限、工具和运行时控制;只有先确认问题来自模型行为而非系统链路,再选择训练方法,微调才可能提高产品质量。对齐的目标也不是让模型机械听话,而是在有用、真实、可控和可恢复之间建立稳定策略。
- 训练数据工程:采集、清洗、去重、过滤、标注、合成和数据治理
本文把训练数据工程定义为模型能力边界和风险边界的塑形工程。采集、解析、清洗、去重、过滤、标注、合成、混合和治理不是训练之前的杂务,而是决定模型能学到什么、会错误记住什么、评测是否可信、数据是否可删除、结果能否复现的核心系统。文章从目标反推数据规格,强调来源许可、元数据、重复控制、质量过滤、偏好标注和闭环评测之间的连锁关系。核心观点是:数据工程做得越像可审计产品,模型训练越不依赖偶然运气。
- 大模型评测体系:MMLU、GPQA、HumanEval、Arena、RAG评测和业务评测
本文讨论大模型评测如何从公开榜单走向生产决策。MMLU、GPQA、HumanEval 和 Arena 能帮助团队理解基础能力、专业推理、代码生成和人类偏好,但它们不能替代 RAG、工具调用、Agent 执行和业务结果评测。文章的核心观点是:评测对象必须分清模型、系统和业务结果;指标必须能够定位失败来源;上线门槛必须由真实任务完成率、事实忠实度、风险暴露和成本共同决定。没有业务评测的榜单分数,只能作为候选筛选,不能作为上线证据。
- GPU与算力基础:显存、带宽、Tensor Core、NVLink、MIG和云GPU
GPU 选型常被简化成显卡型号和峰值算力比较,但生产系统真正遇到的约束来自容量、带宽、计算吞吐、互联、调度和价格的耦合。本文把 GPU 看成一个受多重上界限制的计算系统:显存决定任务能否启动,带宽决定数据能否喂饱计算单元,Tensor Core 决定低精度矩阵计算能否进入高效路径,NVLink 与 NCCL 决定多卡扩展是否有效,MIG 与云实例形态决定资源能否被稳定共享。文章不以硬件参数罗列为中心,而以瓶颈诊断和成本决策为中心,讨论如
- 模型量化教程:INT8、INT4、GPTQ、AWQ、GGUF、FP8和质量评估
模型量化不是把权重文件压小的后处理步骤,而是一次改变数值表达、推理内核、显存结构和业务质量边界的系统改造。INT8、INT4、GPTQ、AWQ、GGUF 和 FP8 的差异,只有放在硬件、推理引擎、校准数据、KV Cache、长上下文、工具调用和上线评测中才有意义。本文把量化视为“资源收益与能力退化”的联合优化问题:显存下降、吞吐提升和成本降低必须与格式稳定性、引用正确率、结构化输出、拒答边界和高风险动作质量一起评估。