模型量化教程：INT8、INT4、GPTQ、AWQ、GGUF、FP8和质量评估

量化路线	主要收益	主要风险	适合的验收重点
INT8 / FP8	显存下降、吞吐改善、质量退化较小	硬件和 kernel 支持差异会影响收益	与标准精度模型对比 p95 延迟、格式成功率、引用正确率
INT4 / GPTQ / AWQ	单卡部署能力明显提高，权重常驻显存显著下降	专业任务、长上下文和工具参数更容易出现边界退化	长文档、JSON、函数调用、拒答边界和业务样本回放
GGUF 本地量化	分发简单，适合桌面、边缘和离线助手	机器差异大，速度与质量受格式和后端影响	本地启动时间、上下文长度、中文问答和用户硬件分层
KV Cache 量化	长上下文和高并发显存压力下降	注意力缓存误差可能影响长距离引用	长上下文定位、引用稳定性、并发下 TTFT 和 p99

摘要