本地 AI 与部署推理
围绕 Ollama、llama.cpp、vLLM、量化、GPU、私有化和模型网关建立部署能力。
推荐阅读顺序
- 大模型训练、推理与部署:从预训练到线上服务的工程全景
研究聚焦大模型工程从训练产物到线上服务之间的断裂:为什么一个 checkpoint 能通过离线评测,却不必然成为稳定、可控、可扩展的模型服务。方法上,文章把生命周期拆为数据与预训练、后训练与评测、推理与缓存、服务化部署与线上治理四条链路,并用成本、延迟、显存、版本和安全边界贯穿分析。结论是,大模型工程不是模型文件管理,而是数据、训练系统、推理引擎、平台运维和产品验收的联合工程;任何只优化单点指标的方案都会在生产流量中暴露代价。
- 本地AI部署入门:Ollama、llama.cpp、vLLM、LM Studio与Open WebUI
研究聚焦本地 AI 部署的入门误区:为什么“模型能在电脑上跑起来”不等于构建了可维护的本地 AI 能力。方法上,文章从硬件约束、量化格式、推理后端、桌面工具、网页入口、OpenAI 兼容接口、安全边界和运维治理几个维度比较 Ollama、llama.cpp、vLLM、LM Studio 与 Open WebUI。结论是,本地 AI 的核心价值在于控制模型、数据、成本和接口边界;稳定方案应从最小可行环境开始,逐步补上评测、知识库、权限、监
- 大模型推理优化:KV Cache、PagedAttention、连续批处理、量化和投机解码
研究聚焦大模型推理服务的核心瓶颈:在线系统为何经常不是被权重大小限制,而是被 KV Cache、调度、量化误差和真实流量分布共同限制。方法上,文章把推理拆为 prefill 与 decode 两个阶段,围绕 KV Cache、PagedAttention、连续批处理、量化、投机解码、前缀缓存和压测指标展开机制分析。结论是,推理优化不是追求单次最快,而是在吞吐、首 token 延迟、输出稳定性、显存容量、质量和成本之间建立可观测取舍;上线
- AI应用架构:模型网关、队列、审计、租户、配额、缓存和观测
生产级 AI 应用的架构问题,不是模型 API 怎样接得更快,而是一个非确定、昂贵且持续变化的智能组件如何进入长期运行的业务系统。本文把模型网关、任务队列、审计、多租户、配额、缓存、观测、RAG 和上下文管理视为同一套治理结构:它们共同决定一次模型调用能否被授权、被解释、被限额、被恢复和被持续改进。文章关注最小可行生产架构,而不是一次性搭建平台;重点是把早期容易遗漏的证据链、成本归因和质量反馈从第一天纳入系统边界。
- 模型网关教程:统一API、供应商路由、降级、重试、计费和审计
模型网关不是把不同供应商的接口包装成同一个路径,而是把模型调用从业务代码中抽离为可治理的基础设施。统一 API、模型别名、供应商路由、降级、重试、超时、缓存、计费和审计应被放在同一条调用链中分析,因为网关的核心作用,是把“选哪个模型”转化为可版本化、可观测、可回滚的策略问题。任务语义在这里尤其关键:不同业务对延迟、成本、质量、数据出域和失败后果的约束不同,网关必须处理这些差异,而不是把所有请求压平成普通聊天调用。
- 私有化AI部署:内网、GPU、权限、日志、备份和合规检查
私有化 AI 部署的目标不是把模型搬进内网后宣布安全,而是把数据、算力、权限、日志、备份和合规证据放进同一套可运维边界。本文把内网入口收口、GPU 资源规划、模型网关、RAG 权限、日志审计、备份恢复和合规检查作为一个整体讨论,强调“部署位置”不能替代“治理能力”。私有化只改变信任边界和运行约束,不能自动解决越权检索、提示注入、工具滥用、审计缺失和恢复不可用等问题。
- 企业AI落地路线图:从个人效率工具到组织级智能体平台
企业 AI 落地不是采购几个工具,也不是把员工个人经验外包给模型,而是组织能力从个人效率、团队流程、企业知识库、模型网关走向受约束智能体平台的演进。本文把路线图理解为能力成熟度问题:每一阶段都必须同时建设场景、数据、权限、成本、审计、评测和角色责任。文章关注组织如何避免“试点很多、生产很少”的困境,把 AI 从个人助手推进到可复用、可治理、可度量的业务能力。
- GPU与算力基础:显存、带宽、Tensor Core、NVLink、MIG和云GPU
GPU 选型常被简化成显卡型号和峰值算力比较,但生产系统真正遇到的约束来自容量、带宽、计算吞吐、互联、调度和价格的耦合。本文把 GPU 看成一个受多重上界限制的计算系统:显存决定任务能否启动,带宽决定数据能否喂饱计算单元,Tensor Core 决定低精度矩阵计算能否进入高效路径,NVLink 与 NCCL 决定多卡扩展是否有效,MIG 与云实例形态决定资源能否被稳定共享。文章不以硬件参数罗列为中心,而以瓶颈诊断和成本决策为中心,讨论如
- 模型量化教程:INT8、INT4、GPTQ、AWQ、GGUF、FP8和质量评估
模型量化不是把权重文件压小的后处理步骤,而是一次改变数值表达、推理内核、显存结构和业务质量边界的系统改造。INT8、INT4、GPTQ、AWQ、GGUF 和 FP8 的差异,只有放在硬件、推理引擎、校准数据、KV Cache、长上下文、工具调用和上线评测中才有意义。本文把量化视为“资源收益与能力退化”的联合优化问题:显存下降、吞吐提升和成本降低必须与格式稳定性、引用正确率、结构化输出、拒答边界和高风险动作质量一起评估。
- AI与数据隐私:本地推理、脱敏、最小权限、审计和合规策略
AI 数据隐私不是隐私政策里的附录,而是模型调用链路的架构问题。用户输入、上传文件、知识库片段、工具返回、提示词、模型输出、日志、评测样本和人工标注都会形成新的数据流。本文把本地推理、脱敏、最小权限、审计和合规策略放进同一个生命周期模型,强调隐私控制必须在采集、预处理、上下文组装、模型推理、工具调用、输出呈现、留存和再利用各阶段落地。生产级隐私不是阻止 AI 工作,而是让 AI 在正确的数据、正确的权限和可追溯用途内工作。