本地AI部署入门：Ollama、llama.cpp、vLLM、LM Studio与Open WebUI

工具	主要角色	优势	边界
Ollama	模型运行与管理入口	上手快、模型拉取和本地 API 简洁	高并发、多租户和精细治理能力有限
llama.cpp	轻量推理引擎与 GGUF 生态核心	跨平台、透明、适合理解参数和量化	需要更多调试，平台治理需外接
vLLM	服务端高吞吐推理框架	连续批处理、PagedAttention、OpenAI 兼容服务	安装和硬件门槛较高，不适合纯桌面探索
LM Studio	桌面模型体验与本地 API	可视化下载、调参、对比模型	严格生产服务需要额外运维设计
Open WebUI	自托管使用界面	适合多人入口、连接多后端和知识库	不替代底层模型质量和 RAG 工程

摘要