在人工智能快速发展的今天,大型语言模型(LLM)已经成为许多开发者和研究人员的必备工具。然而,这些模型通常需要强大的硬件支持和复杂的配置,这为许多用户带来了不小的挑战。Ollama的出现,正是为了解决这一问题。
Ollama是一个开源框架,堪称本地部署大型语言模型的"瑞士军刀"——无需复杂配置,仅通过简单命令行,就能将DeepSeek、Qwen、Llama3、Gemma等热门模型快速"搬"到本地设备上运行。无论是开发者调试模型,还是企业搭建私有化AI服务,Ollama都能大幅降低部署门槛。
一、什么是Ollama?¶
Ollama是一个开源的大型语言模型(LLM)服务工具,旨在简化在本地环境中部署和运行这些模型的过程。它支持多种操作系统,包括Windows、macOS和Linux,并且可以通过Docker容器进行管理。
Ollama支持多种模型格式,包括GGUF、Safetensors等,并提供与OpenAI兼容的API,支持多种语言模型如Llama 3.2、Mistral、Gemma和最新的Gemma 3、Llama 4等。此外,Ollama还支持并行请求和多线程操作,提高了效率。用户可以通过简单的命令行工具或Web界面(如Open WebUI、Hollama等)来管理和运行模型。
项目地址:https://github.com/ollama/ollama
官方网址:https://ollama.com
二、Ollama的核心特性¶
1. 本地推理能力¶
- 有无GPU均可:即使无GPU,仅CPU也能让开源模型(如LLaMA、GPT-Neo、Mistral等)跑起来。
- GPU+CPU混合:若自动检测到机器上存在GPU(NVIDIA或者AMD),自动同时使用GPU+CPU,充分发挥两者的能力。
2. 轻量易用¶
- 安装方式简洁:支持多平台一键安装,只需一个命令行工具就能在本地完成私有化部署。
- 简单操作:一键就能自动下载运行模型并进行对话、推理。
3. 量化优化¶
支持对常见大语言模型做4-bit或8-bit等量化(Quantization),通过量化进一步降低硬件资源占用。这种优化不仅让小型企业和个人开发者也能玩转大模型,更推动了AI技术的普及应用。
4. 模型管理¶
- 内置模型库:Ollama提供了官方的模型registry中心(网站:ollama.com/library),上面是官方提供的模型列表,其地位类似于Docker的DockerHub。
- 简单命令管理:通过简单的命令如
ollama pull、ollama run、ollama list、ollama ps、ollama stop等,轻松管理模型。 - 自定义模型:通过Modelfile可以创建和自定义模型,导入GGUF/Safetensors格式的模型,并自定义提示词。
- 模型复制:可以使用
ollama cp命令复制现有模型。
5. API兼容性¶
提供与OpenAI兼容的API,使得之前使用OpenAI的代码可以轻松迁移到Ollama上,降低了开发者的迁移成本。同时提供REST API接口,支持generate和chat两种交互方式。
三、Ollama的技术优势¶
Ollama的"黑科技"在于其底层优化技术。权重量化、分块加载与缓存机制、GPU/CPU灵活调度三大核心技术协同发力,让大模型在普通硬件上也能流畅运行。
以DeepSeek-R1的蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例,原生部署至少需要14G显存,而经Ollama量化处理后,显存占用显著降低。
这种量化技术可以类比为微信传图:当我们接收微信图片时,选择"不下载原图",图片虽牺牲部分画质(分辨率降低),但文件大小仅几百KB,节省大量存储空间;若点击"下载原图",虽然画质清晰,但占用内存明显增加。
大模型量化与此异曲同工:原版模型如同高清原图,完整保留所有参数细节,但对硬件要求极高;而量化模型通过调整权重参数的精度,在保证核心功能的前提下大幅缩减内存占用,就像压缩后的低清图片,更适配普通设备运行。
四、如何使用Ollama¶
1. 安装Ollama¶
Ollama支持多种平台的安装方式:
macOS安装:
下载并运行Ollama.dmg安装包,可从https://ollama.com/download/Ollama.dmg获取。
Windows安装:
下载并运行Windows安装包,可从https://ollama.com/download/OllamaSetup.exe获取。
Linux安装:
curl -fsSL https://ollama.com/install.sh | sh
Docker安装:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
2. 下载模型¶
安装完成后,可以通过简单的命令下载模型。例如,要下载Llama 3.2模型,只需在终端输入:
ollama pull llama3.2
更多可用模型可以在 Ollama模型库 中查看。
Ollama支持多种模型,以下是一些可以在Ollama上运行的示例模型:
| 模型 | 参数量 | 大小 | 下载命令 |
|---|---|---|---|
| Gemma 3 | 1B | 815MB | ollama run gemma3:1b |
| Gemma 3 | 4B | 3.3GB | ollama run gemma3 |
| Gemma 3 | 12B | 8.1GB | ollama run gemma3:12b |
| Gemma 3 | 27B | 17GB | ollama run gemma3:27b |
| QwQ | 32B | 20GB | ollama run qwq |
| DeepSeek-R1 | 7B | 4.7GB | ollama run deepseek-r1 |
| DeepSeek-R1 | 671B | 404GB | ollama run deepseek-r1:671b |
| Llama 4 | 109B | 67GB | ollama run llama4:scout |
| Llama 4 | 400B | 245GB | ollama run llama4:maverick |
| Llama 3.3 | 70B | 43GB | ollama run llama3.3 |
| Llama 3.2 | 3B | 2.0GB | ollama run llama3.2 |
| Llama 3.2 | 1B | 1.3GB | ollama run llama3.2:1b |
| Llama 3.2 Vision | 11B | 7.9GB | ollama run llama3.2-vision |
| Llama 3.2 Vision | 90B | 55GB | ollama run llama3.2-vision:90b |
| Llama 3.1 | 8B | 4.7GB | ollama run llama3.1 |
| Llama 3.1 | 405B | 231GB | ollama run llama3.1:405b |
| Phi 4 | 14B | 9.1GB | ollama run phi4 |
| Phi 4 Mini | 3.8B | 2.5GB | ollama run phi4-mini |
| Mistral | 7B | 4.1GB | ollama run mistral |
| Moondream 2 | 1.4B | 829MB | ollama run moondream |
| Neural Chat | 7B | 4.1GB | ollama run neural-chat |
| Starling | 7B | 4.1GB | ollama run starling-lm |
| Code Llama | 7B | 3.8GB | ollama run codellama |
| Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
| LLaVA | 7B | 4.5GB | ollama run llava |
| Granite-3.3 | 8B | 4.9GB | ollama run granite3.3 |
注意:运行7B参数模型至少需要8GB RAM,13B参数模型需要16GB RAM,33B参数模型需要32GB RAM。
3. 运行模型¶
下载完成后,可以通过以下命令运行模型并与AI对话:
ollama run llama3.2
4. 管理模型¶
- 查看已安装的模型列表:
ollama list
- 查看当前正在运行的模型:
ollama ps
- 删除不再需要的模型:
ollama rm llama3.2
- 停止正在运行的模型:
ollama stop llama3.2
- 复制模型:
ollama cp llama3.2 my-model
5. 自定义模型¶
通过Modelfile可以创建和自定义模型:
# 创建Modelfile
echo "FROM llama3.2
# 设置温度为1 [越高越有创意,越低越连贯]
PARAMETER temperature 1
# 设置系统消息
SYSTEM \"\"\"
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
\"\"\"" > Modelfile
# 创建自定义模型
ollama create mario -f Modelfile
# 运行自定义模型
ollama run mario
此外,Ollama还支持从GGUF和Safetensors格式导入模型。
6. 使用REST API¶
Ollama提供REST API接口,支持generate和chat两种交互方式:
生成接口:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt":"Why is the sky blue?"
}'
聊天接口:
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{ "role": "user", "content": "why is the sky blue?" }
]
}'
7. 多模态模型支持¶
Ollama支持多模态模型,可以处理图像和文本输入。例如,使用LLaVA模型分析图像:
ollama run llava "What's in this image? /path/to/your/image.png"
8. 多行输入支持¶
Ollama支持多行输入,可以使用三引号(""")包裹文本:
>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.
9. 与编程语言集成¶
Ollama提供了API接口,可以轻松与各种编程语言集成。例如,使用Python连接Ollama:
import json
import requests
# 发送请求到Ollama
response = requests.post('http://localhost:11434/api/generate',
json={
'model': 'llama3.2',
'prompt': '你好,请介绍一下你自己。',
'stream': False
})
# 打印响应
print(json.loads(response.text)['response'])
五、Ollama的应用场景¶
1. 开发者调试¶
对于AI开发者来说,Ollama提供了一个便捷的本地环境,可以快速测试和调试各种大语言模型,无需依赖云服务。通过VS Code的Continue插件,可以实现代码补全功能。
2. 企业私有化部署¶
对于注重数据安全的企业,Ollama允许在本地部署AI模型,确保敏感数据不会离开企业内部网络。同时,可以通过Docker在云平台(如Google Cloud、Fly.io、Koyeb)上部署。
3. 教育与研究¶
教育机构和研究人员可以利用Ollama在本地环境中进行AI相关的教学和研究,无需承担高昂的云服务费用。
4. 个人AI助手¶
普通用户可以在个人电脑上部署AI助手,用于日常任务如写作辅助、代码生成、学习辅导等。
5. 社区集成应用¶
Ollama拥有丰富的社区生态系统,包括:
- Web界面:Open WebUI、Hollama、LibreChat、Lollms-Webui、Chatbot UI等
- 开发工具:VS Code扩展、Docker部署方案、AI Toolkit for Visual Studio Code等
- 移动应用:SwiftChat、Enchanted、Maid、ChibiChat等
- 终端客户端:oterm、neollama、Ellama等
- 数据库集成:pgai、MindsDB等
- 多语言库:LangChain、Spring AI、LlamaIndex等
- RAG应用:RAGFlow、ChatOllama、Ollama RAG Chatbot等
- 企业应用:AnythingLLM、Casibase、Hexabot等
六、Ollama与其他工具的比较¶
虽然市面上有其他本地LLM部署工具如LocalAI,但Ollama凭借其简洁的命令行操作、丰富的模型库和优秀的性能优化,成为了许多用户的首选。
特别是在易用性方面,Ollama的命令风格类似于Docker,对于熟悉容器技术的开发者来说非常友好。同时,Ollama的量化技术使得在普通硬件上运 中查看。行大模型成为可能,大大降低了使用门槛。
七、总结¶
Ollama作为一个开源的大型语言模型本地部署工具,通过其简洁的操作、强大的优化能力和丰富的模型支持,让大语言模型的本地部署变得前所未有的简单。
无论你是AI开发者、企业用户还是普通爱好者,Ollama都能为你提供一个便捷、高效的本地AI模型运行环境。随着AI技术的不断发展,Ollama这样的工具必将推动AI技术的普及和应用,让更多人能够享受到AI带来的便利。
在AI225导航,我们不仅提供AI工具导航,还分享实用的AI使用技巧。掌握Ollama这样的本地部署工具,让你能够更灵活、更安全地使用AI技术。
