Ollama：本地大模型部署的瑞士军刀

在人工智能快速发展的今天，大型语言模型（LLM）已经成为许多开发者和研究人员的必备工具。然而，这些模型通常需要强大的硬件支持和复杂的配置，这为许多用户带来了不小的挑战。Ollama的出现，正是为了解决这一问题。

Ollama是一个开源框架，堪称本地部署大型语言模型的"瑞士军刀"——无需复杂配置，仅通过简单命令行，就能将DeepSeek、Qwen、Llama3、Gemma等热门模型快速"搬"到本地设备上运行。无论是开发者调试模型，还是企业搭建私有化AI服务，Ollama都能大幅降低部署门槛。

一、什么是Ollama？¶

Ollama是一个开源的大型语言模型（LLM）服务工具，旨在简化在本地环境中部署和运行这些模型的过程。它支持多种操作系统，包括Windows、macOS和Linux，并且可以通过Docker容器进行管理。

Ollama支持多种模型格式，包括GGUF、Safetensors等，并提供与OpenAI兼容的API，支持多种语言模型如Llama 3.2、Mistral、Gemma和最新的Gemma 3、Llama 4等。此外，Ollama还支持并行请求和多线程操作，提高了效率。用户可以通过简单的命令行工具或Web界面（如Open WebUI、Hollama等）来管理和运行模型。

项目地址：https://github.com/ollama/ollama
官方网址：https://ollama.com

二、Ollama的核心特性¶

1. 本地推理能力¶

有无GPU均可：即使无GPU，仅CPU也能让开源模型（如LLaMA、GPT-Neo、Mistral等）跑起来。
GPU+CPU混合：若自动检测到机器上存在GPU（NVIDIA或者AMD），自动同时使用GPU+CPU，充分发挥两者的能力。

2. 轻量易用¶

安装方式简洁：支持多平台一键安装，只需一个命令行工具就能在本地完成私有化部署。
简单操作：一键就能自动下载运行模型并进行对话、推理。

3. 量化优化¶

支持对常见大语言模型做4-bit或8-bit等量化（Quantization），通过量化进一步降低硬件资源占用。这种优化不仅让小型企业和个人开发者也能玩转大模型，更推动了AI技术的普及应用。

4. 模型管理¶

内置模型库：Ollama提供了官方的模型registry中心（网站：ollama.com/library），上面是官方提供的模型列表，其地位类似于Docker的DockerHub。
简单命令管理：通过简单的命令如ollama pull、ollama run、ollama list、ollama ps、ollama stop等，轻松管理模型。
自定义模型：通过Modelfile可以创建和自定义模型，导入GGUF/Safetensors格式的模型，并自定义提示词。
模型复制：可以使用ollama cp命令复制现有模型。

5. API兼容性¶

提供与OpenAI兼容的API，使得之前使用OpenAI的代码可以轻松迁移到Ollama上，降低了开发者的迁移成本。同时提供REST API接口，支持generate和chat两种交互方式。

三、Ollama的技术优势¶

Ollama的"黑科技"在于其底层优化技术。权重量化、分块加载与缓存机制、GPU/CPU灵活调度三大核心技术协同发力，让大模型在普通硬件上也能流畅运行。

以DeepSeek-R1的蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例，原生部署至少需要14G显存，而经Ollama量化处理后，显存占用显著降低。

这种量化技术可以类比为微信传图：当我们接收微信图片时，选择"不下载原图"，图片虽牺牲部分画质（分辨率降低），但文件大小仅几百KB，节省大量存储空间；若点击"下载原图"，虽然画质清晰，但占用内存明显增加。

大模型量化与此异曲同工：原版模型如同高清原图，完整保留所有参数细节，但对硬件要求极高；而量化模型通过调整权重参数的精度，在保证核心功能的前提下大幅缩减内存占用，就像压缩后的低清图片，更适配普通设备运行。

四、如何使用Ollama¶

1. 安装Ollama¶

Ollama支持多种平台的安装方式：

macOS安装：
下载并运行Ollama.dmg安装包，可从https://ollama.com/download/Ollama.dmg获取。

Windows安装：
下载并运行Windows安装包，可从https://ollama.com/download/OllamaSetup.exe获取。

Linux安装：

curl -fsSL https://ollama.com/install.sh | sh

Docker安装：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

2. 下载模型¶

安装完成后，可以通过简单的命令下载模型。例如，要下载Llama 3.2模型，只需在终端输入：

ollama pull llama3.2

更多可用模型可以在 Ollama模型库中查看。

Ollama支持多种模型，以下是一些可以在Ollama上运行的示例模型：

模型	参数量	大小	下载命令
Gemma 3	1B	815MB	`ollama run gemma3:1b`
Gemma 3	4B	3.3GB	`ollama run gemma3`
Gemma 3	12B	8.1GB	`ollama run gemma3:12b`
Gemma 3	27B	17GB	`ollama run gemma3:27b`
QwQ	32B	20GB	`ollama run qwq`
DeepSeek-R1	7B	4.7GB	`ollama run deepseek-r1`
DeepSeek-R1	671B	404GB	`ollama run deepseek-r1:671b`
Llama 4	109B	67GB	`ollama run llama4:scout`
Llama 4	400B	245GB	`ollama run llama4:maverick`
Llama 3.3	70B	43GB	`ollama run llama3.3`
Llama 3.2	3B	2.0GB	`ollama run llama3.2`
Llama 3.2	1B	1.3GB	`ollama run llama3.2:1b`
Llama 3.2 Vision	11B	7.9GB	`ollama run llama3.2-vision`
Llama 3.2 Vision	90B	55GB	`ollama run llama3.2-vision:90b`
Llama 3.1	8B	4.7GB	`ollama run llama3.1`
Llama 3.1	405B	231GB	`ollama run llama3.1:405b`
Phi 4	14B	9.1GB	`ollama run phi4`
Phi 4 Mini	3.8B	2.5GB	`ollama run phi4-mini`
Mistral	7B	4.1GB	`ollama run mistral`
Moondream 2	1.4B	829MB	`ollama run moondream`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
LLaVA	7B	4.5GB	`ollama run llava`
Granite-3.3	8B	4.9GB	`ollama run granite3.3`

注意：运行7B参数模型至少需要8GB RAM，13B参数模型需要16GB RAM，33B参数模型需要32GB RAM。

3. 运行模型¶

下载完成后，可以通过以下命令运行模型并与AI对话：

ollama run llama3.2

4. 管理模型¶

查看已安装的模型列表：

ollama list

查看当前正在运行的模型：

ollama ps

删除不再需要的模型：

ollama rm llama3.2

停止正在运行的模型：

ollama stop llama3.2

复制模型：

ollama cp llama3.2 my-model

5. 自定义模型¶

通过Modelfile可以创建和自定义模型：

# 创建Modelfile
echo "FROM llama3.2

# 设置温度为1 [越高越有创意，越低越连贯]
PARAMETER temperature 1

# 设置系统消息
SYSTEM \"\"\"
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
\"\"\"" > Modelfile

# 创建自定义模型
ollama create mario -f Modelfile

# 运行自定义模型
ollama run mario

此外，Ollama还支持从GGUF和Safetensors格式导入模型。

6. 使用REST API¶

Ollama提供REST API接口，支持generate和chat两种交互方式：

生成接口：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt":"Why is the sky blue?"
}'

聊天接口：

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

7. 多模态模型支持¶

Ollama支持多模态模型，可以处理图像和文本输入。例如，使用LLaVA模型分析图像：

ollama run llava "What's in this image? /path/to/your/image.png"

8. 多行输入支持¶

Ollama支持多行输入，可以使用三引号（"""）包裹文本：

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

9. 与编程语言集成¶

Ollama提供了API接口，可以轻松与各种编程语言集成。例如，使用Python连接Ollama：

import json
import requests

# 发送请求到Ollama
response = requests.post('http://localhost:11434/api/generate',
                        json={
                            'model': 'llama3.2',
                            'prompt': '你好，请介绍一下你自己。',
                            'stream': False
                        })

# 打印响应
print(json.loads(response.text)['response'])

五、Ollama的应用场景¶

1. 开发者调试¶

对于AI开发者来说，Ollama提供了一个便捷的本地环境，可以快速测试和调试各种大语言模型，无需依赖云服务。通过VS Code的Continue插件，可以实现代码补全功能。

2. 企业私有化部署¶

对于注重数据安全的企业，Ollama允许在本地部署AI模型，确保敏感数据不会离开企业内部网络。同时，可以通过Docker在云平台（如Google Cloud、Fly.io、Koyeb）上部署。

3. 教育与研究¶

教育机构和研究人员可以利用Ollama在本地环境中进行AI相关的教学和研究，无需承担高昂的云服务费用。

4. 个人AI助手¶

普通用户可以在个人电脑上部署AI助手，用于日常任务如写作辅助、代码生成、学习辅导等。

5. 社区集成应用¶

Ollama拥有丰富的社区生态系统，包括：
- Web界面：Open WebUI、Hollama、LibreChat、Lollms-Webui、Chatbot UI等
- 开发工具：VS Code扩展、Docker部署方案、AI Toolkit for Visual Studio Code等
- 移动应用：SwiftChat、Enchanted、Maid、ChibiChat等
- 终端客户端：oterm、neollama、Ellama等
- 数据库集成：pgai、MindsDB等
- 多语言库：LangChain、Spring AI、LlamaIndex等
- RAG应用：RAGFlow、ChatOllama、Ollama RAG Chatbot等
- 企业应用：AnythingLLM、Casibase、Hexabot等

六、Ollama与其他工具的比较¶

虽然市面上有其他本地LLM部署工具如LocalAI，但Ollama凭借其简洁的命令行操作、丰富的模型库和优秀的性能优化，成为了许多用户的首选。

特别是在易用性方面，Ollama的命令风格类似于Docker，对于熟悉容器技术的开发者来说非常友好。同时，Ollama的量化技术使得在普通硬件上运中查看。行大模型成为可能，大大降低了使用门槛。

七、总结¶

Ollama作为一个开源的大型语言模型本地部署工具，通过其简洁的操作、强大的优化能力和丰富的模型支持，让大语言模型的本地部署变得前所未有的简单。

无论你是AI开发者、企业用户还是普通爱好者，Ollama都能为你提供一个便捷、高效的本地AI模型运行环境。随着AI技术的不断发展，Ollama这样的工具必将推动AI技术的普及和应用，让更多人能够享受到AI带来的便利。

在AI225导航，我们不仅提供AI工具导航，还分享实用的AI使用技巧。掌握Ollama这样的本地部署工具，让你能够更灵活、更安全地使用AI技术。

AI225导航