LogoAI225导航
AI项目

Ollama:本地大模型部署的瑞士军刀

Ollama是一个开源框架,让用户能够轻松在本地设备上运行和管理各种大型语言模型。本文详细介绍Ollama的功能、特性以及如何使用它来部署本地AI模型。

在人工智能快速发展的今天,大型语言模型(LLM)已经成为许多开发者和研究人员的必备工具。然而,这些模型通常需要强大的硬件支持和复杂的配置,这为许多用户带来了不小的挑战。Ollama的出现,正是为了解决这一问题。

Ollama是一个开源框架,堪称本地部署大型语言模型的"瑞士军刀"——无需复杂配置,仅通过简单命令行,就能将DeepSeek、Qwen、Llama3、Gemma等热门模型快速"搬"到本地设备上运行。无论是开发者调试模型,还是企业搭建私有化AI服务,Ollama都能大幅降低部署门槛。

一、什么是Ollama?

Ollama是一个开源的大型语言模型(LLM)服务工具,旨在简化在本地环境中部署和运行这些模型的过程。它支持多种操作系统,包括Windows、macOS和Linux,并且可以通过Docker容器进行管理。

Ollama支持多种模型格式,包括GGUF、Safetensors等,并提供与OpenAI兼容的API,支持多种语言模型如Llama 3.2、Mistral、Gemma和最新的Gemma 3、Llama 4等。此外,Ollama还支持并行请求和多线程操作,提高了效率。用户可以通过简单的命令行工具或Web界面(如Open WebUI、Hollama等)来管理和运行模型。

项目地址https://github.com/ollama/ollama
官方网址https://ollama.com

二、Ollama的核心特性

1. 本地推理能力

  • 有无GPU均可:即使无GPU,仅CPU也能让开源模型(如LLaMA、GPT-Neo、Mistral等)跑起来。
  • GPU+CPU混合:若自动检测到机器上存在GPU(NVIDIA或者AMD),自动同时使用GPU+CPU,充分发挥两者的能力。

2. 轻量易用

  • 安装方式简洁:支持多平台一键安装,只需一个命令行工具就能在本地完成私有化部署。
  • 简单操作:一键就能自动下载运行模型并进行对话、推理。

3. 量化优化

支持对常见大语言模型做4-bit或8-bit等量化(Quantization),通过量化进一步降低硬件资源占用。这种优化不仅让小型企业和个人开发者也能玩转大模型,更推动了AI技术的普及应用。

4. 模型管理

  • 内置模型库:Ollama提供了官方的模型registry中心(网站:ollama.com/library),上面是官方提供的模型列表,其地位类似于Docker的DockerHub。
  • 简单命令管理:通过简单的命令如ollama pullollama runollama listollama psollama stop等,轻松管理模型。
  • 自定义模型:通过Modelfile可以创建和自定义模型,导入GGUF/Safetensors格式的模型,并自定义提示词。
  • 模型复制:可以使用ollama cp命令复制现有模型。

5. API兼容性

提供与OpenAI兼容的API,使得之前使用OpenAI的代码可以轻松迁移到Ollama上,降低了开发者的迁移成本。同时提供REST API接口,支持generate和chat两种交互方式。

三、Ollama的技术优势

Ollama的"黑科技"在于其底层优化技术。权重量化、分块加载与缓存机制、GPU/CPU灵活调度三大核心技术协同发力,让大模型在普通硬件上也能流畅运行。

以DeepSeek-R1的蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例,原生部署至少需要14G显存,而经Ollama量化处理后,显存占用显著降低。

这种量化技术可以类比为微信传图:当我们接收微信图片时,选择"不下载原图",图片虽牺牲部分画质(分辨率降低),但文件大小仅几百KB,节省大量存储空间;若点击"下载原图",虽然画质清晰,但占用内存明显增加。

大模型量化与此异曲同工:原版模型如同高清原图,完整保留所有参数细节,但对硬件要求极高;而量化模型通过调整权重参数的精度,在保证核心功能的前提下大幅缩减内存占用,就像压缩后的低清图片,更适配普通设备运行。

四、如何使用Ollama

1. 安装Ollama

Ollama支持多种平台的安装方式:

macOS安装
下载并运行Ollama.dmg安装包,可从https://ollama.com/download/Ollama.dmg获取。

Windows安装
下载并运行Windows安装包,可从https://ollama.com/download/OllamaSetup.exe获取。

Linux安装

curl -fsSL https://ollama.com/install.sh | sh

Docker安装

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

2. 下载模型

安装完成后,可以通过简单的命令下载模型。例如,要下载Llama 3.2模型,只需在终端输入:

ollama pull llama3.2

更多可用模型可以在 Ollama模型库 中查看。

Ollama支持多种模型,以下是一些可以在Ollama上运行的示例模型:

模型参数量大小下载命令
Gemma 31B815MBollama run gemma3:1b
Gemma 34B3.3GBollama run gemma3
Gemma 312B8.1GBollama run gemma3:12b
Gemma 327B17GBollama run gemma3:27b
QwQ32B20GBollama run qwq
DeepSeek-R17B4.7GBollama run deepseek-r1
DeepSeek-R1671B404GBollama run deepseek-r1:671b
Llama 4109B67GBollama run llama4:scout
Llama 4400B245GBollama run llama4:maverick
Llama 3.370B43GBollama run llama3.3
Llama 3.23B2.0GBollama run llama3.2
Llama 3.21B1.3GBollama run llama3.2:1b
Llama 3.2 Vision11B7.9GBollama run llama3.2-vision
Llama 3.2 Vision90B55GBollama run llama3.2-vision:90b
Llama 3.18B4.7GBollama run llama3.1
Llama 3.1405B231GBollama run llama3.1:405b
Phi 414B9.1GBollama run phi4
Phi 4 Mini3.8B2.5GBollama run phi4-mini
Mistral7B4.1GBollama run mistral
Moondream 21.4B829MBollama run moondream
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
LLaVA7B4.5GBollama run llava
Granite-3.38B4.9GBollama run granite3.3

注意:运行7B参数模型至少需要8GB RAM,13B参数模型需要16GB RAM,33B参数模型需要32GB RAM。

3. 运行模型

下载完成后,可以通过以下命令运行模型并与AI对话:

ollama run llama3.2

4. 管理模型

  • 查看已安装的模型列表:
ollama list
  • 查看当前正在运行的模型:
ollama ps
  • 删除不再需要的模型:
ollama rm llama3.2
  • 停止正在运行的模型:
ollama stop llama3.2
  • 复制模型:
ollama cp llama3.2 my-model

5. 自定义模型

通过Modelfile可以创建和自定义模型:

# 创建Modelfile
echo "FROM llama3.2

# 设置温度为1 [越高越有创意,越低越连贯]
PARAMETER temperature 1

# 设置系统消息
SYSTEM \"\"\"
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
\"\"\"" > Modelfile

# 创建自定义模型
ollama create mario -f Modelfile

# 运行自定义模型
ollama run mario

此外,Ollama还支持从GGUF和Safetensors格式导入模型。

6. 使用REST API

Ollama提供REST API接口,支持generate和chat两种交互方式:

生成接口

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt":"Why is the sky blue?"
}'

聊天接口

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

7. 多模态模型支持

Ollama支持多模态模型,可以处理图像和文本输入。例如,使用LLaVA模型分析图像:

ollama run llava "What's in this image? /path/to/your/image.png"

8. 多行输入支持

Ollama支持多行输入,可以使用三引号(""")包裹文本:

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

9. 与编程语言集成

Ollama提供了API接口,可以轻松与各种编程语言集成。例如,使用Python连接Ollama:

import json
import requests

# 发送请求到Ollama
response = requests.post('http://localhost:11434/api/generate',
                        json={
                            'model': 'llama3.2',
                            'prompt': '你好,请介绍一下你自己。',
                            'stream': False
                        })

# 打印响应
print(json.loads(response.text)['response'])

五、Ollama的应用场景

1. 开发者调试

对于AI开发者来说,Ollama提供了一个便捷的本地环境,可以快速测试和调试各种大语言模型,无需依赖云服务。通过VS Code的Continue插件,可以实现代码补全功能。

2. 企业私有化部署

对于注重数据安全的企业,Ollama允许在本地部署AI模型,确保敏感数据不会离开企业内部网络。同时,可以通过Docker在云平台(如Google Cloud、Fly.io、Koyeb)上部署。

3. 教育与研究

教育机构和研究人员可以利用Ollama在本地环境中进行AI相关的教学和研究,无需承担高昂的云服务费用。

4. 个人AI助手

普通用户可以在个人电脑上部署AI助手,用于日常任务如写作辅助、代码生成、学习辅导等。

5. 社区集成应用

Ollama拥有丰富的社区生态系统,包括:
- Web界面:Open WebUI、Hollama、LibreChat、Lollms-Webui、Chatbot UI等
- 开发工具:VS Code扩展、Docker部署方案、AI Toolkit for Visual Studio Code等
- 移动应用:SwiftChat、Enchanted、Maid、ChibiChat等
- 终端客户端:oterm、neollama、Ellama等
- 数据库集成:pgai、MindsDB等
- 多语言库:LangChain、Spring AI、LlamaIndex等
- RAG应用:RAGFlow、ChatOllama、Ollama RAG Chatbot等
- 企业应用:AnythingLLM、Casibase、Hexabot等

六、Ollama与其他工具的比较

虽然市面上有其他本地LLM部署工具如LocalAI,但Ollama凭借其简洁的命令行操作、丰富的模型库和优秀的性能优化,成为了许多用户的首选。

特别是在易用性方面,Ollama的命令风格类似于Docker,对于熟悉容器技术的开发者来说非常友好。同时,Ollama的量化技术使得在普通硬件上运 中查看。行大模型成为可能,大大降低了使用门槛。

七、总结

Ollama作为一个开源的大型语言模型本地部署工具,通过其简洁的操作、强大的优化能力和丰富的模型支持,让大语言模型的本地部署变得前所未有的简单。

无论你是AI开发者、企业用户还是普通爱好者,Ollama都能为你提供一个便捷、高效的本地AI模型运行环境。随着AI技术的不断发展,Ollama这样的工具必将推动AI技术的普及和应用,让更多人能够享受到AI带来的便利。


在AI225导航,我们不仅提供AI工具导航,还分享实用的AI使用技巧。掌握Ollama这样的本地部署工具,让你能够更灵活、更安全地使用AI技术。

相关文章

Text Generation Web UI:本地大语言模型的强大界面

详细介绍Text Generation Web UI项目,包括功能特点、安装方法和使用技巧,帮助用户在本地运行大语言模型

2025-10-10

大模型微调入门:让AI更懂你的业务

通用大模型很强大,但如何让它成为你特定领域的专家?本指南将用最通俗的语言解释什么是模型微调(Fine-tuning),为什么需要它,以及LoRA等主流微调技术,带你入门定制化AI的核心技术。

2025-09-09

TrendRadar:1分钟部署的全网热点追踪神器

详细介绍TrendRadar热点追踪工具的功能特性、部署方法和使用场景,帮助你告别无效刷屏,精准获取关注的热点资讯

2025-11-20

Upscayl:免费开源的AI图像放大工具

详细介绍Upscayl这款免费开源的AI图像放大工具,包括功能特点、安装方法、使用技巧和最佳实践

2025-10-22

Open Notebook:开源AI笔记工具全面指南

详细介绍Open Notebook的功能特点、安装方法和使用技巧,这是一款开源的、注重隐私的AI笔记和研究工具

2025-10-18