Hypereal AIHypereal AI
Video StudioVideo AgentMedia APICoding LLMsMCP
视频 APISeedance 2.0KlingVeo 3.1Gemini Omni VideoHappyHorse 1.1HappyHorse 1.0全部模型 →
图像 APIGPT Image 2Nano BananaFLUXMidjourney Alternative全部模型 →
LLM APIClaude OpusClaude SonnetClaude FableGPT-5.5GPT-5.5 ProGemini 3 ProGemini 3.5 FastGemini 3.5 ThinkingDeepSeek全部模型 →
价格
API 参考示例集
企业版推广计划关于我们更新日志联系我们

价格

返回文章列表
AITutorialLLMOpen Source

如何下载与使用 Ollama:详细步骤指南 (2026)

在您自己的机器上本地运行强大的 AI 模型

Hypereal AI TeamHypereal AI Team
11 min read
2026年2月6日
100+ AI 模型,一个 API

开始使用 Hypereal AI 构建

通过单个 API 访问 Kling、Flux、Sora、Veo 等模型。免费额度即可起步,可扩展至千万级。

获取免费 API Key查看文档

无需信用卡 • 10 万+ 开发者 • 企业级服务

如何下载和使用 Ollama:分步指南 (2026)

Ollama 是在本地计算机上运行大语言模型最简单的方法。无需支付 API 调用费用或依赖云服务,Ollama 让您只需一条命令,即可在机器上直接下载并运行 Llama 4、Qwen 3、DeepSeek、Gemma 和 Phi 等模型。

本指南涵盖了从安装到运行第一个模型、管理多个模型、使用 API 以及优化性能的所有内容。

为什么在本地运行模型?

优势 描述
隐私 您的数据永远不会离开您的机器
无 API 成本 下载后可无限次使用
离线访问 无需互联网即可工作
无速率限制 没有速度限制或配额
自定义 运行微调模型和自定义模型
速度 本地推理没有网络延迟

折中方案是您需要一台拥有足够 RAM 和(理想情况下)GPU 的计算机。但现代的量化模型在消费级硬件上的运行效果出奇地好。

硬件要求

模型大小 所需 RAM GPU 显存 (VRAM) 示例模型
1-3B 4GB 2GB+ Phi-4 Mini, Gemma 3 1B
7-8B 8GB 6GB+ Llama 3.1 8B, Qwen 3 8B
14B 16GB 10GB+ Qwen 3 14B, Gemma 3 12B
32-34B 32GB 24GB+ Qwen 3 32B, DeepSeek Coder 33B
70B 48GB+ 48GB+ Llama 3.1 70B

Ollama 可以在纯 CPU 上运行(速度较慢),也可以使用 NVIDIA、AMD 或 Apple Silicon GPU 的 GPU 加速。拥有统一内存的 Apple Silicon Mac 特别适合运行较大的模型。

第 1 步:下载并安装 Ollama

macOS

# 选项 1:从网站下载
# 访问 https://ollama.com/download 并下载 macOS 应用程序

# 选项 2:通过 Homebrew 安装
brew install ollama

macOS 应用程序将 Ollama 安装为一个菜单栏应用程序,并在后台运行服务器。

Windows

  1. 访问 ollama.com/download。
  2. 下载 Windows 安装程序。
  3. 运行安装程序并按照提示操作。
  4. 安装后,Ollama 将作为系统服务运行。

Linux

# 单行安装脚本
curl -fsSL https://ollama.ai/install.sh | sh

# 或手动安装
# 从 GitHub releases 下载对应架构的二进制文件

验证安装

ollama --version
# 输出:ollama version 0.6.x

第 2 步:下载您的第一个模型

Ollama 的模型库拥有数百个模型。从拉取一个模型开始:

# 下载 Llama 3.1 8B (4.7GB)
ollama pull llama3.1

# 下载 Qwen 3 8B (4.9GB)
ollama pull qwen3

# 下载一个较小的模型用于测试 (1.6GB)
ollama pull phi4-mini

下载只需执行一次。之后,模型将从您的本地存储加载。

第 3 步:与模型聊天

开始交互式聊天会话:

ollama run llama3.1

这将打开一个 REPL,您可以在其中输入消息:

>>> What is the capital of France?
法国的首都是巴黎。它是法国最大的城市,也是国家的政治、经济和文化中心。

>>> Write a Python function to reverse a string
这是一个反转字符串的简单 Python 函数:

def reverse_string(s):
    return s[::-1]

# 示例用法
print(reverse_string("hello"))  # 输出: "olleh"

>>> /bye

使用 /bye 退出聊天。

第 4 步:使用 REST API

Ollama 在 http://localhost:11434 运行一个本地 API 服务器。这对于构建应用程序非常有用:

聊天补全 (Chat Completion)

curl http://localhost:11434/api/chat \
  -d '{
    "model": "llama3.1",
    "messages": [
      {"role": "user", "content": "用三句话解释 Docker。"}
    ]
  }'

OpenAI 兼容端点

Ollama 还提供了一个兼容 OpenAI 的端点,因此您可以将其与任何 OpenAI SDK 配合使用:

import openai

client = openai.OpenAI(
    api_key="ollama",  # 任何值都可以
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "system", "content": "你是一个得力的助手。"},
        {"role": "user", "content": "如何在 CSS 中让 div 居中?"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

流式响应

stream = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "写一首关于编程的俳句。"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

第 5 步:管理模型

列出已下载的模型

ollama list

# 输出示例:
# NAME              SIZE     MODIFIED
# llama3.1:latest   4.7 GB   2 hours ago
# qwen3:latest      4.9 GB   1 hour ago
# phi4-mini:latest  1.6 GB   30 minutes ago

移除模型

ollama rm phi4-mini

拉取特定的尺寸变体

许多模型提供多种尺寸:

# 较小的量化(更快,精度稍低)
ollama pull llama3.1:8b-q4_0

# 较大的量化(较慢,精度更高)
ollama pull llama3.1:8b-q8_0

# 特定的参数量
ollama pull qwen3:14b
ollama pull qwen3:32b

查看模型信息

ollama show llama3.1

# 显示模型详情:参数、量化方式、模板、许可证等。

第 6 步:使用 Modelfile 创建自定义模型

Modelfile 允许您自定义模型的行为:

# Modelfile 示例
FROM llama3.1

# 设置自定义系统提示词
SYSTEM """你是一位资深的软件工程师。你编写简洁、文档齐全。
且包含适当错误处理的代码。在展示代码前,始终先解释你的思路。"""

# 调整参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

构建并运行您的自定义模型:

# 创建模型
ollama create my-coder -f Modelfile

# 运行它
ollama run my-coder

第 7 步:在常用工具中使用 Ollama

Ollama 已集成到许多 AI 工具中:

在 Cursor 中使用

在 Cursor 设置中,将 Ollama 添加为自定义模型提供商:

Base URL: http://localhost:11434/v1
API Key: ollama
Model: llama3.1

在 Continue.dev (VS Code) 中使用

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Ollama - Llama 3.1",
      "provider": "ollama",
      "model": "llama3.1"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Ollama - Qwen Coder",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

在 Open WebUI (类似 ChatGPT 的界面) 中使用

docker run -d \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

打开 http://localhost:3000 即可使用连接到本地 Ollama 模型的类 ChatGPT Web 界面。

2026 年推荐模型

模型 大小 最适合 命令
Llama 3.1 8B 4.7GB 通用任务 ollama pull llama3.1
Qwen 3 8B 4.9GB 编程 + 推理 ollama pull qwen3
DeepSeek Coder V2 8.9GB 代码生成 ollama pull deepseek-coder-v2
Gemma 3 12B 8.1GB 指令遵循 ollama pull gemma3:12b
Phi-4 Mini 1.6GB 低配机器 ollama pull phi4-mini
Mistral Nemo 7.1GB 多语言支持 ollama pull mistral-nemo
Qwen 2.5 Coder 7B 4.7GB 代码自动补全 ollama pull qwen2.5-coder:7b
Llama 3.1 70B 40GB 最高质量 ollama pull llama3.1:70b

性能优化提示

  1. 使用 GPU 加速。 Ollama 会自动检测 NVIDIA (CUDA)、AMD (ROCm) 和 Apple Silicon GPU。通过以下命令验证:

    ollama ps
    # 显示哪些模型已加载以及是否使用了 GPU
    
  2. 调整上下文大小。 较大的上下文窗口会消耗更多内存。在 Modelfile 或 API 调用中设置 num_ctx 以匹配您的需求。

  3. 保持模型常驻。 Ollama 会将最近使用的模型保留在内存中。避免频繁切换模型。

  4. 使用量化模型。 对于大多数用例,Q4 量化在速度和质量之间提供了最佳平衡。

  5. 关闭其他占用 GPU 的应用。 视频编辑器、游戏和其他 AI 工具会争夺 GPU 内存。

常见问题解答

Ollama 是免费的吗? 是的,Ollama 完全免费且开源(MIT 许可证)。您只需要一台能够运行模型的计算机。

我可以离线使用 Ollama 吗? 可以。一旦您下载了模型,所有内容都会在本地运行,无需互联网。

我需要什么样的 GPU? 对于 7-8B 模型,任何显存大于 6GB 的 GPU 都可以。由于统一内存,Apple Silicon Mac 的表现尤为出色。您也可以在纯 CPU 上运行(速度较慢)。

Ollama 与 LM Studio 相比如何? 两者都能运行本地模型。Ollama 以 CLI(命令行)为主并带有 REST API,更适合开发人员和集成。LM Studio 拥有图形界面,更适合非技术用户。

我可以同时运行多个模型吗? 可以,只要您有足够的内存。Ollama 按需加载模型,并可以将多个模型保留在内存中。

Ollama 支持视觉模型吗? 支持。llava 和 llama3.2-vision 等模型支持图像输入。

总结

Ollama 让运行本地 AI 模型变得像执行一条命令一样简单。无论您是追求完全的隐私、零 API 成本,还是离线访问,它都是 2026 年本地 LLM 推理的最佳工具。从 7-8B 模型开始,探索用于构建应用程序的 API,并在硬件允许的情况下升级到更大的模型。

如果您正在构建需要 AI 生成媒体(如图像、视频或数字人头像)的应用程序,免费试用 Hypereal AI -- 35 积分,无需信用卡。将用于文本智能的本地 LLM 与用于视觉内容生成的 Hypereal API 相结合。

相关文章

2026 年最佳开源 RAG 框架

14 min read

如何使用 Ollama:零基础新手全指南 (2026)

10 min read

如何在 Ollama 中使用 Qwen 3 Embedding 和 Reranker (2026)

10 min read

On this page

  • 如何下载和使用 Ollama:分步指南 (2026)
  • 为什么在本地运行模型?
  • 硬件要求
  • 第 1 步:下载并安装 Ollama
  • macOS
  • Windows
  • Linux
  • 验证安装
  • 第 2 步:下载您的第一个模型
  • 第 3 步:与模型聊天
  • 第 4 步:使用 REST API
  • 聊天补全 (Chat Completion)
  • OpenAI 兼容端点
  • 流式响应
  • 第 5 步:管理模型
  • 列出已下载的模型
  • 移除模型
  • 拉取特定的尺寸变体
  • 查看模型信息
  • 第 6 步:使用 Modelfile 创建自定义模型
  • 第 7 步:在常用工具中使用 Ollama
  • 在 Cursor 中使用
  • 在 Continue.dev (VS Code) 中使用
  • 在 Open WebUI (类似 ChatGPT 的界面) 中使用
  • 2026 年推荐模型
  • 性能优化提示
  • 常见问题解答
  • 总结
Desktop agent

Download Hypereal Agent

Run a local AI media workspace for image generation, video prompts, model selection, credit tracking, and saved artifacts.

MacWindows
v0.1.2Requires a hypereal.cloud API keyRelease manifest
Hypereal Agent desktop app screenshot

立即开始构建

立即开始构建
LogoHypereal AI
所有系统正常
LLM API
  • Hypereal SDK
  • MCP Server
  • Enterprise API
  • All LLM Models
  • Claude Fable 5
  • Claude Opus 4.7
  • Claude Sonnet 4.6
  • GPT-5.5
  • Claude Haiku 4.5
  • GPT-5.5 Pro
  • Gemini 3.1 Pro Preview
  • Gemini 3.5 Thinking
  • Gemini 3.5 Fast
  • DeepSeek V4 Pro
  • Kimi K2.6
  • GLM 5.2
  • Claude API in China
  • OpenAI API in China
AI API
  • AI API Overview
  • Seedance 2.0 API
  • Kling 3.0 API
  • Veo 3.1 API
  • FLUX API
  • GPT Image 2 API
  • vs WaveSpeed
  • vs fal.ai
  • vs Replicate
  • vs KIE.ai
  • vs OpenRouter
  • vs Together AI
  • vs SiliconFlow
  • Midjourney Alternative
  • Higgsfield Alternative
  • OpenRouter Alternative
视频模型
  • Google Veo 3.1 API
  • Kling 3.0 API
  • Kling O3 Pro API
  • Seedance 2.0 API
  • HappyHorse 1.1 API
  • HappyHorse 1.0 API
  • WAN 2.7 API
  • WAN Video API
  • Grok Video API
  • Hunyuan Video API
  • PixVerse V6 API
  • Pika Video API
  • Luma Dream Machine API
  • MiniMax Video API
  • Vidu Video API
  • Gemini Omni Video API
图像模型
  • NanoBanana 2 API
  • FLUX 2 API
  • GPT Image 1 API
  • Grok Image API
  • SeeDream V5 API
  • Imagen 4 API
  • Ideogram API
  • Recraft API
  • DALL-E 3 API
  • Stable Diffusion API
  • Gemini Image API
工具
  • Face Swap API
  • Video Face Swap API
  • Virtual Try-On API
  • AI Talking Avatar API
  • Lip Sync API
  • OmniHuman Avatar API
  • Tripo3D H3.1 API
  • ElevenLabs TTS API
  • Fish Audio TTS API
  • Whisper STT API
  • Lyria Music API
生成器
  • Video Agent
  • AI 图像生成器
  • AI 视频生成器
合集
  • 最佳视频模型
  • 最佳图像模型
  • Seedance 2.0
  • WAN 2.7
  • Qwen Image 2
  • Grok AI
  • Seedance 1.5
  • 运动控制
  • 内容检测
  • 目标检测
公司
  • 关于我们
  • 文档
  • Hypereal SDK
  • Cookbook
  • 更新日志
  • 博客
  • 联系我们
  • 常见问题
  • 路线图
  • 企业版
  • 联盟分销计划
  • Be a Creator
  • 开发者计划
法律
  • 隐私政策
  • 服务条款
  • 退款政策
  • Cookie 政策
  • 价格
  • 所有模型
  • 站点地图
  • Status
© 版权所有 2026。保留所有权利。
TwitterGitHubLinkedInYouTubeEmail