LogoHypereal AI
模型Coding LLMLimited
产品
  • AI 图像生成器Create images with AI
  • AI 视频生成器Create videos with AI
  • AI 数字人生成器Talking avatars & lip sync
  • AI 音频生成器Voices, music & speech
  • AI 工具Upscale, swap, edit & more
  • AppsOne-click creative apps
Infrastructure
  • GPU 云On-demand GPU compute
  • 租用 GPUBare-metal GPU rental
  • 模型训练Fine-tune & LoRA training
  • ComfyUI APIDeploy ComfyUI workflows
  • 部署任意模型Serverless model hosting
Developers
  • 文档API reference & guides
  • Hypereal SDKRun any model from code
  • Enterprise APIProduction-grade gateway
  • Stable Diffusion APIOpen-source checkpoints
  • 示例集Recipes & code examples
公司
  • 企业版Talk to our team
  • 博客Product & eng updates
  • 更新日志Latest releases
  • InspirationGallery & showcases
  • Be a CreatorJoin the creator program
  • 联盟计划Partner program
  • 关于我们Our mission & team
Agent积分定价文档Enterprise联盟计划
开始构建
Hypereal AI
  • 模型
  • Coding LLM
  • 产品
  • GPU 云
  • 租用 GPU
  • 模型训练
  • ComfyUI API
  • 部署任意模型
  • Stable Diffusion API
  • Hypereal SDK
  • Agent
  • 积分定价
  • 文档
  • Enterprise
  • 联盟计划
返回文章列表
AITutorialLLMOpen Source

如何使用 Ollama:零基础新手全指南 (2026)

在您自己的机器上本地运行强大的 LLM

Hypereal AI TeamHypereal AI Team
10 min read
2026年2月6日
100+ AI 模型,一个 API

开始使用 Hypereal AI 构建

通过单个 API 访问 Kling、Flux、Sora、Veo 等模型。免费额度即可起步,可扩展至千万级。

获取免费 API Key查看文档

无需信用卡 • 10 万+ 开发者 • 企业级服务

如何使用 Ollama:完整入门指南 (2026)

Ollama 已成为在本地运行大语言模型的标准工具。如果你想在自己的硬件上使用 AI 模型——而不向云端 API 发送数据、不支付 Token 费用或受限于速率限制——Ollama 就是你需要的工具。它将下载、管理和运行开源 LLM 的过程简化为了几条终端命令。

本指南涵盖了从安装到高级用法的方方面面,包括模型管理、API 集成、自定义以及性能优化。

什么是 Ollama?

Ollama 是一个开源工具,可以轻松在 macOS、Linux 和 Windows 上本地运行大语言模型。它负责处理模型下载、量化、GPU 加速,并提供了一个与 OpenAI API 格式兼容的简单 API——这意味着你可以通过极少的代码改动,将其替换到大多数现有的 AI 应用中。

你可以把它理解为“LLM 界的 Docker”:拉取一个模型,运行它,并通过简洁的命令行界面或 HTTP API 与其交互。

系统要求

在安装之前,请确保你的系统满足最低要求:

组件 最低配置 推荐配置
RAM 8 GB 16+ GB
存储空间 10 GB 剩余 50+ GB(模型文件较大)
GPU (可选) 任何 4+ GB 显存的 NVIDIA GPU NVIDIA RTX 3060+ (12 GB 显存) 或 Apple Silicon
操作系统 macOS 12+, Ubuntu 20.04+, Windows 10+ 最新的稳定版操作系统

如果你没有 GPU,Ollama 可以在 CPU 上运行,但推理速度会显著降低。

第一步:安装 Ollama

macOS

# 方案 1:从官网下载
# 访问 https://ollama.com 并下载 macOS 安装程序

# 方案 2:使用 Homebrew
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

从 ollama.com 下载安装程序并运行。Ollama 在 Windows 上作为系统服务运行。

验证安装

ollama --version
# 预期输出:ollama version 0.5.x

第二步:拉取并运行你的第一个模型

Ollama 使用类似 Docker 的 pull/run 工作流:

# 拉取模型(下载到本地机器)
ollama pull llama3.2

# 交互式运行模型
ollama run llama3.2

这将进入交互式对话会话。输入你的消息并按回车键获取回复。输入 /bye 退出。

推荐入门模型

以下是常用模型及其资源要求的对比:

模型 参数量 所需内存 (RAM) 所需显存 (VRAM) 适用场景
llama3.2:3b 3B 4 GB 3 GB 快速任务,低配置机器
llama3.2 8B 8 GB 6 GB 通用场景,平衡性好
llama3.1:70b 70B 48 GB 40 GB 复杂推理,高端硬件
mistral 7B 8 GB 5 GB 运行快,指令遵循能力好
gemma2:9b 9B 8 GB 6 GB Google 开源模型,推理能力强
codellama 7B 8 GB 5 GB 代码生成与分析
deepseek-coder-v2 16B 12 GB 10 GB 高级编程任务
phi3:mini 3.8B 4 GB 3 GB 同尺寸下性能惊人
qwen2.5:7b 7B 8 GB 5 GB 多语言,编程能力强

要拉取上述任何模型:

ollama pull mistral
ollama pull codellama
ollama pull gemma2:9b

第三步:模型管理

列出已下载的模型

ollama list

输出示例:

NAME                ID            SIZE      MODIFIED
llama3.2:latest     a80c4f17acd5  4.7 GB    2 minutes ago
mistral:latest      2ae6f6dd7a3d  4.1 GB    5 minutes ago
codellama:latest    8fdf8f752f6e  3.8 GB    10 minutes ago

删除模型

ollama rm codellama

查看模型详情

ollama show llama3.2

复制/重命名模型

ollama cp llama3.2 my-custom-llama

第四步:使用 Ollama API

Ollama 默认在 localhost:11434 运行 HTTP 服务器。该 API 与 OpenAI 格式兼容,集成非常简单。

基础 API 调用

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "用三句话解释 REST 和 GraphQL 的区别。",
  "stream": false
}'

对话 API (多轮对话)

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "system", "content": "你是一个得力的编程助手。"},
    {"role": "user", "content": "写一个 Python 函数来验证电子邮件地址。"}
  ],
  "stream": false
}'

在 Python 中使用

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama3.2",
    "prompt": "写一个备份 PostgreSQL 数据库的 bash 脚本。",
    "stream": False
})

print(response.json()["response"])

使用 OpenAI Python SDK

由于 Ollama 的 API 兼容 OpenAI,你可以使用官方的 OpenAI SDK:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 填入任何字符串即可
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[
        {"role": "system", "content": "你是一位资深 Python 开发工程师。"},
        {"role": "user", "content": "用 Python 写一个线程安全的单例模式。"}
    ]
)

print(response.choices[0].message.content)

第五步:使用 Modelfiles 创建自定义模型

Ollama 允许你使用 Modelfile(类似于 Dockerfile)创建自定义模型配置:

# 保存为 Modelfile
FROM llama3.2

# 设置系统提示词
SYSTEM """
你是一位专注于 TypeScript, React 和 Node.js 的资深全栈开发工程师。
请始终提供包含错误处理和 TypeScript 类型的生产级代码。
当被问及架构决策时,请解释权衡取舍。
"""

# 调整参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

构建并运行你的自定义模型:

ollama create my-dev-assistant -f Modelfile
ollama run my-dev-assistant

第六步:GPU 加速

NVIDIA GPU

如果你安装了 CUDA 驱动程序,Ollama 会自动检测 NVIDIA GPU:

# 检查 GPU 是否正在使用
ollama ps

Apple Silicon (M1/M2/M3/M4)

Ollama 在 Apple Silicon 上会自动使用 Metal 加速,无需额外配置。配备统一内存的 Apple Silicon Mac 特别适合运行 LLM,因为 GPU 可以访问全部系统内存。

跨 GPU 和 CPU 拆分模型

对于显存 (VRAM) 容纳不下的超大模型,Ollama 会自动在 GPU 和 CPU 之间拆分模型:

# 手动设置 GPU 层数
OLLAMA_NUM_GPU=20 ollama run llama3.1:70b

性能优化技巧

1. 使用量化模型

量化模型占用更少的内存,运行速度更快且质量损失微乎其微:

# Q4 量化(速度与质量的良好平衡)
ollama pull llama3.2:8b-instruct-q4_K_M

# Q8 量化(更高质量,更多内存占用)
ollama pull llama3.2:8b-instruct-q8_0

2. 增加上下文窗口

# 通过环境变量设置上下文窗口
OLLAMA_NUM_CTX=16384 ollama run llama3.2

3. 保持模型驻留

默认情况下,Ollama 在 5 分钟无活动后会卸载模型。可以修改此设置:

# 使模型无限期驻留内存
OLLAMA_KEEP_ALIVE=-1 ollama serve

4. 运行多个模型

如果内存足够,Ollama 可以同时提供多个模型服务:

# 在不同的终端中运行
ollama run llama3.2      # 处理通用任务
ollama run codellama     # 处理编程任务

常见问题与解决办法

问题 解决办法
"model not found" 请先运行 ollama pull 模型名称
GPU 推理缓慢 更新 GPU 驱动;使用 ollama ps 检查 GPU 使用情况
内存不足 (Out of memory) 使用更小的模型或量化版本
11434 端口已被占用 停止现有的 Ollama 实例:ollama stop
模型下载缓慢 检查网络连接;Ollama CDN 可能处于拥塞状态

总结

Ollama 让在本地运行 LLM 变得像运行 Docker 容器一样简单。无论你是为了隐私保护、希望避免 API 成本,还是仅仅想尝试开源模型,Ollama 都是 2026 年开启本地 AI 之旅最直接的方式。

对于既需要本地 AI 推理又需要高质量媒体生成的项目,可以考虑将 Ollama 与 Hypereal AI 结合使用。使用 Ollama 进行私密、免费的文本生成,使用 Hypereal AI 经济高效的 API 生成图像、视频、AI 数字人和语音内容——为你提供一套完整的 AI 工具箱,且无需巨额开销。

相关文章

2026 年最佳开源 RAG 框架

14 min read

如何下载与使用 Ollama:详细步骤指南 (2026)

11 min read

如何在 Ollama 中使用 Qwen 3 Embedding 和 Reranker (2026)

10 min read

On this page

  • 如何使用 Ollama:完整入门指南 (2026)
  • 什么是 Ollama?
  • 系统要求
  • 第一步:安装 Ollama
  • macOS
  • Linux
  • Windows
  • 验证安装
  • 第二步:拉取并运行你的第一个模型
  • 推荐入门模型
  • 第三步:模型管理
  • 列出已下载的模型
  • 删除模型
  • 查看模型详情
  • 复制/重命名模型
  • 第四步:使用 Ollama API
  • 基础 API 调用
  • 对话 API (多轮对话)
  • 在 Python 中使用
  • 使用 OpenAI Python SDK
  • 第五步:使用 Modelfiles 创建自定义模型
  • 第六步:GPU 加速
  • NVIDIA GPU
  • Apple Silicon (M1/M2/M3/M4)
  • 跨 GPU 和 CPU 拆分模型
  • 性能优化技巧
  • 1. 使用量化模型
  • 2. 增加上下文窗口
  • 3. 保持模型驻留
  • 4. 运行多个模型
  • 常见问题与解决办法
  • 总结
Desktop agent

Download Hypereal Agent

Run a local AI media workspace for image generation, video prompts, model selection, credit tracking, and saved artifacts.

MacWindows
v0.1.1Requires a hypereal.cloud API keyRelease manifest
Hypereal Agent desktop app screenshot

立即开始构建

立即开始构建
LogoHypereal AI
所有系统正常
基础设施
  • 租用 GPU
  • 模型训练
  • ComfyUI API
  • 部署任意模型
  • GPU Cloud
  • LoRA Training API
  • 公开目录
  • 基础设施文档
  • GPU 日志
  • 价格
LLM API
  • Hypereal SDK
  • Enterprise API
  • Coding Credits
  • All LLM Models
  • Claude Opus 4.7
  • Claude Sonnet 4.6
  • GPT-5.5
  • Claude Haiku 4.5
  • GPT-5.5 Pro
  • GPT-5.3 Codex
  • Gemini 3.1 Pro Preview
  • Gemini 3.5 Thinking
  • Gemini 3.5 Fast
  • DeepSeek V4 Pro
  • Kimi K2.6
  • GLM-5.1
  • Claude Code Alternative
  • Claude API in China
  • OpenAI API in China
AI API
  • AI API Overview
  • Seedance 2.0 API
  • Kling 3.0 API
  • Veo 3.1 API
  • FLUX API
  • GPT Image 2 API
  • vs WaveSpeed
  • vs fal.ai
  • vs Replicate
  • vs KIE.ai
  • vs OpenRouter
  • vs Together AI
  • vs SiliconFlow
  • Midjourney Alternative
  • Higgsfield Alternative
  • OpenRouter Alternative
视频模型
  • Google Veo 3.1 API
  • Kling 3.0 API
  • Kling O3 Pro API
  • Seedance 2.0 API
  • HappyHorse 1.0 API
  • WAN 2.7 API
  • WAN Video API
  • Grok Video API
  • Hunyuan Video API
  • PixVerse V6 API
  • Pika Video API
  • Luma Dream Machine API
  • MiniMax Video API
  • Vidu Video API
  • Gemini Omni Video API
图像模型
  • NanoBanana 2 API
  • FLUX 2 API
  • GPT Image 1 API
  • Grok Image API
  • SeeDream V5 API
  • Imagen 4 API
  • Ideogram API
  • Recraft API
  • DALL-E 3 API
  • Stable Diffusion API
  • Gemini Image API
工具
  • Face Swap API
  • Video Face Swap API
  • Virtual Try-On API
  • Image Upscaler API
  • Video Upscaler API
  • AI Talking Avatar API
  • Lip Sync API
  • OmniHuman Avatar API
  • Tripo3D H3.1 API
  • ElevenLabs TTS API
  • Fish Audio TTS API
  • Whisper STT API
  • Lyria Music API
生成器
  • Hypereal Agent
  • Apps
  • AI 图像生成器
  • AI 视频生成器
  • AI 数字人生成器
  • AI 音频生成器
  • AI 3D 生成器
  • AI 工具
  • 图像放大器
  • 视频放大器
合集
  • 最佳视频模型
  • 最佳图像模型
  • Seedance 2.0
  • WAN 2.7
  • Qwen Image 2
  • Grok AI
  • Seedance 1.5
  • 运动控制
  • 内容检测
  • 目标检测
公司
  • 关于我们
  • 文档
  • Hypereal SDK
  • Cookbook
  • 博客
  • Articles
  • 更新日志
  • 联系我们
  • 常见问题
  • 教程与技巧
  • 路线图
  • 企业版
  • 联盟分销计划
  • Platform
  • Inspiration
  • Be a Creator
  • 开发者计划
法律
  • 隐私政策
  • 服务条款
  • 退款政策
  • Cookie 政策
  • 价格
  • 所有模型
  • 站点地图
  • Status
© 版权所有 2026。保留所有权利。
TwitterGitHubLinkedInYouTubeEmail