Hypereal AIHypereal AI
Video StudioVideo AgentMedia APICoding LLMsMCP
视频 APISeedance 2.0KlingVeo 3.1Gemini Omni VideoHappyHorse 1.1HappyHorse 1.0全部模型 →
图像 APIGPT Image 2Nano BananaFLUXMidjourney Alternative全部模型 →
LLM APIClaude OpusClaude SonnetClaude FableGPT-5.5GPT-5.5 ProGemini 3 ProGemini 3.5 FastGemini 3.5 ThinkingDeepSeek全部模型 →
价格
API 参考示例集
企业版推广计划关于我们更新日志联系我们

价格

返回文章列表
AILLMTutorialOpen Source

如何在本地运行 Qwen 3:完整指南 (2026)

在您自己的硬件上运行 Qwen 3 模型的逐步操作指南

Hypereal AI TeamHypereal AI Team
13 min read
2026年2月6日
100+ AI 模型,一个 API

开始使用 Hypereal AI 构建

通过单个 API 访问 Kling、Flux、Sora、Veo 等模型。免费额度即可起步,可扩展至千万级。

获取免费 API Key查看文档

无需信用卡 • 10 万+ 开发者 • 企业级服务

如何在本地运行 Qwen 3:完整指南 (2026)

Qwen 3 是阿里巴巴最新的开源大语言模型系列,也是 2026 年最强大的开源权重模型之一。它提供多种尺寸,支持稠密(Dense)和混合专家(MoE)架构,在多项基准测试中表现与 GPT-4o 和 Claude Sonnet 等私有模型不相上下。

最棒的是:你完全可以在自己的硬件上运行它,无需 API 费用,没有速率限制,并拥有完整的数据隐私。本指南将逐步教你如何操作。

Qwen 3 模型阵容

Qwen 3 提供多种尺寸以适配不同硬件:

模型 参数量 激活参数 架构 最小显存 (VRAM) 适用场景
Qwen3-0.6B 0.6B 0.6B Dense 2 GB 边缘设备、移动端
Qwen3-1.7B 1.7B 1.7B Dense 4 GB 轻量级任务
Qwen3-4B 4B 4B Dense 6 GB 平衡性能
Qwen3-8B 8B 8B Dense 8 GB 通用场景
Qwen3-14B 14B 14B Dense 12 GB 强逻辑推理
Qwen3-32B 32B 32B Dense 24 GB 接近顶尖水平
Qwen3-30B-A3B 30B 3B MoE 6 GB 快速、高效
Qwen3-235B-A22B 235B 22B MoE 48 GB+ 顶级旗舰性能

MoE(Mixture of Experts)模型尤其值得关注。Qwen3-30B-A3B 总共有 300 亿参数,但每个 token 仅激活 30 亿参数,这使其在保持高质量的同时,速度极快且极具显存效率。

方法 1:Ollama(最简单)

Ollama 是在本地运行 LLM 最简单的方法。它只需一条命令即可处理模型下载、量化和服务。

安装 Ollama

# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh

# macOS (Homebrew)
brew install ollama

# Windows: 从 ollama.ai 下载安装包

下载并运行 Qwen 3

# 拉取并运行 Qwen 3 8B (推荐入门建议)
ollama run qwen3:8b

# 其他尺寸
ollama run qwen3:0.6b    # 极小,极快
ollama run qwen3:1.7b    # 轻量型
ollama run qwen3:4b      # 良好平衡
ollama run qwen3:14b     # 强逻辑推理
ollama run qwen3:32b     # 高质量 (需要 24GB+ 显存)
ollama run qwen3:30b-a3b # MoE - 兼顾速度与质量

# 特定量化版本
ollama run qwen3:8b-q4_K_M   # 4-bit 量化 (更小、更快)
ollama run qwen3:8b-q8_0     # 8-bit 量化 (质量更好)
ollama run qwen3:8b-fp16     # 全精度 (质量最高,最耗显存)

模型下载完成后,你会看到一个交互式提示符,可以开始聊天。

作为 API 使用

Ollama 在 11434 端口运行本地 API 服务器:

# 启动服务器 (安装后通常自动运行)
ollama serve

# 对话补全 (兼容 OpenAI 格式)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3:8b",
    "messages": [
      {"role": "user", "content": "写一个 Python 函数来合并两个已排序的列表"}
    ]
  }'

结合 Python 使用

# 使用 OpenAI Python 库 (Ollama 兼容 OpenAI 协议)
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意字符串即可
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[
        {"role": "system", "content": "你是一个得力的编程助手。"},
        {"role": "user", "content": "解释 Python 中 async 和 threading 的区别"}
    ]
)

print(response.choices[0].message.content)

连接到代码编辑器

Ollama 可以集成到 AI 代码编辑器中:

Cursor:

  1. 进入 Settings > Models。
  2. 添加 OpenAI-compatible 模型。
  3. 将 Base URL 设置为 http://localhost:11434/v1。
  4. 将模型名称设置为 qwen3:8b。

Continue.dev (VS Code):

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Qwen 3 8B (Local)",
      "provider": "ollama",
      "model": "qwen3:8b"
    }
  ]
}

Claude Code:

# 作为自定义 provider 使用 (实验性)
export CLAUDE_MODEL="qwen3:8b"
export ANTHROPIC_BASE_URL="http://localhost:11434/v1"

方法 2:llama.cpp(极致性能)

若要获得最大的控制权和性能,请直接使用 llama.cpp。它支持 CPU、CUDA、Metal 和 Vulkan 加速。

安装 llama.cpp

# 克隆并构建
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# 使用 CUDA 构建 (NVIDIA GPU)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# 使用 Metal 构建 (Apple Silicon Mac)
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j

# 仅使用 CPU 构建
cmake -B build
cmake --build build --config Release -j

下载 GGUF 模型

GGUF 是 llama.cpp 的优化模型格式。从 Hugging Face 下载:

# 安装 huggingface-cli
pip install huggingface_hub

# 下载 Qwen 3 8B 的 Q4_K_M 量化版本
huggingface-cli download Qwen/Qwen3-8B-GGUF \
  qwen3-8b-q4_k_m.gguf \
  --local-dir ./models/

运行模型

# 交互式对话
./build/bin/llama-cli \
  -m models/qwen3-8b-q4_k_m.gguf \
  -ngl 99 \
  --chat-template chatml \
  -c 8192 \
  -cnv

# 启动 API 服务器
./build/bin/llama-server \
  -m models/qwen3-8b-q4_k_m.gguf \
  -ngl 99 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080
参数 描述
-m GGUF 模型文件路径
-ngl 99 将所有层卸载到 GPU (GPU 加速)
-c 8192 上下文长度 (根据内存/显存调整)
-cnv 启用对话模式
--chat-template chatml 使用 ChatML 模板 (Qwen 格式)
-t 8 CPU 线程数

量化版本对比

量化等级 文件大小 (8B 模型) 质量 速度 显存需求
Q2_K ~3 GB 低 最快 最少
Q4_K_M ~5 GB 良好 快 低
Q5_K_M ~6 GB 非常好 中等 中等
Q6_K ~7 GB 优秀 中等 中等
Q8_0 ~9 GB 接近无损 较慢 较高
FP16 ~16 GB 完美 最慢 最高

建议: 对于大多数用户,Q4_K_M 是质量与性能的最佳平衡点。如果显存充足,请使用 Q6_K 或 Q8_0。

方法 3:vLLM(生产级部署)

对于需要批处理和 Paged Attention 的高吞吐量生产环境,请使用 vLLM:

# 安装 vLLM
pip install vllm

# 部署 Qwen 3 8B
vllm serve Qwen/Qwen3-8B \
  --dtype auto \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9

# 部署 MoE 模型
vllm serve Qwen/Qwen3-30B-A3B \
  --dtype auto \
  --max-model-len 8192 \
  --trust-remote-code

vLLM 会在 8000 端口提供 OpenAI 兼容的 API:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="Qwen/Qwen3-8B",
    messages=[{"role": "user", "content": "你好!"}]
)

硬件要求

NVIDIA GPU

GPU 型号 显存 (VRAM) 推荐 Qwen 3 模型
RTX 3060 12 GB 8B (Q4) 或 30B-A3B (Q4)
RTX 3090 24 GB 14B (Q8) 或 32B (Q4)
RTX 4070 Ti 12 GB 8B (Q4) 或 30B-A3B (Q4)
RTX 4080 16 GB 14B (Q4) 或 8B (Q8)
RTX 4090 24 GB 32B (Q4) 或 14B (FP16)
RTX 5090 32 GB 32B (Q6)
A100 80 GB 235B-A22B (Q4)

Apple Silicon (Mac)

设备 内存 (RAM) 推荐 Qwen 3 模型
M1/M2 (8 GB) 8 GB 4B (Q4) 或 0.6B
M1/M2 (16 GB) 16 GB 8B (Q4) 或 30B-A3B (Q4)
M1/M2 Pro (32 GB) 32 GB 14B (Q6) 或 32B (Q4)
M1/M2 Max (64 GB) 64 GB 32B (Q8)
M1/M2 Ultra (128 GB) 128 GB 235B-A22B (Q4)
M3/M4 系列 同上 同上,速度略快

Apple Silicon 使用统一内存,因此所有系统内存都可供模型使用。这使得拥有大内存的 Mac 在运行 LLM 时表现异常出色。

性能优化技巧

1. 设置合理的上下文长度

较长的上下文会消耗更多内存并降低推理速度。请根据实际需求设置上下文:

# 简单的问答 (短上下文即可)
ollama run qwen3:8b --ctx-size 4096

# 代码分析 (需要较多上下文)
ollama run qwen3:8b --ctx-size 16384

# 处理长文档 (最大化上下文)
ollama run qwen3:8b --ctx-size 32768

2. 启用 Flash Attention

Flash Attention 可以减少内存占用并加速推理:

# Ollama 会自动启用

# llama.cpp:添加 -fa 标志
./build/bin/llama-server -m model.gguf -ngl 99 -fa

3. 使用 KV 缓存量化

减少长上下文下的显存占用:

# llama.cpp:对 KV 缓存进行量化
./build/bin/llama-server \
  -m model.gguf \
  -ngl 99 \
  --cache-type-k q4_0 \
  --cache-type-v q4_0

4. 优先尝试 MoE 模型

如果你不确定硬件能否跑动,先尝试 Qwen3-30B-A3B。它在 8B 级别的硬件上运行,但性能接近 14-32B 级别的模型:

ollama run qwen3:30b-a3b

Qwen 3 思考模式 (Thinking Mode)

Qwen 3 支持类似于 OpenAI o1 模型的“思考”模式,在回答之前会进行深入的逐步推理:

# 在 Ollama 中启用思考模式
ollama run qwen3:8b

> /set parameter num_ctx 8192
> 逐步思考:在掷四次公平的骰子中,至少掷出一个 6 的概率是多少?

通过编程方式切换思考模式:

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[
        {
            "role": "user",
            "content": "逐步思考:解决这个优化问题..."
        }
    ],
    extra_body={
        "enable_thinking": True
    }
)

思考模式在数学、逻辑和复杂推理任务中会产生更好的结果,但会消耗更多 token 且耗时更长。

常见问题解答 (FAQ)

我应该从哪个 Qwen 3 模型开始? 对于大多数用户,推荐 Qwen3-8B(Q4_K_M 量化版本)。如果显存小于 8 GB,请尝试 Qwen3-30B-A3B,它每个 token 仅激活 30 亿参数。

Qwen 3 与 Llama 3 相比如何? Qwen 3 在很多基准测试中与 Meta 的 Llama 3.3 70B 旗鼓相当甚至更胜一筹,特别是在多语言任务、编程和数学方面。MoE 版本提供了极高的单位算力质量。

我可以在本地微调 Qwen 3 吗? 可以。使用 Unsloth、Axolotl 或 LLaMA-Factory 等工具进行 LoRA 微调。通过 QLoRA,8B 模型可以在显存为 16 GB 的单卡 GPU 上进行微调。

Qwen 3 是否有审查? Qwen 3 经过了安全对齐,但比商业闭源模型限制更少。开源特性意味着社区可以创建去审查版本,尽管使用时需要考虑伦理问题。

Qwen 3 支持函数调用 / 工具使用吗? 支持。Qwen 3 支持与 OpenAI 函数调用格式一致的结构化工具使用。这在 Ollama 和 vLLM 中均可运行。

Qwen 3 可以商用吗? 可以。Qwen 3 采用 Apache 2.0 许可证发布,允许无限制的商业用途。

总结

在本地运行 Qwen 3 为你提供了一个世界级的 AI 模型,既没有持续费用,又能完全保护隐私。结合 Ollama 的简洁性、MoE 版本的高效性以及该模型在编程、数学和通用任务中的强悍表现,Qwen 3 是 2026 年在本地运行的最佳开源模型之一。

从 ollama run qwen3:8b 开始你的体验,如果追求更极致的显存性价比,请尝试 MoE 版本,并随着硬件的提升逐步尝试更大的模型。

如果你的项目在本地 LLM 能力之外还需要 AI 生成图像、视频或数字人,可以免费试用 Hypereal AI -- 无需信用卡。它能处理消费级硬件上本地 LLM 无法完成的多媒体生成任务。

相关文章

2026 年最佳开源 RAG 框架

14 min read

如何下载与使用 Ollama:详细步骤指南 (2026)

11 min read

如何使用 Ollama:零基础新手全指南 (2026)

10 min read

On this page

  • 如何在本地运行 Qwen 3:完整指南 (2026)
  • Qwen 3 模型阵容
  • 方法 1:Ollama(最简单)
  • 安装 Ollama
  • 下载并运行 Qwen 3
  • 作为 API 使用
  • 结合 Python 使用
  • 连接到代码编辑器
  • 方法 2:llama.cpp(极致性能)
  • 安装 llama.cpp
  • 下载 GGUF 模型
  • 运行模型
  • 量化版本对比
  • 方法 3:vLLM(生产级部署)
  • 硬件要求
  • NVIDIA GPU
  • Apple Silicon (Mac)
  • 性能优化技巧
  • 1. 设置合理的上下文长度
  • 2. 启用 Flash Attention
  • 3. 使用 KV 缓存量化
  • 4. 优先尝试 MoE 模型
  • Qwen 3 思考模式 (Thinking Mode)
  • 常见问题解答 (FAQ)
  • 总结
Desktop agent

Download Hypereal Agent

Run a local AI media workspace for image generation, video prompts, model selection, credit tracking, and saved artifacts.

MacWindows
v0.1.2Requires a hypereal.cloud API keyRelease manifest
Hypereal Agent desktop app screenshot

立即开始构建

立即开始构建
LogoHypereal AI
所有系统正常
LLM API
  • Hypereal SDK
  • MCP Server
  • Enterprise API
  • All LLM Models
  • Claude Fable 5
  • Claude Opus 4.7
  • Claude Sonnet 4.6
  • GPT-5.5
  • Claude Haiku 4.5
  • GPT-5.5 Pro
  • Gemini 3.1 Pro Preview
  • Gemini 3.5 Thinking
  • Gemini 3.5 Fast
  • DeepSeek V4 Pro
  • Kimi K2.6
  • GLM 5.2
  • Claude API in China
  • OpenAI API in China
AI API
  • AI API Overview
  • Seedance 2.0 API
  • Kling 3.0 API
  • Veo 3.1 API
  • FLUX API
  • GPT Image 2 API
  • vs WaveSpeed
  • vs fal.ai
  • vs Replicate
  • vs KIE.ai
  • vs OpenRouter
  • vs Together AI
  • vs SiliconFlow
  • Midjourney Alternative
  • Higgsfield Alternative
  • OpenRouter Alternative
视频模型
  • Google Veo 3.1 API
  • Kling 3.0 API
  • Kling O3 Pro API
  • Seedance 2.0 API
  • HappyHorse 1.1 API
  • HappyHorse 1.0 API
  • WAN 2.7 API
  • WAN Video API
  • Grok Video API
  • Hunyuan Video API
  • PixVerse V6 API
  • Pika Video API
  • Luma Dream Machine API
  • MiniMax Video API
  • Vidu Video API
  • Gemini Omni Video API
图像模型
  • NanoBanana 2 API
  • FLUX 2 API
  • GPT Image 1 API
  • Grok Image API
  • SeeDream V5 API
  • Imagen 4 API
  • Ideogram API
  • Recraft API
  • DALL-E 3 API
  • Stable Diffusion API
  • Gemini Image API
工具
  • Face Swap API
  • Video Face Swap API
  • Virtual Try-On API
  • AI Talking Avatar API
  • Lip Sync API
  • OmniHuman Avatar API
  • Tripo3D H3.1 API
  • ElevenLabs TTS API
  • Fish Audio TTS API
  • Whisper STT API
  • Lyria Music API
生成器
  • Video Agent
  • AI 图像生成器
  • AI 视频生成器
合集
  • 最佳视频模型
  • 最佳图像模型
  • Seedance 2.0
  • WAN 2.7
  • Qwen Image 2
  • Grok AI
  • Seedance 1.5
  • 运动控制
  • 内容检测
  • 目标检测
公司
  • 关于我们
  • 文档
  • Hypereal SDK
  • Cookbook
  • 更新日志
  • 博客
  • 联系我们
  • 常见问题
  • 路线图
  • 企业版
  • 联盟分销计划
  • Be a Creator
  • 开发者计划
法律
  • 隐私政策
  • 服务条款
  • 退款政策
  • Cookie 政策
  • 价格
  • 所有模型
  • 站点地图
  • Status
© 版权所有 2026。保留所有权利。
TwitterGitHubLinkedInYouTubeEmail