2026 年可立即使用的 10 个免费 OpenRouter LLM 模型

OpenRouter 将 200 多个 LLM 聚合在单一 OpenAI 兼容 API 后面。大多数需要付费，但一批前沿开源模型由提供商（DeepSeek、Meta、Alibaba、Z.ai、NousResearch）以 $0/token 提供，原因是推广或研究需要。

以下是截至 2026 年 5 月 OpenRouter 上真正值得用的 10 个免费模型——不含那 100 多个速度慢、坏掉或配额为零的。每个模型附：优势、局限、model ID。

OpenRouter 免费层有速率限制（撰写时约为每账号每分钟 20 次请求，每天 200 次）。用量更大时，本文最后一节介绍如何在不改动代码的情况下迁移到付费 OpenAI 兼容聚合器。

1. `meta-llama/llama-4-maverick:free`

Meta 最大的开源 Llama 4 变体——405B 参数，MoE 路由。最佳通用免费模型。擅长代码、多语言推理、指令跟随。

最适合：对成本敏感的工作负载，可替代 GPT-4 级别质量。
局限：超长上下文（>128K token）、繁重工具调用。

2. `deepseek/deepseek-r2:free`

DeepSeek 的推理模型（2026 年 3 月发布）。数学上超过 GPT-5-mini，代码上与 Claude Sonnet 4.6 相当。响应中可见推理链。

最适合：数学、代码、需要看思考过程的多步推理。
局限：短对话式回复（过度思考）。延迟高——TTFT 可达数秒。

3. `deepseek/deepseek-v3.2:free`

DeepSeek 的非推理通用模型。比 R2 更快，上下文更短。对话和结构化输出性价比极高。

最适合：大批量对话、JSON 输出、函数调用。
局限：复杂推理——升级到 R2。

4. `qwen/qwen-3-235b:free`

阿里的 Qwen 3，235B MoE。多语言能力强（尤其中文、韩语、日语）。代码表现也出乎意料地好。

最适合：非英文任务、多语言微调数据、中文技术场景。
局限：英文输出偶尔夹杂中文字符，重试即可。

5. `qwen/qwen-3-coder:free`

专门针对代码的 Qwen 3 分支。代码补全和重构表现超出参数量预期。工具调用支持好。

最适合：预算有限的 Agentic 编码循环。
局限：散文、创意写作。

6. `z-ai/glm-4.7:free`

Zhipu 的 GLM-4.7。2026 年最便宜的 Claude Sonnet 级模型。指令跟随出乎意料地精准。

最适合：结构化输出、需要 Claude 风格行为的 Agent 工作流。
局限：很长的英文创意任务。

7. `google/gemma-3-27b:free`

Google 开源的 Gemma 3，27B。性能大幅超越参数量——Google 的蒸馏管线确实是业界顶级。

最适合：边缘部署替代方案、快速推理、RAG QA。
局限：复杂推理、超过约 200 行的代码。

8. `nousresearch/hermes-4-405b:free`

NousResearch 的 Llama 4 指令微调版。Llama 4 基础模型太干燥时，角色写作、角色扮演、创意任务的首选微调。

最适合：创意写作、角色声音、角色扮演、叙事生成。
局限：代码、数学、结构化输出。

9. `microsoft/phi-4-mini:free`

Phi-4-mini，14B。微软小型模型线。同尺寸中最好的免费推理模型。

最适合：高吞吐、低延迟推理。适合廉价思维嵌入工作流。
局限：长上下文回忆、需要世界知识的任务。

10. `mistralai/mistral-large-3:free`

Mistral Large 3（OpenRouter 免费推广层）。欧洲语言表现强，代码补全精确。

最适合：欧洲语言、函数调用、编码。
局限：免费层速率限制最严——很快被限流。

如何调用

OpenRouter 使用 OpenAI 兼容端点，标准 SDK，model ID 加前缀：

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-r2:free",
    messages=[{"role": "user", "content": "Explain MoE routing in one paragraph."}],
)

当免费层不够用时

OpenRouter 免费层限制约 20 RPM、每天约 200 次请求。真实生产工作负载一小时内就会超出。这时有两个选择：

升级到 OpenRouter 付费版——同样的模型，无速率上限，正价。
迁移到其他 OpenAI 兼容聚合器——相同的 API 形式，通常便宜很多。

Hypereal 属于第二类。具体 model ID 不同，但 API 形式相同，且托管了大部分同款开源模型，另外还有高端闭源模型（GPT-5、Claude Opus 4.7、Gemini 2.5 Pro、NanoBanana 2、Seedance 2.0、GPT Image 2）：

client = OpenAI(
    base_url="https://api.hypereal.cloud/v1",
    api_key="ck_...",
)

对大多数生产工作负载而言，从 OpenRouter 免费版迁移到 Hypereal，同等吞吐量比 OpenRouter 付费版更便宜，且没有每日上限。

FAQ

OpenRouter 免费模型真的免费吗？ 是的——提供商承担成本。代价是：速率限制、偶尔排队等待，以及你的 prompt 可能被用于模型改进（请查看 OpenRouter 上每个模型的隐私说明）。

为什么推理模型如 DeepSeek R2 是免费的？ 推广目的。提供商需要采用信号和训练数据。这一政策随时可能改变。

可以商用吗？ 取决于各模型许可证——Llama 4（Llama 社区许可）、Qwen（Apache 风格）、GLM（商用 OK）、Gemma（Gemma TOU）。请查阅各模型 card。

从哪个开始？ 通用任务用 Llama 4 Maverick，硬推理用 DeepSeek R2，创意写作用 Hermes 4，多语言用 Qwen 3。

开始使用

OpenRouter 免费层是零成本试用十款前沿模型的最快途径。当你超出它的限制时，Hypereal 是拥有最广模型目录的最便宜付费路径——包括 OpenRouter 要全价收费的高端模型。