بهترین APIهای رایگان LLM منبع باز در ۲۰۲۶

برای ساختن اپلیکیشن‌های مبتنی بر هوش مصنوعی نیازی نیست صدها دلار در ماه خرج کنی. اکوسیستم LLM منبع باز در ۲۰۲۶ مدل‌های با کیفیت بالا با دسترسی رایگان یا بسیار مقرون‌به‌صرفه به API ارائه می‌دهد. چه داری prototype می‌سازی، چه پروژه‌های جانبی می‌سازی یا workload های تولیدی با بودجه محدود اجرا می‌کنی، این APIها مدل‌های زبانی قدرتمندی بدون گران شدن فراهم می‌کنند.

این راهنما بهترین APIهای LLM رایگان و منبع باز موجود را با قیمت‌گذاری، محدودیت‌های نرخ و مثال‌های کد برای هر کدام پوشش می‌دهد.

مقایسه سریع

ارائه‌دهنده	سطح رایگان	مدل برتر	پنجره Context	محدودیت نرخ (رایگان)	سازگار با OpenAI
Groq	بله	Llama 3.3 70B, DeepSeek R1	۱۲۸K	۳۰ درخواست/دقیقه	بله
Together AI	$5 اعتبار رایگان	Llama 3.3 70B, Qwen 2.5 72B	۱۲۸K	۶۰ درخواست/دقیقه	بله
Fireworks AI	$1 اعتبار رایگان	Llama 3.3 70B, Mixtral	۱۲۸K	۱۰ درخواست/دقیقه	بله
OpenRouter	برخی مدل‌ها رایگان	بسته به مدل	متغیر	متغیر	بله
HuggingFace Inference	رایگان (محدود نرخ)	Llama 3.3, Mistral, Qwen	۳۲K-۱۲۸K	۶۰ درخواست/ساعت	جزئی
Cerebras	بتای رایگان	Llama 3.3 70B	۱۲۸K	۳۰ درخواست/دقیقه	بله
SambaNova	سطح رایگان	Llama 3.3 70B	۱۲۸K	۲۰ درخواست/دقیقه	بله
Ollama (محلی)	همیشه رایگان	هر مدل GGUF	بستگی به RAM	نامحدود	بله
Google AI Studio	سطح رایگان	Gemini 2.5 Flash	۱M	۱۵ درخواست/دقیقه	خیر (SDK خودش)
Cloudflare Workers AI	سطح رایگان	Llama 3.3, Mistral	۳۲K	۱۰K درخواست/روز	جزئی

۱. Groq

Groq سریع‌ترین inference LLM موجود را ارائه می‌دهد که مدل‌ها را روی سخت‌افزار LPU (Language Processing Unit) اختصاصی‌شان اجرا می‌کند. سطح رایگان آن‌ها یکی از سخاوتمندانه‌ترین‌هاست.

جزئیات سطح رایگان

ویژگی	محدودیت
محدودیت نرخ	۳۰ درخواست/دقیقه، ۱۴,۴۰۰ درخواست/روز
مدل‌های موجود	Llama 3.3 70B, DeepSeek R1, Mixtral 8x7B, Gemma 2
محدودیت توکن	~۶,۰۰۰ توکن/دقیقه (بسته به مدل)
پنجره context	تا ۱۲۸K توکن

راه‌اندازی

# Get API key from console.groq.com
export GROQ_API_KEY="gsk_xxxxxxxxxxxx"

from openai import OpenAI

client = OpenAI(
    api_key="gsk_xxxxxxxxxxxx",
    base_url="https://api.groq.com/openai/v1"
)

response = client.chat.completions.create(
    model="llama-3.3-70b-versatile",
    messages=[{"role": "user", "content": "Explain quicksort in Python"}],
    temperature=0.7
)
print(response.choices[0].message.content)

چرا از Groq استفاده کنیم

سریع‌ترین سرعت inference در این صنعت. پاسخ‌ها در میلی‌ثانیه می‌آیند نه ثانیه‌ها. سطح رایگان به اندازه کافی برای prototyping و پروژه‌های شخصی سخاوتمندانه است.

۲. Together AI

Together AI طیف گسترده‌ای از مدل‌های منبع باز با قیمت‌گذاری رقابتی و $5 اعتبار رایگان برای حساب‌های جدید میزبانی می‌کند.

جزئیات اعتبار رایگان

ویژگی	جزئیات
اعتبار رایگان	$5 هنگام ثبت‌نام
قیمت Llama 3.3 70B	$0.88/M توکن
مدل‌های موجود	۱۰۰+ مدل منبع باز
محدودیت نرخ	۶۰ درخواست/دقیقه

راه‌اندازی

from openai import OpenAI

client = OpenAI(
    api_key="your-together-api-key",
    base_url="https://api.together.xyz/v1"
)

response = client.chat.completions.create(
    model="meta-llama/Llama-3.3-70B-Instruct-Turbo",
    messages=[{"role": "user", "content": "Write a FastAPI endpoint for user registration"}],
)
print(response.choices[0].message.content)

چرا از Together AI استفاده کنیم

بیشترین تنوع مدل‌های منبع باز. اگر می‌خواهی مدل‌های مختلف (Llama، Qwen، Mistral، DeepSeek) را آزمایش کنی، Together همه را روی یک پلتفرم دارد.

۳. HuggingFace Inference API

HuggingFace برای هزاران مدل میزبانی‌شده روی پلتفرمشان inference رایگان ارائه می‌دهد. سطح رایگان محدودیت نرخ دارد اما برای توسعه کافی است.

جزئیات سطح رایگان

ویژگی	محدودیت
محدودیت نرخ	~۶۰ درخواست/ساعت (رایگان)، بالاتر با Pro
مدل‌ها	هزاران مدل منبع باز
endpoint های اختصاصی	فقط پولی
Serverless inference	رایگان برای مدل‌های محبوب

راه‌اندازی

from huggingface_hub import InferenceClient

client = InferenceClient(
    model="meta-llama/Llama-3.3-70B-Instruct",
    token="hf_xxxxxxxxxxxx"
)

response = client.chat.completions.create(
    messages=[{"role": "user", "content": "Explain async/await in JavaScript"}],
    max_tokens=1024
)
print(response.choices[0].message.content)

چرا از HuggingFace استفاده کنیم

دسترسی به بزرگ‌ترین مجموعه مدل‌های منبع باز. برای آزمایش و امتحان مدل‌های نیش یا تخصصی که جای دیگر نیستند عالی است.

۴. OpenRouter

OpenRouter مدل‌ها را از چندین ارائه‌دهنده جمع می‌کند و برخی مدل‌ها را رایگان ارائه می‌دهد. به عنوان یک gateway API یکپارچه با endpoint های سازگار با OpenAI عمل می‌کند.

مدل‌های رایگان

OpenRouter چندین مدل را با هزینه صفر ارائه می‌دهد (حمایت‌شده توسط جامعه):

مدل	Context	وضعیت
DeepSeek V3 (رایگان)	۱۲۸K	رایگان
Llama 3.3 8B (رایگان)	۱۲۸K	رایگان
Mistral 7B (رایگان)	۳۲K	رایگان
Gemma 2 9B (رایگان)	۸K	رایگان

مدل‌های رایگان محدودیت نرخ پایین‌تری دارند و ممکن است در اوقات اوج صف داشته باشند.

راه‌اندازی

from openai import OpenAI

client = OpenAI(
    api_key="sk-or-xxxxxxxxxxxx",
    base_url="https://openrouter.ai/api/v1"
)

response = client.chat.completions.create(
    model="deepseek/deepseek-chat-v3-0324:free",
    messages=[{"role": "user", "content": "Write a Python decorator for caching"}],
)
print(response.choices[0].message.content)

چرا از OpenRouter استفاده کنیم

یک کلید API برای ده‌ها ارائه‌دهنده. تعویض آسان مدل. برخی مدل‌های واقعاً رایگان. بازگشتی عالی وقتی یک ارائه‌دهنده خراب است.

۵. Ollama (محلی)

Ollama به شما اجازه می‌دهد LLM های منبع باز را روی دستگاه خودت اجرا کنی. کاملاً رایگان است، آفلاین کار می‌کند و همه داده‌ها را خصوصی نگه می‌دارد.

راه‌اندازی

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Download and run a model
ollama pull llama3.3
ollama run llama3.3

استفاده با API سازگار با OpenAI

Ollama یک API محلی روی پورت ۱۱۴۳۴ expose می‌کند:

from openai import OpenAI

client = OpenAI(
    api_key="ollama",  # any string works
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="llama3.3",
    messages=[{"role": "user", "content": "Explain Docker networking"}],
)
print(response.choices[0].message.content)

مدل‌های توصیه‌شده برای استفاده محلی

مدل	اندازه	RAM لازم	کیفیت
Llama 3.3 8B	4.7 GB	8 GB	خوب
Llama 3.3 70B	40 GB	48 GB	عالی
Qwen 2.5 32B	18 GB	24 GB	خیلی خوب
DeepSeek Coder V2 16B	9 GB	12 GB	عالی برای کد
Mistral Small 22B	13 GB	16 GB	خوب
Phi-4 14B	8 GB	12 GB	خوب برای اندازه

چرا از Ollama استفاده کنیم

حریم خصوصی کامل، هزینه صفر، آفلاین کار می‌کند. برای توسعه‌دهندگانی که با داده‌های حساس کار می‌کنند یا می‌خواهند مصرف نامحدود بدون محدودیت نرخ داشته باشند ضروری است.

۶. Google AI Studio (Gemini)

گوگل از طریق AI Studio یک سطح رایگان سخاوتمندانه برای مدل‌های Gemini ارائه می‌دهد که آن را یکی از بهترین گزینه‌های رایگان برای توسعه‌دهندگان می‌کند.

جزئیات سطح رایگان

ویژگی	محدودیت
Gemini 2.5 Flash	۱۵ درخواست/دقیقه، ۱,۵۰۰/روز
Gemini 2.5 Pro	۲ درخواست/دقیقه، ۵۰/روز
پنجره context	تا ۱M توکن
قیمت	رایگان

راه‌اندازی

import google.generativeai as genai

genai.configure(api_key="your-api-key")
model = genai.GenerativeModel("gemini-2.5-flash")

response = model.generate_content("Write a regex to validate email addresses")
print(response.text)

چرا از Google AI Studio استفاده کنیم

Gemini 2.5 Flash یکی از بهترین مدل‌های رایگان موجود است. پنجره context 1M توکن در این نقطه قیمتی بی‌رقیب است.

۷. Cerebras

Cerebras inference سریع مبتنی بر تراشه‌های wafer-scale خود ارائه می‌دهد. سطح بتای رایگان آن‌ها سرعت‌های رقابتی ارائه می‌دهد.

راه‌اندازی

from openai import OpenAI

client = OpenAI(
    api_key="your-cerebras-key",
    base_url="https://api.cerebras.ai/v1"
)

response = client.chat.completions.create(
    model="llama-3.3-70b",
    messages=[{"role": "user", "content": "Explain database indexing strategies"}],
)
print(response.choices[0].message.content)

چرا از Cerebras استفاده کنیم

inference بسیار سریع (رقابت با Groq). سطح رایگان خوب برای توسعه و prototyping.

۸. Cloudflare Workers AI

Cloudflare به عنوان بخشی از پلتفرم Workers خود با یک سطح رایگان سخاوتمندانه inference AI ارائه می‌دهد.

جزئیات سطح رایگان

ویژگی	محدودیت
درخواست‌ها	۱۰,۰۰۰/روز
مدل‌ها	Llama 3.3، Mistral و دیگران
Neurons (واحدهای محاسباتی)	۱۰,۰۰۰/روز
استقرار	Edge (CDN جهانی)

راه‌اندازی

// Cloudflare Worker
export default {
  async fetch(request, env) {
    const response = await env.AI.run('@cf/meta/llama-3.3-70b-instruct-fp8-fast', {
      messages: [
        { role: 'user', content: 'Explain WebSocket connections' }
      ]
    });
    return new Response(JSON.stringify(response));
  }
};

چرا از Cloudflare Workers AI استفاده کنیم

استقرار Edge (تأخیر پایین در سطح جهانی)، یکپارچه با اکوسیستم Cloudflare، و سطح رایگان سخاوتمندانه برای اپلیکیشن‌های serverless.

نحوه انتخاب

مورد استفاده	توصیه‌شده
سریع‌ترین inference رایگان	Groq یا Cerebras
بیشترین تنوع مدل	Together AI یا OpenRouter
حریم خصوصی کامل / آفلاین	Ollama
بزرگ‌ترین پنجره context (رایگان)	Google AI Studio (Gemini)
استقرار Edge	Cloudflare Workers AI
آزمایش با مدل‌های نیش	HuggingFace
تولید با اعتبارهای رایگان	Together AI ($5 اعتبار)
توسعه با هزینه صفر	ترکیب Groq + Ollama

کلاینت پایتون جهانی

از آنجایی که اکثر ارائه‌دهندگان API های سازگار با OpenAI پشتیبانی می‌کنند، می‌توانی یک کلاینت جهانی بنویسی که بین آن‌ها جابجا می‌شود:

from openai import OpenAI

PROVIDERS = {
    "groq": {
        "base_url": "https://api.groq.com/openai/v1",
        "api_key": "gsk_xxx",
        "model": "llama-3.3-70b-versatile"
    },
    "together": {
        "base_url": "https://api.together.xyz/v1",
        "api_key": "tog_xxx",
        "model": "meta-llama/Llama-3.3-70B-Instruct-Turbo"
    },
    "openrouter": {
        "base_url": "https://openrouter.ai/api/v1",
        "api_key": "sk-or-xxx",
        "model": "deepseek/deepseek-chat-v3-0324:free"
    },
    "ollama": {
        "base_url": "http://localhost:11434/v1",
        "api_key": "ollama",
        "model": "llama3.3"
    },
}

def query(provider: str, prompt: str) -> str:
    config = PROVIDERS[provider]
    client = OpenAI(api_key=config["api_key"], base_url=config["base_url"])
    response = client.chat.completions.create(
        model=config["model"],
        messages=[{"role": "user", "content": prompt}],
    )
    return response.choices[0].message.content

# Use the cheapest available provider
answer = query("groq", "Explain the difference between REST and GraphQL")
print(answer)

نکاتی برای به حداکثر رساندن سطوح رایگان

Caching پیاده‌سازی کن. پاسخ‌ها را برای query های یکسان یا مشابه cache کن تا فراخوانی‌های API کاهش یابد.
از مدل‌های کوچک‌تر برای کارهای ساده استفاده کن. مدل 8B فرمت‌بندی ساده، خلاصه‌سازی و استخراج را خوب مدیریت می‌کند. مدل‌های ۷۰B+ را برای استدلال پیچیده نگه‌دار.
درخواست‌ها را batch کن. اگر API پشتیبانی می‌کند، چندین پرامپت را در یک درخواست batch کن.
fallback تنظیم کن. اگر یک ارائه‌دهنده rate-limit کرد، به‌طور خودکار به دیگری fallback کن.
یک مدل محلی برای توسعه اجرا کن. در طول توسعه از Ollama محلی استفاده کن و برای تولید به ارائه‌دهنده cloud سوییچ کن.
مصرف را نظارت کن. فراخوانی‌های API را ردیابی کن تا از هزینه‌های غافلگیرکننده وقتی اعتبارهای رایگان تمام می‌شوند جلوگیری کنی.

جمع‌بندی

موجودیت APIهای رایگان و منبع باز LLM در ۲۰۲۶ یعنی هر توسعه‌دهنده‌ای می‌تواند بدون هزینه‌های اولیه قابل توجه اپلیکیشن‌های مبتنی بر هوش مصنوعی بسازد. Groq و Cerebras inference رایگان با سرعت بالا ارائه می‌دهند، Google AI Studio پنجره‌های context بزرگ فراهم می‌کند، و Ollama مصرف محلی نامحدود می‌دهد. چندین ارائه‌دهنده را ترکیب کن تا یک زیرساخت هوش مصنوعی قوی و مقرون‌به‌صرفه بسازی.

توسعه‌دهندگان ایرانی می‌توانند به Hypereal به عنوان یک بازی‌گر منطقه‌ای نگاه کنند: بدون موانع تحریم، API یکپارچه‌ای که تصویر، ویدیو، صدا و آواتار را پوشش می‌دهد، و قیمت‌گذاری pay-as-you-go بدون اشتراک اجباری.

اگر اپلیکیشنت علاوه بر LLM به رسانه تولیدشده با هوش مصنوعی — تصویر، ویدیو، صدا یا آواتارهای ناطق — نیاز دارد، Hypereal AI را برای یک API یکپارچه با قیمت‌گذاری pay-as-you-go و اعتبارهای شروع رایگان بررسی کن.

Hypereal AI را رایگان امتحان کن — ۳۵ اعتبار، بدون نیاز به کارت اعتباری.