Hypereal AIHypereal AI
Video StudioVideo AgentMedia APICoding LLMsMCP
Video APISeedance 2.0KlingVeo 3.1Gemini Omni VideoHappyHorse 1.0All Models →
Image APIGPT Image 2Nano BananaFLUXMidjourney AlternativeAll Models →
LLM APIClaude OpusClaude SonnetClaude FableGPT-5.5GPT-5.5 ProGemini 3 ProGemini 3.5 FastGemini 3.5 ThinkingDeepSeekAll Models →
قیمت‌گذاری
API ReferenceCookbook
EnterpriseAffiliateAboutChangelogContact

قیمت‌گذاری

بازگشت به مقالات
AIAPIFreeLLMOpen Source

بهترین APIهای رایگان LLM منبع باز در ۲۰۲۶

APIهای رایگان و منبع باز LLM که هر توسعه‌دهنده‌ای باید بداند

Hypereal AI TeamHypereal AI Team
10 min read
۱۷ بهمن ۱۴۰۴
بیش از ۱۰۰ مدل هوش مصنوعی، یک API

شروع به ساخت با Hypereal AI

دسترسی به Kling, Flux, Sora, Veo و موارد دیگر از طریق یک API واحد. اعتبار رایگان برای شروع، مقیاس‌پذیری تا میلیون‌ها.

دریافت کلید API رایگانمشاهده مستندات

بدون نیاز به کارت اعتباری • بیش از ۱۰۰ هزار توسعه‌دهنده • آماده برای شرکت‌ها

بهترین APIهای رایگان LLM منبع باز در ۲۰۲۶

برای ساختن اپلیکیشن‌های مبتنی بر هوش مصنوعی نیازی نیست صدها دلار در ماه خرج کنی. اکوسیستم LLM منبع باز در ۲۰۲۶ مدل‌های با کیفیت بالا با دسترسی رایگان یا بسیار مقرون‌به‌صرفه به API ارائه می‌دهد. چه داری prototype می‌سازی، چه پروژه‌های جانبی می‌سازی یا workload های تولیدی با بودجه محدود اجرا می‌کنی، این APIها مدل‌های زبانی قدرتمندی بدون گران شدن فراهم می‌کنند.

این راهنما بهترین APIهای LLM رایگان و منبع باز موجود را با قیمت‌گذاری، محدودیت‌های نرخ و مثال‌های کد برای هر کدام پوشش می‌دهد.

مقایسه سریع

ارائه‌دهنده سطح رایگان مدل برتر پنجره Context محدودیت نرخ (رایگان) سازگار با OpenAI
Groq بله Llama 3.3 70B, DeepSeek R1 ۱۲۸K ۳۰ درخواست/دقیقه بله
Together AI $5 اعتبار رایگان Llama 3.3 70B, Qwen 2.5 72B ۱۲۸K ۶۰ درخواست/دقیقه بله
Fireworks AI $1 اعتبار رایگان Llama 3.3 70B, Mixtral ۱۲۸K ۱۰ درخواست/دقیقه بله
OpenRouter برخی مدل‌ها رایگان بسته به مدل متغیر متغیر بله
HuggingFace Inference رایگان (محدود نرخ) Llama 3.3, Mistral, Qwen ۳۲K-۱۲۸K ۶۰ درخواست/ساعت جزئی
Cerebras بتای رایگان Llama 3.3 70B ۱۲۸K ۳۰ درخواست/دقیقه بله
SambaNova سطح رایگان Llama 3.3 70B ۱۲۸K ۲۰ درخواست/دقیقه بله
Ollama (محلی) همیشه رایگان هر مدل GGUF بستگی به RAM نامحدود بله
Google AI Studio سطح رایگان Gemini 2.5 Flash ۱M ۱۵ درخواست/دقیقه خیر (SDK خودش)
Cloudflare Workers AI سطح رایگان Llama 3.3, Mistral ۳۲K ۱۰K درخواست/روز جزئی

۱. Groq

Groq سریع‌ترین inference LLM موجود را ارائه می‌دهد که مدل‌ها را روی سخت‌افزار LPU (Language Processing Unit) اختصاصی‌شان اجرا می‌کند. سطح رایگان آن‌ها یکی از سخاوتمندانه‌ترین‌هاست.

جزئیات سطح رایگان

ویژگی محدودیت
محدودیت نرخ ۳۰ درخواست/دقیقه، ۱۴,۴۰۰ درخواست/روز
مدل‌های موجود Llama 3.3 70B, DeepSeek R1, Mixtral 8x7B, Gemma 2
محدودیت توکن ~۶,۰۰۰ توکن/دقیقه (بسته به مدل)
پنجره context تا ۱۲۸K توکن

راه‌اندازی

# Get API key from console.groq.com
export GROQ_API_KEY="gsk_xxxxxxxxxxxx"
from openai import OpenAI

client = OpenAI(
    api_key="gsk_xxxxxxxxxxxx",
    base_url="https://api.groq.com/openai/v1"
)

response = client.chat.completions.create(
    model="llama-3.3-70b-versatile",
    messages=[{"role": "user", "content": "Explain quicksort in Python"}],
    temperature=0.7
)
print(response.choices[0].message.content)

چرا از Groq استفاده کنیم

سریع‌ترین سرعت inference در این صنعت. پاسخ‌ها در میلی‌ثانیه می‌آیند نه ثانیه‌ها. سطح رایگان به اندازه کافی برای prototyping و پروژه‌های شخصی سخاوتمندانه است.

۲. Together AI

Together AI طیف گسترده‌ای از مدل‌های منبع باز با قیمت‌گذاری رقابتی و $5 اعتبار رایگان برای حساب‌های جدید میزبانی می‌کند.

جزئیات اعتبار رایگان

ویژگی جزئیات
اعتبار رایگان $5 هنگام ثبت‌نام
قیمت Llama 3.3 70B $0.88/M توکن
مدل‌های موجود ۱۰۰+ مدل منبع باز
محدودیت نرخ ۶۰ درخواست/دقیقه

راه‌اندازی

from openai import OpenAI

client = OpenAI(
    api_key="your-together-api-key",
    base_url="https://api.together.xyz/v1"
)

response = client.chat.completions.create(
    model="meta-llama/Llama-3.3-70B-Instruct-Turbo",
    messages=[{"role": "user", "content": "Write a FastAPI endpoint for user registration"}],
)
print(response.choices[0].message.content)

چرا از Together AI استفاده کنیم

بیشترین تنوع مدل‌های منبع باز. اگر می‌خواهی مدل‌های مختلف (Llama، Qwen، Mistral، DeepSeek) را آزمایش کنی، Together همه را روی یک پلتفرم دارد.

۳. HuggingFace Inference API

HuggingFace برای هزاران مدل میزبانی‌شده روی پلتفرمشان inference رایگان ارائه می‌دهد. سطح رایگان محدودیت نرخ دارد اما برای توسعه کافی است.

جزئیات سطح رایگان

ویژگی محدودیت
محدودیت نرخ ~۶۰ درخواست/ساعت (رایگان)، بالاتر با Pro
مدل‌ها هزاران مدل منبع باز
endpoint های اختصاصی فقط پولی
Serverless inference رایگان برای مدل‌های محبوب

راه‌اندازی

from huggingface_hub import InferenceClient

client = InferenceClient(
    model="meta-llama/Llama-3.3-70B-Instruct",
    token="hf_xxxxxxxxxxxx"
)

response = client.chat.completions.create(
    messages=[{"role": "user", "content": "Explain async/await in JavaScript"}],
    max_tokens=1024
)
print(response.choices[0].message.content)

چرا از HuggingFace استفاده کنیم

دسترسی به بزرگ‌ترین مجموعه مدل‌های منبع باز. برای آزمایش و امتحان مدل‌های نیش یا تخصصی که جای دیگر نیستند عالی است.

۴. OpenRouter

OpenRouter مدل‌ها را از چندین ارائه‌دهنده جمع می‌کند و برخی مدل‌ها را رایگان ارائه می‌دهد. به عنوان یک gateway API یکپارچه با endpoint های سازگار با OpenAI عمل می‌کند.

مدل‌های رایگان

OpenRouter چندین مدل را با هزینه صفر ارائه می‌دهد (حمایت‌شده توسط جامعه):

مدل Context وضعیت
DeepSeek V3 (رایگان) ۱۲۸K رایگان
Llama 3.3 8B (رایگان) ۱۲۸K رایگان
Mistral 7B (رایگان) ۳۲K رایگان
Gemma 2 9B (رایگان) ۸K رایگان

مدل‌های رایگان محدودیت نرخ پایین‌تری دارند و ممکن است در اوقات اوج صف داشته باشند.

راه‌اندازی

from openai import OpenAI

client = OpenAI(
    api_key="sk-or-xxxxxxxxxxxx",
    base_url="https://openrouter.ai/api/v1"
)

response = client.chat.completions.create(
    model="deepseek/deepseek-chat-v3-0324:free",
    messages=[{"role": "user", "content": "Write a Python decorator for caching"}],
)
print(response.choices[0].message.content)

چرا از OpenRouter استفاده کنیم

یک کلید API برای ده‌ها ارائه‌دهنده. تعویض آسان مدل. برخی مدل‌های واقعاً رایگان. بازگشتی عالی وقتی یک ارائه‌دهنده خراب است.

۵. Ollama (محلی)

Ollama به شما اجازه می‌دهد LLM های منبع باز را روی دستگاه خودت اجرا کنی. کاملاً رایگان است، آفلاین کار می‌کند و همه داده‌ها را خصوصی نگه می‌دارد.

راه‌اندازی

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Download and run a model
ollama pull llama3.3
ollama run llama3.3

استفاده با API سازگار با OpenAI

Ollama یک API محلی روی پورت ۱۱۴۳۴ expose می‌کند:

from openai import OpenAI

client = OpenAI(
    api_key="ollama",  # any string works
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="llama3.3",
    messages=[{"role": "user", "content": "Explain Docker networking"}],
)
print(response.choices[0].message.content)

مدل‌های توصیه‌شده برای استفاده محلی

مدل اندازه RAM لازم کیفیت
Llama 3.3 8B 4.7 GB 8 GB خوب
Llama 3.3 70B 40 GB 48 GB عالی
Qwen 2.5 32B 18 GB 24 GB خیلی خوب
DeepSeek Coder V2 16B 9 GB 12 GB عالی برای کد
Mistral Small 22B 13 GB 16 GB خوب
Phi-4 14B 8 GB 12 GB خوب برای اندازه

چرا از Ollama استفاده کنیم

حریم خصوصی کامل، هزینه صفر، آفلاین کار می‌کند. برای توسعه‌دهندگانی که با داده‌های حساس کار می‌کنند یا می‌خواهند مصرف نامحدود بدون محدودیت نرخ داشته باشند ضروری است.

۶. Google AI Studio (Gemini)

گوگل از طریق AI Studio یک سطح رایگان سخاوتمندانه برای مدل‌های Gemini ارائه می‌دهد که آن را یکی از بهترین گزینه‌های رایگان برای توسعه‌دهندگان می‌کند.

جزئیات سطح رایگان

ویژگی محدودیت
Gemini 2.5 Flash ۱۵ درخواست/دقیقه، ۱,۵۰۰/روز
Gemini 2.5 Pro ۲ درخواست/دقیقه، ۵۰/روز
پنجره context تا ۱M توکن
قیمت رایگان

راه‌اندازی

import google.generativeai as genai

genai.configure(api_key="your-api-key")
model = genai.GenerativeModel("gemini-2.5-flash")

response = model.generate_content("Write a regex to validate email addresses")
print(response.text)

چرا از Google AI Studio استفاده کنیم

Gemini 2.5 Flash یکی از بهترین مدل‌های رایگان موجود است. پنجره context 1M توکن در این نقطه قیمتی بی‌رقیب است.

۷. Cerebras

Cerebras inference سریع مبتنی بر تراشه‌های wafer-scale خود ارائه می‌دهد. سطح بتای رایگان آن‌ها سرعت‌های رقابتی ارائه می‌دهد.

راه‌اندازی

from openai import OpenAI

client = OpenAI(
    api_key="your-cerebras-key",
    base_url="https://api.cerebras.ai/v1"
)

response = client.chat.completions.create(
    model="llama-3.3-70b",
    messages=[{"role": "user", "content": "Explain database indexing strategies"}],
)
print(response.choices[0].message.content)

چرا از Cerebras استفاده کنیم

inference بسیار سریع (رقابت با Groq). سطح رایگان خوب برای توسعه و prototyping.

۸. Cloudflare Workers AI

Cloudflare به عنوان بخشی از پلتفرم Workers خود با یک سطح رایگان سخاوتمندانه inference AI ارائه می‌دهد.

جزئیات سطح رایگان

ویژگی محدودیت
درخواست‌ها ۱۰,۰۰۰/روز
مدل‌ها Llama 3.3، Mistral و دیگران
Neurons (واحدهای محاسباتی) ۱۰,۰۰۰/روز
استقرار Edge (CDN جهانی)

راه‌اندازی

// Cloudflare Worker
export default {
  async fetch(request, env) {
    const response = await env.AI.run('@cf/meta/llama-3.3-70b-instruct-fp8-fast', {
      messages: [
        { role: 'user', content: 'Explain WebSocket connections' }
      ]
    });
    return new Response(JSON.stringify(response));
  }
};

چرا از Cloudflare Workers AI استفاده کنیم

استقرار Edge (تأخیر پایین در سطح جهانی)، یکپارچه با اکوسیستم Cloudflare، و سطح رایگان سخاوتمندانه برای اپلیکیشن‌های serverless.

نحوه انتخاب

مورد استفاده توصیه‌شده
سریع‌ترین inference رایگان Groq یا Cerebras
بیشترین تنوع مدل Together AI یا OpenRouter
حریم خصوصی کامل / آفلاین Ollama
بزرگ‌ترین پنجره context (رایگان) Google AI Studio (Gemini)
استقرار Edge Cloudflare Workers AI
آزمایش با مدل‌های نیش HuggingFace
تولید با اعتبارهای رایگان Together AI ($5 اعتبار)
توسعه با هزینه صفر ترکیب Groq + Ollama

کلاینت پایتون جهانی

از آنجایی که اکثر ارائه‌دهندگان API های سازگار با OpenAI پشتیبانی می‌کنند، می‌توانی یک کلاینت جهانی بنویسی که بین آن‌ها جابجا می‌شود:

from openai import OpenAI

PROVIDERS = {
    "groq": {
        "base_url": "https://api.groq.com/openai/v1",
        "api_key": "gsk_xxx",
        "model": "llama-3.3-70b-versatile"
    },
    "together": {
        "base_url": "https://api.together.xyz/v1",
        "api_key": "tog_xxx",
        "model": "meta-llama/Llama-3.3-70B-Instruct-Turbo"
    },
    "openrouter": {
        "base_url": "https://openrouter.ai/api/v1",
        "api_key": "sk-or-xxx",
        "model": "deepseek/deepseek-chat-v3-0324:free"
    },
    "ollama": {
        "base_url": "http://localhost:11434/v1",
        "api_key": "ollama",
        "model": "llama3.3"
    },
}

def query(provider: str, prompt: str) -> str:
    config = PROVIDERS[provider]
    client = OpenAI(api_key=config["api_key"], base_url=config["base_url"])
    response = client.chat.completions.create(
        model=config["model"],
        messages=[{"role": "user", "content": prompt}],
    )
    return response.choices[0].message.content

# Use the cheapest available provider
answer = query("groq", "Explain the difference between REST and GraphQL")
print(answer)

نکاتی برای به حداکثر رساندن سطوح رایگان

  1. Caching پیاده‌سازی کن. پاسخ‌ها را برای query های یکسان یا مشابه cache کن تا فراخوانی‌های API کاهش یابد.
  2. از مدل‌های کوچک‌تر برای کارهای ساده استفاده کن. مدل 8B فرمت‌بندی ساده، خلاصه‌سازی و استخراج را خوب مدیریت می‌کند. مدل‌های ۷۰B+ را برای استدلال پیچیده نگه‌دار.
  3. درخواست‌ها را batch کن. اگر API پشتیبانی می‌کند، چندین پرامپت را در یک درخواست batch کن.
  4. fallback تنظیم کن. اگر یک ارائه‌دهنده rate-limit کرد، به‌طور خودکار به دیگری fallback کن.
  5. یک مدل محلی برای توسعه اجرا کن. در طول توسعه از Ollama محلی استفاده کن و برای تولید به ارائه‌دهنده cloud سوییچ کن.
  6. مصرف را نظارت کن. فراخوانی‌های API را ردیابی کن تا از هزینه‌های غافلگیرکننده وقتی اعتبارهای رایگان تمام می‌شوند جلوگیری کنی.

جمع‌بندی

موجودیت APIهای رایگان و منبع باز LLM در ۲۰۲۶ یعنی هر توسعه‌دهنده‌ای می‌تواند بدون هزینه‌های اولیه قابل توجه اپلیکیشن‌های مبتنی بر هوش مصنوعی بسازد. Groq و Cerebras inference رایگان با سرعت بالا ارائه می‌دهند، Google AI Studio پنجره‌های context بزرگ فراهم می‌کند، و Ollama مصرف محلی نامحدود می‌دهد. چندین ارائه‌دهنده را ترکیب کن تا یک زیرساخت هوش مصنوعی قوی و مقرون‌به‌صرفه بسازی.

توسعه‌دهندگان ایرانی می‌توانند به Hypereal به عنوان یک بازی‌گر منطقه‌ای نگاه کنند: بدون موانع تحریم، API یکپارچه‌ای که تصویر، ویدیو، صدا و آواتار را پوشش می‌دهد، و قیمت‌گذاری pay-as-you-go بدون اشتراک اجباری.

اگر اپلیکیشنت علاوه بر LLM به رسانه تولیدشده با هوش مصنوعی — تصویر، ویدیو، صدا یا آواتارهای ناطق — نیاز دارد، Hypereal AI را برای یک API یکپارچه با قیمت‌گذاری pay-as-you-go و اعتبارهای شروع رایگان بررسی کن.

Hypereal AI را رایگان امتحان کن — ۳۵ اعتبار، بدون نیاز به کارت اعتباری.

مقالات مرتبط

بهترین مدل‌های هوش مصنوعی رایگانی که امروز می‌توانی استفاده کنی (2026)

8 min read

چطور از API DeepSeek به صورت رایگان در ۲۰۲۶ استفاده کنیم

8 min read

DeepSeek R1 Abliterated: راهنمای مدل بدون سانسور (2026)

10 min read

On this page

  • بهترین APIهای رایگان LLM منبع باز در ۲۰۲۶
  • مقایسه سریع
  • ۱. Groq
  • جزئیات سطح رایگان
  • راه‌اندازی
  • چرا از Groq استفاده کنیم
  • ۲. Together AI
  • جزئیات اعتبار رایگان
  • راه‌اندازی
  • چرا از Together AI استفاده کنیم
  • ۳. HuggingFace Inference API
  • جزئیات سطح رایگان
  • راه‌اندازی
  • چرا از HuggingFace استفاده کنیم
  • ۴. OpenRouter
  • مدل‌های رایگان
  • راه‌اندازی
  • چرا از OpenRouter استفاده کنیم
  • ۵. Ollama (محلی)
  • راه‌اندازی
  • استفاده با API سازگار با OpenAI
  • مدل‌های توصیه‌شده برای استفاده محلی
  • چرا از Ollama استفاده کنیم
  • ۶. Google AI Studio (Gemini)
  • جزئیات سطح رایگان
  • راه‌اندازی
  • چرا از Google AI Studio استفاده کنیم
  • ۷. Cerebras
  • راه‌اندازی
  • چرا از Cerebras استفاده کنیم
  • ۸. Cloudflare Workers AI
  • جزئیات سطح رایگان
  • راه‌اندازی
  • چرا از Cloudflare Workers AI استفاده کنیم
  • نحوه انتخاب
  • کلاینت پایتون جهانی
  • نکاتی برای به حداکثر رساندن سطوح رایگان
  • جمع‌بندی
Desktop agent

Download Hypereal Agent

Run a local AI media workspace for image generation, video prompts, model selection, credit tracking, and saved artifacts.

MacWindows
v0.1.2Requires a hypereal.cloud API keyRelease manifest
Hypereal Agent desktop app screenshot

همین امروز شروع به ساخت کنید

همین حالا شروع به ساخت کنید
LogoHypereal AI
همه سیستم‌ها عادی هستند
LLM API
  • Hypereal SDK
  • MCP Server
  • Enterprise API
  • All LLM Models
  • Claude Fable 5
  • Claude Opus 4.7
  • Claude Sonnet 4.6
  • GPT-5.5
  • Claude Haiku 4.5
  • GPT-5.5 Pro
  • Gemini 3.1 Pro Preview
  • Gemini 3.5 Thinking
  • Gemini 3.5 Fast
  • DeepSeek V4 Pro
  • Kimi K2.6
  • GLM 5.2
  • Claude API in China
  • OpenAI API in China
API هوش مصنوعی
  • AI API Overview
  • Seedance 2.0 API
  • Kling 3.0 API
  • Veo 3.1 API
  • FLUX API
  • GPT Image 2 API
  • vs WaveSpeed
  • vs fal.ai
  • vs Replicate
  • vs KIE.ai
  • vs OpenRouter
  • vs Together AI
  • vs SiliconFlow
  • Midjourney Alternative
  • Higgsfield Alternative
  • OpenRouter Alternative
مدل‌های ویدیو
  • Google Veo 3.1 API
  • Kling 3.0 API
  • Kling O3 Pro API
  • Seedance 2.0 API
  • HappyHorse 1.0 API
  • WAN 2.7 API
  • WAN Video API
  • Grok Video API
  • Hunyuan Video API
  • PixVerse V6 API
  • Pika Video API
  • Luma Dream Machine API
  • MiniMax Video API
  • Vidu Video API
  • Gemini Omni Video API
مدل‌های تصویر
  • NanoBanana 2 API
  • FLUX 2 API
  • GPT Image 1 API
  • Grok Image API
  • SeeDream V5 API
  • Imagen 4 API
  • Ideogram API
  • Recraft API
  • DALL-E 3 API
  • Stable Diffusion API
  • Gemini Image API
ابزارها
  • Face Swap API
  • Video Face Swap API
  • Virtual Try-On API
  • AI Talking Avatar API
  • Lip Sync API
  • OmniHuman Avatar API
  • Tripo3D H3.1 API
  • ElevenLabs TTS API
  • Fish Audio TTS API
  • Whisper STT API
  • Lyria Music API
تولیدکننده‌ها
  • Video Agent
  • تولیدکننده تصویر هوش مصنوعی
  • تولیدکننده ویدیوی هوش مصنوعی
مجموعه‌ها
  • بهترین مدل‌های ویدیو
  • بهترین مدل‌های تصویر
  • Seedance 2.0
  • WAN 2.7
  • Qwen Image 2
  • Grok AI
  • Seedance 1.5
  • کنترل حرکت
  • تشخیص محتوا
  • تشخیص شیء
شرکت
  • درباره ما
  • مستندات
  • Hypereal SDK
  • Cookbook
  • تاریخچه تغییرات
  • وبلاگ
  • تماس با ما
  • سوالات متداول
  • نقشه راه
  • سازمانی
  • برنامه همکاری
  • Be a Creator
  • برنامه توسعه‌دهندگان
حقوقی
  • سیاست حفظ حریم خصوصی
  • شرایط خدمات
  • سیاست بازپرداخت
  • سیاست کوکی
  • قیمت‌گذاری
  • همه مدل‌ها
  • نقشه سایت
  • Status
© کپی‌رایت 2026. تمامی حقوق محفوظ است.
TwitterGitHubLinkedInYouTubeEmail