Hypereal AIHypereal AI
Video StudioVideo AgentMedia APICoding LLMsMCP
Video APISeedance 2.0KlingVeo 3.1Gemini Omni VideoHappyHorse 1.0All Models →
Image APIGPT Image 2Nano BananaFLUXMidjourney AlternativeAll Models →
LLM APIClaude OpusClaude SonnetClaude FableGPT-5.5GPT-5.5 ProGemini 3 ProGemini 3.5 FastGemini 3.5 ThinkingDeepSeekAll Models →
قیمت‌گذاری
API ReferenceCookbook
EnterpriseAffiliateAboutChangelogContact

قیمت‌گذاری

بازگشت به مقالات
AILLMOpen SourceTutorial

LM Studio: راهنمای کامل استنتاج محلی LLM (۲۰۲۶)

اجرای مدل‌های هوش مصنوعی قدرتمند روی سخت‌افزار خودتان بدون وابستگی به ابر

Hypereal AI TeamHypereal AI Team
11 min read
۱۷ بهمن ۱۴۰۴
بیش از ۱۰۰ مدل هوش مصنوعی، یک API

شروع به ساخت با Hypereal AI

دسترسی به Kling, Flux, Sora, Veo و موارد دیگر از طریق یک API واحد. اعتبار رایگان برای شروع، مقیاس‌پذیری تا میلیون‌ها.

دریافت کلید API رایگانمشاهده مستندات

بدون نیاز به کارت اعتباری • بیش از ۱۰۰ هزار توسعه‌دهنده • آماده برای شرکت‌ها

LM Studio: راهنمای کامل استنتاج محلی LLM (۲۰۲۶)

LM Studio یک برنامه دسکتاپ است که به شما اجازه می‌دهد مدل‌های زبانی بزرگ را کاملاً روی سخت‌افزار محلی خود دانلود، اجرا و با آن‌ها تعامل داشته باشید. بدون وابستگی به ابر، بدون کلید API، بدون هزینه استفاده، و با حریم خصوصی کامل. داده‌های شما هرگز از دستگاه‌تان خارج نمی‌شوند.

در ۲۰۲۶، استنتاج محلی LLM به طرز شگفت‌انگیزی عملی شده است. با فرمت‌های کوانتیزه بهینه‌سازی‌شده مانند GGUF، حتی سخت‌افزار مصرفی می‌تواند مدل‌هایی اجرا کند که برای بسیاری از وظایف با APIهای ابری رقابت می‌کنند. این راهنما همه چیزی که باید درباره LM Studio بدانید را پوشش می‌دهد: نصب، انتخاب مدل، پیکربندی، بهینه‌سازی عملکرد و راه‌اندازی API.

LM Studio چیست؟

LM Studio یک برنامه دسکتاپ رایگان برای macOS، Windows و Linux است که موارد زیر را فراهم می‌کند:

  • رابط کشف و دانلود مدل (مرور Hugging Face)
  • رابط چت برای تعامل با مدل‌ها
  • سرور API محلی سازگار با OpenAI
  • مدیریت مدل (دانلود، حذف، سازمان‌دهی)
  • پارامترهای استنتاج قابل تنظیم (دما، طول زمینه، لایه‌های GPU)
  • پشتیبانی از فرمت‌های مدل کوانتیزه GGUF، MLX و دیگران

چرا مدل‌ها را به‌صورت محلی اجرا کنیم؟

مزیت جزئیات
حریم خصوصی داده‌ها هرگز از دستگاه شما خارج نمی‌شوند
بدون هزینه بدون هزینه API یا اشتراک
بدون محدودیت نرخ هر مقدار که بخواهید استفاده کنید
آفلاین پس از دانلود مدل بدون اینترنت کار می‌کند
سفارشی‌سازی کنترل کامل روی پارامترها و پرامپت‌های سیستم
سرعت بدون تأخیر شبکه (استنتاج GPU می‌تواند بسیار سریع باشد)

نیازمندی‌های سیستم

LM Studio روی طیف گسترده‌ای از سخت‌افزارها اجرا می‌شود، اما عملکرد با حافظه GPU و RAM سیستم به میزان قابل توجهی مقیاس‌پذیر است.

حداقل نیازمندی‌ها

قطعه حداقل توصیه‌شده
سیستم عامل macOS 13+، Windows 10+، Ubuntu 22.04+ آخرین نسخه
RAM 8 GB 16-32 GB
GPU لازم نیست (حالت CPU) 8+ GB VRAM
فضای ذخیره‌سازی 10 GB آزاد 50+ GB آزاد
CPU هر 64-bit Apple Silicon یا x86 مدرن

سازگاری GPU

نوع GPU پشتیبانی یادداشت‌ها
NVIDIA (CUDA) کامل بهترین عملکرد در Windows/Linux
Apple Silicon (Metal) کامل عملکرد عالی در macOS
AMD (ROCm/Vulkan) جزئی ROCm لینوکس خوب کار می‌کند، Vulkan در ویندوز
Intel Arc جزئی پشتیبانی از طریق Vulkan در حال بهبود
CPU only بله کند اما برای مدل‌های کوچک کاربردی

مرحله ۱: نصب LM Studio

macOS

# از وب‌سایت دانلود کنید
# به https://lmstudio.ai بروید و فایل .dmg را دانلود کنید

# یا از طریق Homebrew نصب کنید
brew install --cask lm-studio

Windows

نصب‌کننده را از lmstudio.ai دانلود کنید و آن را اجرا کنید. LM Studio در پوشه کاربری شما نصب می‌شود و نیازی به امتیازات مدیر ندارد.

Linux

# AppImage را از lmstudio.ai دانلود کنید
chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage

# یا از Flatpak استفاده کنید (در صورت موجود بودن)
flatpak install flathub ai.lmstudio.LMStudio

مرحله ۲: دانلود اولین مدل

پس از راه‌اندازی LM Studio، از تب Discover برای مرور و دانلود مدل‌ها استفاده کنید.

مدل‌های توصیه‌شده بر اساس سخت‌افزار (۲۰۲۶)

سخت‌افزار مدل اندازه کیفیت
8 GB RAM (CPU) Qwen 3 0.6B Q8 0.8 GB وظایف پایه
16 GB RAM (CPU) Llama 4 Scout 8B Q4_K_M 5 GB مناسب برای چت
8 GB VRAM Qwen 3 14B Q4_K_M 9 GB بسیار خوب
12 GB VRAM Qwen 3 32B Q4_K_M 19 GB عالی
16 GB VRAM Llama 4 Scout 109B Q3_K_M 14 GB عالی
24 GB VRAM (RTX 4090) DeepSeek Coder V3 Q4_K_M 18 GB نزدیک به کیفیت ابری
Apple M4 Pro 24GB Qwen 3 32B Q4_K_M 19 GB عالی
Apple M4 Max 64GB Llama 4 Maverick Q4_K_M 55 GB رقابتی با ابر

نحوه دانلود مدل

  1. به تب Discover در LM Studio بروید
  2. نام مدل را جستجو کنید (مثلاً "Qwen 3 14B")
  3. کوانتیزاسیون GGUF که می‌خواهید را انتخاب کنید (Q4_K_M پیش‌فرض خوبی است)
  4. روی Download کلیک کنید
  5. منتظر تکمیل دانلود بمانید (مدل‌ها 2 تا 60+ گیگابایت هستند)

درک کوانتیزاسیون

کوانتیزاسیون اندازه مدل و استفاده از حافظه را به هزینه کمی کیفیت کاهش می‌دهد. در اینجا راهنمایی برای سطوح رایج کوانتیزاسیون GGUF آمده است:

کوانتیزاسیون بیت اندازه در مقابل FP16 تأثیر بر کیفیت
Q2_K 2-bit ~25% کاهش کیفیت قابل توجه
Q3_K_M 3-bit ~35% کاهش کیفیت محسوس
Q4_K_M 4-bit ~45% کاهش کیفیت حداقلی (توصیه‌شده)
Q5_K_M 5-bit ~55% کاهش کیفیت بسیار جزئی
Q6_K 6-bit ~65% نزدیک به بدون اتلاف
Q8_0 8-bit ~85% عملاً بدون اتلاف
FP16 16-bit 100% کیفیت اصلی

Q4_K_M برای اکثر کاربران نقطه شیرینی است: کاهش کیفیت حداقلی با تقریباً نیمی از استفاده از حافظه مدل کامل.

مرحله ۳: چت با مدل

  1. به تب Chat بروید
  2. مدل دانلود شده خود را از منوی کشویی انتخاب کنید
  3. شروع به تایپ پیام‌ها کنید

تنظیمات مفید چت

تنظیم پیش‌فرض توصیه‌شده هدف
دما 0.7 0.1-0.3 برای کد، 0.7-0.9 برای خلاق کنترل تصادفی بودن
طول زمینه 4096 حداکثری که سخت‌افزار شما پشتیبانی می‌کند مقدار متنی که مدل به یاد می‌آورد
لایه‌های GPU خودکار همه (اگر VRAM اجازه می‌دهد) تعداد لایه‌هایی که روی GPU اجرا می‌شوند
پرامپت سیستم هیچ بر اساس کاربرد تنظیم شود رفتار مدل را راهنمایی می‌کند

مثال‌های پرامپت سیستم

برای کمک به کدنویسی:

You are an expert software developer. Write clean, well-documented code.
Always include error handling and type annotations. Prefer standard library
solutions over third-party dependencies. Explain your reasoning briefly.

برای کمک به نوشتن:

You are a professional editor. Help improve writing clarity, grammar, and
structure. Suggest specific edits rather than general advice. Maintain the
author's voice and intent.

مرحله ۴: استفاده از سرور API محلی

LM Studio شامل یک سرور API سازگار با OpenAI است. این به شما اجازه می‌دهد از مدل‌های محلی با هر ابزاری که از فرمت OpenAI API پشتیبانی می‌کند استفاده کنید — از جمله Cursor، Continue، Cline، Aider و برنامه‌های سفارشی.

راه‌اندازی سرور API

  1. به تب Developer (یا Local Server) بروید
  2. مدل خود را انتخاب کنید
  3. روی Start Server کلیک کنید
  4. سرور به طور پیش‌فرض در http://localhost:1234 اجرا می‌شود

تست API

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-14b",
    "messages": [
      {"role": "system", "content": "You are a helpful coding assistant."},
      {"role": "user", "content": "Write a Python function to flatten a nested dictionary."}
    ],
    "temperature": 0.2,
    "max_tokens": 1000
  }'

استفاده با Python

from openai import OpenAI

# اشاره به سرور محلی LM Studio
client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"  # LM Studio به کلید API نیاز ندارد
)

response = client.chat.completions.create(
    model="qwen3-14b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain how HTTP caching works."}
    ],
    temperature=0.3
)

print(response.choices[0].message.content)

اتصال به Cursor

  1. Cursor > Settings > Models را باز کنید
  2. یک مدل سفارشی اضافه کنید:
    • API Key: lm-studio (هر رشته غیر خالی)
    • Base URL: http://localhost:1234/v1
    • Model name: نام مدل بارگذاری شده شما
  3. مدل را در پنل چت یا عامل Cursor انتخاب کنید

اتصال به Continue (VS Code)

// ~/.continue/config.json
{
  "models": [
    {
      "title": "LM Studio - Qwen 3 14B",
      "provider": "openai",
      "model": "qwen3-14b",
      "apiBase": "http://localhost:1234/v1",
      "apiKey": "not-needed"
    }
  ]
}

اتصال به Aider

# استفاده از LM Studio به عنوان backend برای Aider
aider --model openai/qwen3-14b \
      --openai-api-base http://localhost:1234/v1 \
      --openai-api-key not-needed

مرحله ۵: بهینه‌سازی عملکرد

به حداکثر رساندن offloading GPU

تأثیرگذارترین تنظیم عملکرد، offloading GPU است. لایه‌های GPU را به حداکثری که VRAM شما اجازه می‌دهد تنظیم کنید:

اندازه مدل VRAM GPU مورد نیاز (Q4_K_M) سرعت تقریبی
7-8B 5-6 GB 30-60 توکن در ثانیه
14B 9-10 GB 20-40 توکن در ثانیه
32B 19-22 GB 10-25 توکن در ثانیه
70B 40-45 GB 5-15 توکن در ثانیه

طول زمینه در مقابل سرعت

پنجره‌های زمینه طولانی‌تر از حافظه بیشتری استفاده می‌کنند و استنتاج را کند می‌کنند. طول زمینه را بر اساس نیاز واقعی خود تنظیم کنید:

چت عمومی: 4096-8192 توکن
کمک به کد: 8192-16384 توکن
تحلیل سند: 16384-32768 توکن
پایگاه کد بزرگ: 32768-65536 توکن

نکات حافظه

  • برنامه‌های دیگر را ببندید تا RAM برای بارگذاری مدل آزاد شود
  • از کوانتیزاسیون Q4_K_M به عنوان پیش‌فرض استفاده کنید (بهترین نسبت کیفیت/اندازه)
  • اگر مدلی به سختی در VRAM جا می‌شود، Q3_K_M را امتحان کنید تا مقداری حافظه آزاد کنید
  • در Apple Silicon، حافظه یکپارچه یعنی RAM سیستم بین CPU و GPU مشترک است. یک Mac با 32 GB می‌تواند مدل‌هایی که به 28-30 GB نیاز دارند را کاملاً بارگذاری کند

LM Studio در مقابل Ollama

LM Studio و Ollama دو ابزار محبوب‌ترین استنتاج محلی هستند. در اینجا مقایسه‌ای از آن‌ها آمده است:

ویژگی LM Studio Ollama
رابط GUI + API CLI + API
فرمت مدل GGUF، MLX GGUF (از طریق Modelfile)
کشف مدل مرورگر داخلی ollama pull
سازگاری API سازگار با OpenAI سازگار با OpenAI
پلتفرم macOS، Windows، Linux macOS، Windows، Linux
استفاده از منابع بیشتر (برنامه Electron) کمتر (CLI)
سهولت استفاده آسان‌تر برای مبتدیان آسان‌تر برای کاربران CLI
قیمت رایگان رایگان

LM Studio را انتخاب کنید اگر رابط گرافیکی برای مرور، دانلود و مدیریت مدل‌ها را ترجیح می‌دهید. Ollama را انتخاب کنید اگر یک جریان کاری CLI-first را ترجیح می‌دهید و سربار منابع کمتری می‌خواهید.

سوالات متداول

آیا LM Studio رایگان است؟ بله، LM Studio برای استفاده شخصی کاملاً رایگان است. هیچ هزینه API، اشتراک یا محدودیت استفاده‌ای وجود ندارد.

با چه مدلی شروع کنم؟ اگر 16 GB RAM یا 8+ GB VRAM دارید، با Qwen 3 14B Q4_K_M شروع کنید. برای کدنویسی به طور خاص، DeepSeek Coder V3 یا Qwen 2.5 Coder را امتحان کنید.

آیا مدل‌های محلی می‌توانند با کیفیت API ابری برابری کنند؟ برای بسیاری از وظایف، بله. یک مدل 32B یا 70B خوب کوانتیزه شده که به‌صورت محلی اجرا می‌شود خروجی قابل مقایسه با GPT-4o برای کدنویسی، نوشتن و تحلیل تولید می‌کند. برای طلب‌کارترین وظایف، مدل‌های ابری (GPT-5، Claude Opus 4) هنوز برتری دارند.

آیا می‌توانم از LM Studio با Cursor/Cline/Aider استفاده کنم؟ بله. سرور API سازگار با OpenAI از LM Studio با هر ابزاری که از endpoint های سفارشی OpenAI پشتیبانی می‌کند کار می‌کند. به مثال‌های پیکربندی در مرحله ۴ مراجعه کنید.

آیا LM Studio به‌صورت آفلاین کار می‌کند؟ بله. پس از دانلود مدل، LM Studio کاملاً آفلاین کار می‌کند. برای استنتاج نیازی به اتصال اینترنت نیست.

به چه مقدار فضای دیسک نیاز دارم؟ مدل‌ها از 1 GB (مدل‌های کوچک 3B) تا 60+ GB (مدل‌های بزرگ 70B+) متغیر هستند. بسته به تعداد مدل‌هایی که می‌خواهید دانلود نگه دارید، ۱۰ تا ۵۰ گیگابایت برنامه‌ریزی کنید.

جمع‌بندی

LM Studio استنتاج محلی LLM را برای همه قابل دسترس می‌کند. با مدل مناسب برای سخت‌افزار خود، یک دستیار هوش مصنوعی خصوصی، رایگان و آفلاین دارید که وظایف کدنویسی، نوشتن، تحلیل و خلاق را انجام می‌دهد. سرور API سازگار با OpenAI به این معنی است که مدل‌های محلی شما به طور یکپارچه با Cursor، Aider، Continue و برنامه‌های سفارشی ادغام می‌شوند.

برای وظایفی که به توانایی‌های هوش مصنوعی سطح ابری نیاز دارند — مانند تصاویر، ویدیو و صدا تولید شده توسط هوش مصنوعی — Hypereal AI را رایگان امتحان کنید — ۳۵ کردیت، بدون نیاز به کارت اعتباری. Hypereal برای توسعه‌دهندگان ایرانی بدون محدودیت‌های تحریم در دسترس است و تولید متن محلی LM Studio را با API تولید رسانه ابری ترکیب می‌کند تا برنامه‌های هوش مصنوعی قدرتمندی بسازید.

مقالات مرتبط

DeepSeek R1 Abliterated: راهنمای مدل بدون سانسور (2026)

10 min read

بهترین مدل‌های هوش مصنوعی رایگانی که امروز می‌توانی استفاده کنی (2026)

8 min read

بهترین APIهای رایگان LLM منبع باز در ۲۰۲۶

10 min read

On this page

  • LM Studio: راهنمای کامل استنتاج محلی LLM (۲۰۲۶)
  • LM Studio چیست؟
  • چرا مدل‌ها را به‌صورت محلی اجرا کنیم؟
  • نیازمندی‌های سیستم
  • حداقل نیازمندی‌ها
  • سازگاری GPU
  • مرحله ۱: نصب LM Studio
  • macOS
  • Windows
  • Linux
  • مرحله ۲: دانلود اولین مدل
  • مدل‌های توصیه‌شده بر اساس سخت‌افزار (۲۰۲۶)
  • نحوه دانلود مدل
  • درک کوانتیزاسیون
  • مرحله ۳: چت با مدل
  • تنظیمات مفید چت
  • مثال‌های پرامپت سیستم
  • مرحله ۴: استفاده از سرور API محلی
  • راه‌اندازی سرور API
  • تست API
  • استفاده با Python
  • اتصال به Cursor
  • اتصال به Continue (VS Code)
  • اتصال به Aider
  • مرحله ۵: بهینه‌سازی عملکرد
  • به حداکثر رساندن offloading GPU
  • طول زمینه در مقابل سرعت
  • نکات حافظه
  • LM Studio در مقابل Ollama
  • سوالات متداول
  • جمع‌بندی
Desktop agent

Download Hypereal Agent

Run a local AI media workspace for image generation, video prompts, model selection, credit tracking, and saved artifacts.

MacWindows
v0.1.2Requires a hypereal.cloud API keyRelease manifest
Hypereal Agent desktop app screenshot

همین امروز شروع به ساخت کنید

همین حالا شروع به ساخت کنید
LogoHypereal AI
همه سیستم‌ها عادی هستند
LLM API
  • Hypereal SDK
  • MCP Server
  • Enterprise API
  • All LLM Models
  • Claude Fable 5
  • Claude Opus 4.7
  • Claude Sonnet 4.6
  • GPT-5.5
  • Claude Haiku 4.5
  • GPT-5.5 Pro
  • Gemini 3.1 Pro Preview
  • Gemini 3.5 Thinking
  • Gemini 3.5 Fast
  • DeepSeek V4 Pro
  • Kimi K2.6
  • GLM 5.2
  • Claude API in China
  • OpenAI API in China
API هوش مصنوعی
  • AI API Overview
  • Seedance 2.0 API
  • Kling 3.0 API
  • Veo 3.1 API
  • FLUX API
  • GPT Image 2 API
  • vs WaveSpeed
  • vs fal.ai
  • vs Replicate
  • vs KIE.ai
  • vs OpenRouter
  • vs Together AI
  • vs SiliconFlow
  • Midjourney Alternative
  • Higgsfield Alternative
  • OpenRouter Alternative
مدل‌های ویدیو
  • Google Veo 3.1 API
  • Kling 3.0 API
  • Kling O3 Pro API
  • Seedance 2.0 API
  • HappyHorse 1.0 API
  • WAN 2.7 API
  • WAN Video API
  • Grok Video API
  • Hunyuan Video API
  • PixVerse V6 API
  • Pika Video API
  • Luma Dream Machine API
  • MiniMax Video API
  • Vidu Video API
  • Gemini Omni Video API
مدل‌های تصویر
  • NanoBanana 2 API
  • FLUX 2 API
  • GPT Image 1 API
  • Grok Image API
  • SeeDream V5 API
  • Imagen 4 API
  • Ideogram API
  • Recraft API
  • DALL-E 3 API
  • Stable Diffusion API
  • Gemini Image API
ابزارها
  • Face Swap API
  • Video Face Swap API
  • Virtual Try-On API
  • AI Talking Avatar API
  • Lip Sync API
  • OmniHuman Avatar API
  • Tripo3D H3.1 API
  • ElevenLabs TTS API
  • Fish Audio TTS API
  • Whisper STT API
  • Lyria Music API
تولیدکننده‌ها
  • Video Agent
  • تولیدکننده تصویر هوش مصنوعی
  • تولیدکننده ویدیوی هوش مصنوعی
مجموعه‌ها
  • بهترین مدل‌های ویدیو
  • بهترین مدل‌های تصویر
  • Seedance 2.0
  • WAN 2.7
  • Qwen Image 2
  • Grok AI
  • Seedance 1.5
  • کنترل حرکت
  • تشخیص محتوا
  • تشخیص شیء
شرکت
  • درباره ما
  • مستندات
  • Hypereal SDK
  • Cookbook
  • تاریخچه تغییرات
  • وبلاگ
  • تماس با ما
  • سوالات متداول
  • نقشه راه
  • سازمانی
  • برنامه همکاری
  • Be a Creator
  • برنامه توسعه‌دهندگان
حقوقی
  • سیاست حفظ حریم خصوصی
  • شرایط خدمات
  • سیاست بازپرداخت
  • سیاست کوکی
  • قیمت‌گذاری
  • همه مدل‌ها
  • نقشه سایت
  • Status
© کپی‌رایت 2026. تمامی حقوق محفوظ است.
TwitterGitHubLinkedInYouTubeEmail