LM Studio: راهنمای کامل استنتاج محلی LLM (۲۰۲۶)

LM Studio یک برنامه دسکتاپ است که به شما اجازه می‌دهد مدل‌های زبانی بزرگ را کاملاً روی سخت‌افزار محلی خود دانلود، اجرا و با آن‌ها تعامل داشته باشید. بدون وابستگی به ابر، بدون کلید API، بدون هزینه استفاده، و با حریم خصوصی کامل. داده‌های شما هرگز از دستگاه‌تان خارج نمی‌شوند.

در ۲۰۲۶، استنتاج محلی LLM به طرز شگفت‌انگیزی عملی شده است. با فرمت‌های کوانتیزه بهینه‌سازی‌شده مانند GGUF، حتی سخت‌افزار مصرفی می‌تواند مدل‌هایی اجرا کند که برای بسیاری از وظایف با APIهای ابری رقابت می‌کنند. این راهنما همه چیزی که باید درباره LM Studio بدانید را پوشش می‌دهد: نصب، انتخاب مدل، پیکربندی، بهینه‌سازی عملکرد و راه‌اندازی API.

LM Studio چیست؟

LM Studio یک برنامه دسکتاپ رایگان برای macOS، Windows و Linux است که موارد زیر را فراهم می‌کند:

رابط کشف و دانلود مدل (مرور Hugging Face)
رابط چت برای تعامل با مدل‌ها
سرور API محلی سازگار با OpenAI
مدیریت مدل (دانلود، حذف، سازمان‌دهی)
پارامترهای استنتاج قابل تنظیم (دما، طول زمینه، لایه‌های GPU)
پشتیبانی از فرمت‌های مدل کوانتیزه GGUF، MLX و دیگران

چرا مدل‌ها را به‌صورت محلی اجرا کنیم؟

مزیت	جزئیات
حریم خصوصی	داده‌ها هرگز از دستگاه شما خارج نمی‌شوند
بدون هزینه	بدون هزینه API یا اشتراک
بدون محدودیت نرخ	هر مقدار که بخواهید استفاده کنید
آفلاین	پس از دانلود مدل بدون اینترنت کار می‌کند
سفارشی‌سازی	کنترل کامل روی پارامترها و پرامپت‌های سیستم
سرعت	بدون تأخیر شبکه (استنتاج GPU می‌تواند بسیار سریع باشد)

نیازمندی‌های سیستم

LM Studio روی طیف گسترده‌ای از سخت‌افزارها اجرا می‌شود، اما عملکرد با حافظه GPU و RAM سیستم به میزان قابل توجهی مقیاس‌پذیر است.

حداقل نیازمندی‌ها

قطعه	حداقل	توصیه‌شده
سیستم عامل	macOS 13+، Windows 10+، Ubuntu 22.04+	آخرین نسخه
RAM	8 GB	16-32 GB
GPU	لازم نیست (حالت CPU)	8+ GB VRAM
فضای ذخیره‌سازی	10 GB آزاد	50+ GB آزاد
CPU	هر 64-bit	Apple Silicon یا x86 مدرن

سازگاری GPU

نوع GPU	پشتیبانی	یادداشت‌ها
NVIDIA (CUDA)	کامل	بهترین عملکرد در Windows/Linux
Apple Silicon (Metal)	کامل	عملکرد عالی در macOS
AMD (ROCm/Vulkan)	جزئی	ROCm لینوکس خوب کار می‌کند، Vulkan در ویندوز
Intel Arc	جزئی	پشتیبانی از طریق Vulkan در حال بهبود
CPU only	بله	کند اما برای مدل‌های کوچک کاربردی

مرحله ۱: نصب LM Studio

macOS

# از وب‌سایت دانلود کنید
# به https://lmstudio.ai بروید و فایل .dmg را دانلود کنید

# یا از طریق Homebrew نصب کنید
brew install --cask lm-studio

Windows

نصب‌کننده را از lmstudio.ai دانلود کنید و آن را اجرا کنید. LM Studio در پوشه کاربری شما نصب می‌شود و نیازی به امتیازات مدیر ندارد.

Linux

# AppImage را از lmstudio.ai دانلود کنید
chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage

# یا از Flatpak استفاده کنید (در صورت موجود بودن)
flatpak install flathub ai.lmstudio.LMStudio

مرحله ۲: دانلود اولین مدل

پس از راه‌اندازی LM Studio، از تب Discover برای مرور و دانلود مدل‌ها استفاده کنید.

مدل‌های توصیه‌شده بر اساس سخت‌افزار (۲۰۲۶)

سخت‌افزار	مدل	اندازه	کیفیت
8 GB RAM (CPU)	Qwen 3 0.6B Q8	0.8 GB	وظایف پایه
16 GB RAM (CPU)	Llama 4 Scout 8B Q4_K_M	5 GB	مناسب برای چت
8 GB VRAM	Qwen 3 14B Q4_K_M	9 GB	بسیار خوب
12 GB VRAM	Qwen 3 32B Q4_K_M	19 GB	عالی
16 GB VRAM	Llama 4 Scout 109B Q3_K_M	14 GB	عالی
24 GB VRAM (RTX 4090)	DeepSeek Coder V3 Q4_K_M	18 GB	نزدیک به کیفیت ابری
Apple M4 Pro 24GB	Qwen 3 32B Q4_K_M	19 GB	عالی
Apple M4 Max 64GB	Llama 4 Maverick Q4_K_M	55 GB	رقابتی با ابر

نحوه دانلود مدل

به تب Discover در LM Studio بروید
نام مدل را جستجو کنید (مثلاً "Qwen 3 14B")
کوانتیزاسیون GGUF که می‌خواهید را انتخاب کنید (Q4_K_M پیش‌فرض خوبی است)
روی Download کلیک کنید
منتظر تکمیل دانلود بمانید (مدل‌ها 2 تا 60+ گیگابایت هستند)

درک کوانتیزاسیون

کوانتیزاسیون اندازه مدل و استفاده از حافظه را به هزینه کمی کیفیت کاهش می‌دهد. در اینجا راهنمایی برای سطوح رایج کوانتیزاسیون GGUF آمده است:

کوانتیزاسیون	بیت	اندازه در مقابل FP16	تأثیر بر کیفیت
Q2_K	2-bit	~25%	کاهش کیفیت قابل توجه
Q3_K_M	3-bit	~35%	کاهش کیفیت محسوس
Q4_K_M	4-bit	~45%	کاهش کیفیت حداقلی (توصیه‌شده)
Q5_K_M	5-bit	~55%	کاهش کیفیت بسیار جزئی
Q6_K	6-bit	~65%	نزدیک به بدون اتلاف
Q8_0	8-bit	~85%	عملاً بدون اتلاف
FP16	16-bit	100%	کیفیت اصلی

Q4_K_M برای اکثر کاربران نقطه شیرینی است: کاهش کیفیت حداقلی با تقریباً نیمی از استفاده از حافظه مدل کامل.

مرحله ۳: چت با مدل

به تب Chat بروید
مدل دانلود شده خود را از منوی کشویی انتخاب کنید
شروع به تایپ پیام‌ها کنید

تنظیمات مفید چت

تنظیم	پیش‌فرض	توصیه‌شده	هدف
دما	0.7	0.1-0.3 برای کد، 0.7-0.9 برای خلاق	کنترل تصادفی بودن
طول زمینه	4096	حداکثری که سخت‌افزار شما پشتیبانی می‌کند	مقدار متنی که مدل به یاد می‌آورد
لایه‌های GPU	خودکار	همه (اگر VRAM اجازه می‌دهد)	تعداد لایه‌هایی که روی GPU اجرا می‌شوند
پرامپت سیستم	هیچ	بر اساس کاربرد تنظیم شود	رفتار مدل را راهنمایی می‌کند

مثال‌های پرامپت سیستم

برای کمک به کدنویسی:

You are an expert software developer. Write clean, well-documented code.
Always include error handling and type annotations. Prefer standard library
solutions over third-party dependencies. Explain your reasoning briefly.

برای کمک به نوشتن:

You are a professional editor. Help improve writing clarity, grammar, and
structure. Suggest specific edits rather than general advice. Maintain the
author's voice and intent.

مرحله ۴: استفاده از سرور API محلی

LM Studio شامل یک سرور API سازگار با OpenAI است. این به شما اجازه می‌دهد از مدل‌های محلی با هر ابزاری که از فرمت OpenAI API پشتیبانی می‌کند استفاده کنید — از جمله Cursor، Continue، Cline، Aider و برنامه‌های سفارشی.

راه‌اندازی سرور API

به تب Developer (یا Local Server) بروید
مدل خود را انتخاب کنید
روی Start Server کلیک کنید
سرور به طور پیش‌فرض در http://localhost:1234 اجرا می‌شود

تست API

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-14b",
    "messages": [
      {"role": "system", "content": "You are a helpful coding assistant."},
      {"role": "user", "content": "Write a Python function to flatten a nested dictionary."}
    ],
    "temperature": 0.2,
    "max_tokens": 1000
  }'

استفاده با Python

from openai import OpenAI

# اشاره به سرور محلی LM Studio
client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"  # LM Studio به کلید API نیاز ندارد
)

response = client.chat.completions.create(
    model="qwen3-14b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain how HTTP caching works."}
    ],
    temperature=0.3
)

print(response.choices[0].message.content)

اتصال به Cursor

Cursor > Settings > Models را باز کنید
یک مدل سفارشی اضافه کنید:
- API Key: lm-studio (هر رشته غیر خالی)
- Base URL: http://localhost:1234/v1
- Model name: نام مدل بارگذاری شده شما
مدل را در پنل چت یا عامل Cursor انتخاب کنید

اتصال به Continue (VS Code)

// ~/.continue/config.json
{
  "models": [
    {
      "title": "LM Studio - Qwen 3 14B",
      "provider": "openai",
      "model": "qwen3-14b",
      "apiBase": "http://localhost:1234/v1",
      "apiKey": "not-needed"
    }
  ]
}

اتصال به Aider

# استفاده از LM Studio به عنوان backend برای Aider
aider --model openai/qwen3-14b \
      --openai-api-base http://localhost:1234/v1 \
      --openai-api-key not-needed

مرحله ۵: بهینه‌سازی عملکرد

به حداکثر رساندن offloading GPU

تأثیرگذارترین تنظیم عملکرد، offloading GPU است. لایه‌های GPU را به حداکثری که VRAM شما اجازه می‌دهد تنظیم کنید:

اندازه مدل	VRAM GPU مورد نیاز (Q4_K_M)	سرعت تقریبی
7-8B	5-6 GB	30-60 توکن در ثانیه
14B	9-10 GB	20-40 توکن در ثانیه
32B	19-22 GB	10-25 توکن در ثانیه
70B	40-45 GB	5-15 توکن در ثانیه

طول زمینه در مقابل سرعت

پنجره‌های زمینه طولانی‌تر از حافظه بیشتری استفاده می‌کنند و استنتاج را کند می‌کنند. طول زمینه را بر اساس نیاز واقعی خود تنظیم کنید:

چت عمومی: 4096-8192 توکن
کمک به کد: 8192-16384 توکن
تحلیل سند: 16384-32768 توکن
پایگاه کد بزرگ: 32768-65536 توکن

نکات حافظه

برنامه‌های دیگر را ببندید تا RAM برای بارگذاری مدل آزاد شود
از کوانتیزاسیون Q4_K_M به عنوان پیش‌فرض استفاده کنید (بهترین نسبت کیفیت/اندازه)
اگر مدلی به سختی در VRAM جا می‌شود، Q3_K_M را امتحان کنید تا مقداری حافظه آزاد کنید
در Apple Silicon، حافظه یکپارچه یعنی RAM سیستم بین CPU و GPU مشترک است. یک Mac با 32 GB می‌تواند مدل‌هایی که به 28-30 GB نیاز دارند را کاملاً بارگذاری کند

LM Studio در مقابل Ollama

LM Studio و Ollama دو ابزار محبوب‌ترین استنتاج محلی هستند. در اینجا مقایسه‌ای از آن‌ها آمده است:

ویژگی	LM Studio	Ollama
رابط	GUI + API	CLI + API
فرمت مدل	GGUF، MLX	GGUF (از طریق Modelfile)
کشف مدل	مرورگر داخلی	`ollama pull`
سازگاری API	سازگار با OpenAI	سازگار با OpenAI
پلتفرم	macOS، Windows، Linux	macOS، Windows، Linux
استفاده از منابع	بیشتر (برنامه Electron)	کمتر (CLI)
سهولت استفاده	آسان‌تر برای مبتدیان	آسان‌تر برای کاربران CLI
قیمت	رایگان	رایگان

LM Studio را انتخاب کنید اگر رابط گرافیکی برای مرور، دانلود و مدیریت مدل‌ها را ترجیح می‌دهید. Ollama را انتخاب کنید اگر یک جریان کاری CLI-first را ترجیح می‌دهید و سربار منابع کمتری می‌خواهید.

سوالات متداول

آیا LM Studio رایگان است؟ بله، LM Studio برای استفاده شخصی کاملاً رایگان است. هیچ هزینه API، اشتراک یا محدودیت استفاده‌ای وجود ندارد.

با چه مدلی شروع کنم؟ اگر 16 GB RAM یا 8+ GB VRAM دارید، با Qwen 3 14B Q4_K_M شروع کنید. برای کدنویسی به طور خاص، DeepSeek Coder V3 یا Qwen 2.5 Coder را امتحان کنید.

آیا مدل‌های محلی می‌توانند با کیفیت API ابری برابری کنند؟ برای بسیاری از وظایف، بله. یک مدل 32B یا 70B خوب کوانتیزه شده که به‌صورت محلی اجرا می‌شود خروجی قابل مقایسه با GPT-4o برای کدنویسی، نوشتن و تحلیل تولید می‌کند. برای طلب‌کارترین وظایف، مدل‌های ابری (GPT-5، Claude Opus 4) هنوز برتری دارند.

آیا می‌توانم از LM Studio با Cursor/Cline/Aider استفاده کنم؟ بله. سرور API سازگار با OpenAI از LM Studio با هر ابزاری که از endpoint های سفارشی OpenAI پشتیبانی می‌کند کار می‌کند. به مثال‌های پیکربندی در مرحله ۴ مراجعه کنید.

آیا LM Studio به‌صورت آفلاین کار می‌کند؟ بله. پس از دانلود مدل، LM Studio کاملاً آفلاین کار می‌کند. برای استنتاج نیازی به اتصال اینترنت نیست.

به چه مقدار فضای دیسک نیاز دارم؟ مدل‌ها از 1 GB (مدل‌های کوچک 3B) تا 60+ GB (مدل‌های بزرگ 70B+) متغیر هستند. بسته به تعداد مدل‌هایی که می‌خواهید دانلود نگه دارید، ۱۰ تا ۵۰ گیگابایت برنامه‌ریزی کنید.

جمع‌بندی

LM Studio استنتاج محلی LLM را برای همه قابل دسترس می‌کند. با مدل مناسب برای سخت‌افزار خود، یک دستیار هوش مصنوعی خصوصی، رایگان و آفلاین دارید که وظایف کدنویسی، نوشتن، تحلیل و خلاق را انجام می‌دهد. سرور API سازگار با OpenAI به این معنی است که مدل‌های محلی شما به طور یکپارچه با Cursor، Aider، Continue و برنامه‌های سفارشی ادغام می‌شوند.

برای وظایفی که به توانایی‌های هوش مصنوعی سطح ابری نیاز دارند — مانند تصاویر، ویدیو و صدا تولید شده توسط هوش مصنوعی — Hypereal AI را رایگان امتحان کنید — ۳۵ کردیت، بدون نیاز به کارت اعتباری. Hypereal برای توسعه‌دهندگان ایرانی بدون محدودیت‌های تحریم در دسترس است و تولید متن محلی LM Studio را با API تولید رسانه ابری ترکیب می‌کند تا برنامه‌های هوش مصنوعی قدرتمندی بسازید.