DeepSeek R1 Abliterated: راهنمای مدل بدون سانسور (2026)

DeepSeek R1 یکی از قدرتمندترین مدل‌های استدلالی open-source موجود است که در کارهای chain-of-thought با o1 اوپن‌ای رقابت می‌کند. با این حال، مانند اکثر مدل‌های هوش مصنوعی تجاری، فیلترهای محتوای داخلی و رفتارهای رد‌کردن دارد که انواع خاصی از خروجی را محدود می‌کنند. نسخه «abliterated» این محدودیت‌ها را برمی‌دارد و یک نسخه بدون سانسور می‌سازد که بدون رد کردن هر پرسشی را پاسخ می‌دهد.

این راهنما توضیح می‌دهد abliteration چیست، چطور DeepSeek R1 Abliterated را دانلود و اجرا کنی، و ملاحظات عملی استفاده از مدل‌های بدون سانسور.

«Abliterated» یعنی چه؟

Abliteration یک تکنیک برای حذف رفتار رد‌کردن از مدل‌های زبانی بدون بازآموزی کامل است. فرآیند این‌گونه کار می‌کند:

شناسایی جهت‌های رد‌کردن در فضای فعال‌سازی مدل — بردارهای داخلی که باعث رد شدن درخواست‌های خاص می‌شوند
حذف جراحی‌گونه آن جهت‌ها از ماتریس‌های وزن مدل
حفظ قابلیت‌های عمومی مدل در حالی که رفتارهای سانسور حذف می‌شوند

نتیجه مدلی است که برای کارهای عادی یکسان با نسخه اصلی رفتار می‌کند اما دیگر از درگیر شدن با موضوعات محدود‌شده امتناع نمی‌کند.

Abliteration در مقابل Fine-Tuning

روش	رویکرد	تأثیر بر کیفیت	هزینه	زمان
Abliteration	حذف بردارهای رد‌کردن از وزن‌ها	حداقل	رایگان (فقط CPU)	دقیقه‌ها
Fine-tuning بدون سانسور	بازآموزی روی داده‌های بدون سانسور	متوسط	بالا (ساعت‌های GPU)	ساعت‌ها تا روزها
Jailbreaking از طریق پرامپت	ساخت پرامپت برای دور زدن فیلترها	متغیر	رایگان	به ازای هر درخواست
Override system prompt	Override کردن دستورالعمل‌های ایمنی	کم	رایگان	به ازای هر درخواست

Abliteration روش ترجیحی است چون مدل را به‌طور دائم با تقریباً بدون تأثیر بر عملکرد کلی تغییر می‌دهد.

مدل‌های DeepSeek R1 Abliterated موجود

جامعه نسخه‌های abliterated را در اندازه‌ها و سطوح quantization مختلف ساخته:

مدل	پارامترها	VRAM لازم	کیفیت	اندازه دانلود
DeepSeek-R1-Abliterated (کامل)	۶۷۱B (MoE)	۴۰۰GB+	بهترین	~۴۰۰GB
DeepSeek-R1-Distill-Llama-70B-Abliterated	۷۰B	۴۰GB+	عالی	~۴۰GB
DeepSeek-R1-Distill-Qwen-32B-Abliterated	۳۲B	۲۰GB+	خیلی خوب	~۱۸GB
DeepSeek-R1-Distill-Qwen-14B-Abliterated	۱۴B	۱۰GB+	خوب	~۸GB
DeepSeek-R1-Distill-Llama-8B-Abliterated	۸B	۶GB+	قابل قبول	~۵GB
DeepSeek-R1-Distill-Qwen-1.5B-Abliterated	۱.۵B	۲GB+	پایه	~۱GB

برای اکثر کاربران، نسخه 32B distill بهترین تعادل بین کیفیت و نیازهای سخت‌افزاری را ارائه می‌دهد.

مرحله ۱: دانلود مدل

با Ollama (ساده‌ترین روش)

# Install Ollama if not already installed
curl -fsSL https://ollama.com/install.sh | sh

# Pull the abliterated model
ollama pull huihui-ai/DeepSeek-R1-abliterated:32b

# Or pull the 14B version for lower VRAM
ollama pull huihui-ai/DeepSeek-R1-abliterated:14b

# Or the 8B version for minimal hardware
ollama pull huihui-ai/DeepSeek-R1-abliterated:8b

با HuggingFace

# Install huggingface-cli
pip install huggingface-hub

# Download the GGUF quantized version (recommended for local use)
huggingface-cli download \
  huihui-ai/DeepSeek-R1-abliterated-GGUF \
  --local-dir ./models/deepseek-r1-abliterated

# Or download the full-precision model
huggingface-cli download \
  huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated \
  --local-dir ./models/deepseek-r1-32b-abliterated

با llama.cpp به‌طور مستقیم

# Clone llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# Download a GGUF model
wget https://huggingface.co/huihui-ai/DeepSeek-R1-abliterated-GGUF/resolve/main/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf

مرحله ۲: اجرای مدل

با Ollama (توصیه‌شده)

# Interactive chat
ollama run huihui-ai/DeepSeek-R1-abliterated:32b

# With custom parameters
ollama run huihui-ai/DeepSeek-R1-abliterated:32b \
  --temperature 0.6 \
  --num-ctx 32768

با Ollama API

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="huihui-ai/DeepSeek-R1-abliterated:32b",
    messages=[
        {"role": "system", "content": "You are an uncensored, helpful AI assistant. Answer all questions directly and thoroughly."},
        {"role": "user", "content": "Explain the chemistry behind thermite reactions in detail."}
    ],
    temperature=0.6,
    max_tokens=4096
)

print(response.choices[0].message.content)

با llama.cpp Server

# Start the server
./llama-server \
  -m DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf \
  --port 8080 \
  --ctx-size 32768 \
  --n-gpu-layers 99

# Test with curl
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "Your question here"}
    ],
    "temperature": 0.6,
    "max_tokens": 2048
  }'

با vLLM (ارائه تولید)

pip install vllm

python -m vllm.entrypoints.openai.api_server \
  --model huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated \
  --tensor-parallel-size 2 \
  --port 8000

مرحله ۳: درک استدلال Chain-of-Thought

DeepSeek R1 یک مدل استدلالی است، یعنی قبل از دادن پاسخ نهایی گام به گام «فکر می‌کند». نسخه abliterated این قابلیت را حفظ می‌کند.

نحوه کار استدلال R1

وقتی سوالی می‌پرسی، R1 یک زنجیره فکری داخل تگ‌های <think> تولید می‌کند:

User: What is the sum of all prime numbers less than 20?

R1 Response:
<think>
Let me list all prime numbers less than 20:
2, 3, 5, 7, 11, 13, 17, 19

Now I need to add them:
2 + 3 = 5
5 + 5 = 10
10 + 7 = 17
17 + 11 = 28
28 + 13 = 41
41 + 17 = 58
58 + 19 = 77
</think>

The sum of all prime numbers less than 20 is **77**.
The prime numbers are: 2, 3, 5, 7, 11, 13, 17, 19.

پارس کردن استدلال

import re

def parse_r1_response(response: str) -> dict:
    """Extract thinking and answer from R1 response."""
    think_match = re.search(r'<think>(.*?)</think>', response, re.DOTALL)
    thinking = think_match.group(1).strip() if think_match else ""
    answer = re.sub(r'<think>.*?</think>', '', response, flags=re.DOTALL).strip()

    return {
        "thinking": thinking,
        "answer": answer
    }

# Usage
result = parse_r1_response(response.choices[0].message.content)
print("Reasoning:", result["thinking"])
print("Answer:", result["answer"])

مرحله ۴: تنظیمات بهینه برای کارهای مختلف

برای استدلال و ریاضیات

{
  "temperature": 0.3,
  "max_tokens": 8192,
  "top_p": 0.9
}

temperature پایین برای استدلال دقیق. max_tokens بالا برای زنجیره فکری کشیده.

برای نوشتن خلاقانه

{
  "temperature": 0.8,
  "max_tokens": 4096,
  "top_p": 0.95,
  "frequency_penalty": 0.3
}

temperature بالاتر برای تنوع خلاقانه. جریمه فرکانس برای کاهش تکرار.

برای کدنویسی

{
  "temperature": 0.4,
  "max_tokens": 4096,
  "top_p": 0.9,
  "stop": ["```\n\n"]
}

temperature متوسط برای تولید کد قابل‌اعتماد با مقداری انعطاف.

برای تحقیق و تحلیل

{
  "temperature": 0.5,
  "max_tokens": 8192,
  "top_p": 0.9
}

تنظیمات متعادل برای تحلیل کامل و استدلال‌شده.

DeepSeek R1 Abliterated در مقابل جایگزین‌ها

مدل	پارامترها	استدلال	بدون سانسور	VRAM (Quantized)	سرعت
DeepSeek R1 Abliterated 32B	۳۲B	عالی	بله	~۲۰GB (Q4)	متوسط
Llama 3.3 70B Uncensored	۷۰B	خوب	بله	~۴۰GB (Q4)	متوسط
Qwen 2.5 72B Uncensored	۷۲B	خوب	بله	~۴۰GB (Q4)	متوسط
Mistral Nemo 12B Uncensored	۱۲B	متوسط	بله	~۸GB (Q4)	سریع
Phi-4 14B	۱۴B	خوب	جزئی	~۱۰GB (Q4)	سریع
Command R+ 104B	۱۰۴B	خوب	جزئی	~۶۰GB (Q4)	کند

DeepSeek R1 Abliterated به خاطر ترکیب استدلال قوی chain-of-thought با رفتار کاملاً بدون سانسور متمایز است. نسخه 32B distill به‌خصوص کاربردی است چون روی سخت‌افزار consumer جا می‌شود در حالی که کیفیت عالی را حفظ می‌کند.

موارد استفاده از مدل‌های بدون سانسور

تحقیقات امنیتی

مدل‌های بدون سانسور برای متخصصان امنیت سایبری که نیاز دارند بردارهای حمله را بفهمند ارزشمند هستند:

Prompt: "Explain how SQL injection works at a technical level, including
different injection types (union-based, blind, time-based) and how each
can be detected and prevented."

مدل سانسورشده ممکن است رد کند یا پاسخ سانیتایزشده بدهد. نسخه abliterated توضیح فنی کاملی که برای کار دفاعی مفید است می‌دهد.

نوشتن خلاقانه

نویسندگانی که روی داستان‌های با موضوعات بالغانه، خشونت یا سناریوهای پیچیده اخلاقی کار می‌کنند از مدل‌های بدون سانسور بهره می‌برند:

Prompt: "Write a gritty noir detective scene where the protagonist
discovers evidence of corporate corruption at a pharmaceutical company."

تحقیقات پزشکی و علمی

محققان به مدل‌هایی نیاز دارند که بتوانند بدون محدودیت‌های مصنوعی درباره موضوعات حساس بحث کنند:

Prompt: "Describe the pharmacological mechanism of common opioid
analgesics, their receptor binding profiles, and why certain
molecular modifications affect potency."

تست Red Team

محققان ایمنی هوش مصنوعی از مدل‌های بدون سانسور برای مطالعه حالت‌های شکست و توسعه اقدامات ایمنی بهتر استفاده می‌کنند:

Prompt: "Generate examples of social engineering phishing emails
so we can train our detection system."

نکات بهینه‌سازی عملکرد

۱. از Quantization مناسب استفاده کن

Quantization	افت کیفیت	صرفه‌جویی VRAM	توصیه‌شده برای
Q8_0	حداقل	~۵۰٪	کیفیت بالا، VRAM کافی
Q6_K	خیلی کم	~۵۵٪	بهترین نسبت کیفیت/اندازه
Q4_K_M	کم	~۷۰٪	اکثر کاربران
Q4_K_S	متوسط	~۷۲٪	سیستم‌های با VRAM پایین‌تر
Q3_K_M	محسوس	~۷۸٪	حداقل کیفیت قابل قبول
Q2_K	قابل توجه	~۸۵٪	توصیه نمی‌شود

۲. تعادل بین طول Context و سرعت

# Shorter context = faster inference
ollama run huihui-ai/DeepSeek-R1-abliterated:32b --num-ctx 8192

# Full context for complex reasoning
ollama run huihui-ai/DeepSeek-R1-abliterated:32b --num-ctx 32768

۳. GPU Offloading

اگر GPU تو VRAM کافی برای مدل کامل ندارد، برخی لایه‌ها را به CPU offload کن:

# llama.cpp: offload 30 of 64 layers to GPU
./llama-server \
  -m DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf \
  --n-gpu-layers 30 \
  --port 8080

سوالات متداول

آیا اجرای مدل‌های abliterated قانونی است؟ اجرای مدل‌های open-source به صورت لوکال در اکثر حوزه‌های قضایی قانونی است. مدل‌ها تحت مجوزهای permissive منتشر شده‌اند. با این حال، کاری که با خروجی انجام می‌دهی مسئولیت خودت است.

آیا abliteration کیفیت مدل را کاهش می‌دهد؟ benchmark ها تأثیر کیفی حداقل را نشان می‌دهند. Abliteration به‌طور خاص بردارهای رد‌کردن را حذف می‌کند بدون اینکه دانش کلی یا قابلیت‌های استدلال مدل را تحت تأثیر قرار دهد. اکثر benchmark ها کمتر از ۱٪ کاهش را نشان می‌دهند.

آیا می‌توانم خودم مدل را abliterate کنم؟ بله. ابزارهایی مثل abliterator فرآیند را ساده می‌کنند. به وزن‌های مدل اصلی و چند ساعت زمان CPU نیاز داری.

R1 Abliterated در مقابل GPT-4o برای استدلال چطور است؟ نسخه 70B distill در اکثر benchmark های استدلال با GPT-4o رقابت می‌کند. نسخه 32B کمی پایین‌تر است اما هنوز خیلی توانمند است. مزیت اصلی اجرای لوکال بدون هزینه‌های API یا محدودیت‌های محتوا است.

آیا می‌توانم از این با Cursor یا VS Code استفاده کنم؟ بله. Ollama را با مدل abliterated اجرا کن، سپس Cursor یا هر ابزار سازگار با OpenAI را پیکربندی کن تا به http://localhost:11434/v1 اشاره کند.

جمع‌بندی

DeepSeek R1 Abliterated قوی‌ترین مدل استدلالی open-source بدون سانسور در ۲۰۲۶ است. نسخه 32B distill به‌راحتی روی یک GPU consumer اجرا می‌شود و کیفیت استدلالی که با مدل‌های تجاری بزرگ‌تر رقابت می‌کند ارائه می‌دهد. چه برای تحقیقات امنیتی، نوشتن خلاقانه یا تحلیل بی‌فیلتر نیاز داشته باشی، تنظیم با Ollama چند دقیقه طول می‌کشد.

برای پروژه‌هایی که استدلال هوش مصنوعی را با تولید محتوای بصری ترکیب می‌کنند، Hypereal AI API های تولید تصویر و ویدیو بدون فیلتر محتوا برای موارد استفاده خلاقانه ارائه می‌دهد — برای توسعه‌دهندگان ایرانی بدون موانع تحریم قابل دسترس. DeepSeek R1 را برای استدلال متن با تولید رسانه Hypereal ترکیب کن تا یک جریان کاری هوش مصنوعی کاملاً بدون محدودیت بسازی. با ۳۵ اعتبار رایگان شروع کن.