بهترین APIهای رایگان تبدیل متن به گفتار در ۲۰۲۶

فناوری تبدیل متن به گفتار (TTS) پیشرفت چشمگیری داشته است. APIهای مدرن TTS صداهایی تولید می‌کنند که تقریباً از صدای انسان واقعی قابل تشخیص نیستند، با پشتیبانی از احساسات، خروجی چندزبانه، و کلون‌سازی صدا. اما APIهای پریمیوم TTS در مقیاس بزرگ می‌توانند گران باشند.

این راهنما بهترین APIهای رایگان و freemium تبدیل متن به گفتار موجود در ۲۰۲۶ را با نمونه کد، محدودیت‌های نرخ، ارزیابی کیفیت، و توصیه‌های عملی برای موارد استفاده مختلف مقایسه می‌کند.

جدول مقایسه سریع

API	سطح رایگان	کیفیت صدا	زبان‌ها	تأخیر	کلون صدا	بهترین برای
Hypereal AI TTS	۳۵ اعتبار رایگان	عالی	۳۰+	کم	بله	اپ‌های تولیدی
Google Cloud TTS	۴ میلیون کاراکتر/ماه	خیلی خوب	۵۰+	خیلی کم	خیر	حجم بالا
OpenAI TTS	اعتبار API	عالی	۵۷	کم	خیر	گفتار طبیعی
ElevenLabs	۱۰ هزار کاراکتر/ماه	بهترین	۳۲	کم	بله (۳ کلون)	بالاترین کیفیت
Amazon Polly	۵ میلیون کاراکتر/ماه (۱۲ ماه)	خوب	۳۰+	خیلی کم	خیر	کاربران AWS
Microsoft Azure TTS	۵۰۰ هزار کاراکتر/ماه	خیلی خوب	۱۴۰+	خیلی کم	بله (محدود)	سازمانی
Fish Audio	۱۰ هزار کاراکتر/روز	خیلی خوب	۱۳	کم	بله	کلون مقرون‌به‌صرفه
Coqui/XTTS	نامحدود (self-hosted)	خوب	۱۷	متوسط	بله	self-hosted
Piper	نامحدود (محلی)	خوب	۳۰+	خیلی کم	خیر	آفلاین/edge
Mozilla TTS	نامحدود (self-hosted)	متوسط	۱۰+	متوسط	خیر	متن‌باز

۱. Hypereal AI TTS

Hypereal AI یک API تبدیل متن به گفتار با سنتز صدای باکیفیت در بیش از ۳۰ زبان ارائه می‌دهد. کاربران جدید ۳۵ اعتبار رایگان بدون نیاز به کارت اعتباری دریافت می‌کنند، که تست در سناریوهای تولیدی را آسان می‌کند. توسعه‌دهندگان ایرانی می‌توانند بدون هیچ محدودیت تحریمی از Hypereal ثبت‌نام کنند.

سطح رایگان: ۳۵ اعتبار در هنگام ثبت‌نام (بدون کارت اعتباری). اعتبارات TTS، تولید تصویر، ویدیو و سایر سرویس‌های هوش مصنوعی را پوشش می‌دهند.

ویژگی‌های کلیدی:

صداهای طبیعی با کنترل احساسات
کلون‌سازی صدا از نمونه‌های صوتی کوتاه
۳۰+ زبان با کیفیت گویشور بومی
خروجی streaming با تأخیر کم
REST API ساده

نمونه کد

import requests

response = requests.post(
    "https://api.hypereal.ai/v1/audio/speech",
    headers={
        "Authorization": "Bearer YOUR_API_KEY",
        "Content-Type": "application/json"
    },
    json={
        "text": "Welcome to our platform. Let me walk you through the key features.",
        "voice": "alloy",
        "language": "en",
        "output_format": "mp3"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

بهترین برای: توسعه‌دهندگانی که به TTS با کیفیت تولیدی همراه با کلون صدا نیاز دارند و یک API یکپارچه برای سرویس‌های مختلف هوش مصنوعی می‌خواهند.

۲. Google Cloud Text-to-Speech

Google Cloud TTS یکی از سخاوتمندانه‌ترین سطوح رایگان را ارائه می‌دهد: ۴ میلیون کاراکتر در ماه برای صداهای استاندارد و ۱ میلیون برای صداهای WaveNet/Neural2.

سطح رایگان: ۴ میلیون کاراکتر استاندارد/ماه، ۱ میلیون WaveNet/ماه، ۱ میلیون Neural2/ماه (همیشه رایگان، نه آزمایشی).

نمونه کد

from google.cloud import texttospeech

client = texttospeech.TextToSpeechClient()

synthesis_input = texttospeech.SynthesisInput(
    text="Hello, this is a test of Google Cloud Text-to-Speech."
)

voice = texttospeech.VoiceSelectionParams(
    language_code="en-US",
    name="en-US-Neural2-F",
    ssml_gender=texttospeech.SsmlVoiceGender.FEMALE,
)

audio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3
)

response = client.synthesize_speech(
    input=synthesis_input, voice=voice, audio_config=audio_config
)

with open("output.mp3", "wb") as f:
    f.write(response.audio_content)

بهترین برای: اپلیکیشن‌های پرحجمی که ماهانه به میلیون‌ها کاراکتر رایگان نیاز دارند.

۳. OpenAI TTS

API TTS از OpenAI برخی از طبیعی‌ترین گفتارهای موجود را تولید می‌کند. دو مدل ارائه می‌دهد: tts-1 برای تأخیر کم و tts-1-hd برای کیفیت بالاتر.

سطح رایگان: در اعتبار API حساب‌های جدید گنجانده شده ($5-18). سطح رایگان دائمی ندارد.

نمونه کد

from openai import OpenAI

client = OpenAI()

response = client.audio.speech.create(
    model="tts-1",
    voice="nova",  # alloy, echo, fable, onyx, nova, shimmer
    input="This is a test of OpenAI's text-to-speech API. The quality is remarkable."
)

response.stream_to_file("output.mp3")

قیمت‌گذاری بعد از اعتبار رایگان

مدل	قیمت (به ازای ۱ میلیون کاراکتر)
tts-1	$15.00
tts-1-hd	$30.00

بهترین برای: اپلیکیشن‌هایی که کیفیت گفتار طبیعی و محاوره‌ای اولویت اصلی است.

۴. ElevenLabs

ElevenLabs به طور گسترده به عنوان باکیفیت‌ترین API TTS موجود شناخته می‌شود. سطح رایگانشان محدود است اما برای تست و پروژه‌های شخصی کافی است.

سطح رایگان: ۱۰,۰۰۰ کاراکتر در ماه، ۳ کلون صدای سفارشی، دسترسی محدود به کتابخانه صدا.

نمونه کد

from elevenlabs import ElevenLabs

client = ElevenLabs(api_key="your-api-key")

audio = client.text_to_speech.convert(
    voice_id="21m00Tcm4TlvDq8ikWAM",  # Rachel voice
    text="ElevenLabs produces incredibly natural-sounding speech.",
    model_id="eleven_multilingual_v2"
)

with open("output.mp3", "wb") as f:
    for chunk in audio:
        f.write(chunk)

بهترین برای: پروژه‌هایی که کیفیت صدا مطلقاً اولویت است و استفاده کم است.

۵. Amazon Polly

Amazon Polly در ۱۲ ماه اول ۵ میلیون کاراکتر در ماه رایگان ارائه می‌دهد که برای کاربران AWS گزینه قوی‌ای است.

سطح رایگان: ۵ میلیون کاراکتر استاندارد/ماه و ۱ میلیون کاراکتر neural/ماه برای ۱۲ ماه (AWS Free Tier).

نمونه کد

import boto3

polly = boto3.client("polly", region_name="us-east-1")

response = polly.synthesize_speech(
    Text="Amazon Polly converts text into lifelike speech.",
    OutputFormat="mp3",
    VoiceId="Joanna",
    Engine="neural"
)

with open("output.mp3", "wb") as f:
    f.write(response["AudioStream"].read())

بهترین برای: اپلیکیشن‌هایی که قبلاً روی AWS اجرا می‌شوند و به TTS مقیاس‌پذیر نیاز دارند.

۶. Microsoft Azure TTS

سرویس گفتار Azure از گسترده‌ترین طیف زبان‌ها (۱۴۰+) پشتیبانی می‌کند و سطح رایگانی دارد که منقضی نمی‌شود.

سطح رایگان: ۵۰۰,۰۰۰ کاراکتر در ماه (همیشه رایگان). صداهای استاندارد و neural گنجانده شده‌اند.

نمونه کد

import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    subscription="your-azure-key",
    region="eastus"
)
speech_config.speech_synthesis_voice_name = "en-US-JennyNeural"

synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config,
    audio_config=speechsdk.audio.AudioOutputConfig(filename="output.wav")
)

result = synthesizer.speak_text_async(
    "Microsoft Azure supports over 140 languages."
).get()

بهترین برای: اپلیکیشن‌های سازمانی که به گسترده‌ترین پوشش زبانی نیاز دارند.

۷. Fish Audio

Fish Audio یک ارائه‌دهنده TTS جدیدتر است که سنتز صدای باکیفیت با کلون‌سازی را با قیمت‌های بسیار پایین‌تر از ElevenLabs ارائه می‌دهد.

سطح رایگان: ۱۰,۰۰۰ کاراکتر در روز (روزانه تجدید می‌شود).

نمونه کد

import requests

response = requests.post(
    "https://api.fish.audio/v1/tts",
    headers={
        "Authorization": "Bearer YOUR_API_KEY",
        "Content-Type": "application/json"
    },
    json={
        "text": "Fish Audio provides affordable high-quality TTS.",
        "reference_id": "voice-id-here",
        "format": "mp3"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

بهترین برای: کلون صدا با بودجه محدود و محدودیت‌های روزانه خوب.

۸. Coqui/XTTS (Self-Hosted)

XTTS یک مدل TTS متن‌باز است که از یک نمونه صوتی کوتاه پشتیبانی از کلون صدا می‌کند. چون به صورت محلی اجرا می‌شود، هیچ هزینه API یا محدودیت نرخی ندارد.

سطح رایگان: نامحدود (self-hosted). برای عملکرد معقول به GPU نیاز دارد.

نصب

# Install
pip install TTS

# List available models
tts --list_models

# Generate speech with voice cloning
tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
    --text "This is generated locally with XTTS." \
    --speaker_wav reference_audio.wav \
    --language_idx en \
    --out_path output.wav

Python API

from TTS.api import TTS

tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

tts.tts_to_file(
    text="Self-hosted TTS with voice cloning.",
    speaker_wav="reference_audio.wav",
    language="en",
    file_path="output.wav"
)

بهترین برای: پروژه‌هایی که به TTS نامحدود با کلون صدا و بدون وابستگی به API نیاز دارند.

۹. Piper (آفلاین/Edge)

Piper یک سیستم TTS سریع و محلی است که برای دستگاه‌های edge و استفاده آفلاین طراحی شده است. بدون GPU روی CPU اجرا می‌شود و برای اپلیکیشن‌های real-time سریع است.

سطح رایگان: نامحدود (به صورت محلی روی CPU اجرا می‌شود).

نصب

# Download Piper
wget https://github.com/rhasspy/piper/releases/latest/download/piper_linux_x86_64.tar.gz
tar -xzf piper_linux_x86_64.tar.gz

# Download a voice model
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/en/en_US/lessac/medium/en_US-lessac-medium.onnx
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/en/en_US/lessac/medium/en_US-lessac-medium.onnx.json

# Generate speech
echo "Piper runs locally without a GPU." | ./piper \
    --model en_US-lessac-medium.onnx \
    --output_file output.wav

بهترین برای: دستگاه‌های IoT، سیستم‌های embedded، اپلیکیشن‌های آفلاین، و موارد استفاده حساس به حریم خصوصی.

۱۰. Mozilla TTS (Self-Hosted)

Mozilla TTS یک جعبه‌ابزار TTS متن‌باز با معماری‌های مدل متعدد است. بیشتر یک جعبه‌ابزار پژوهشی است تا راه‌حل plug-and-play، اما کنترل کامل بر خط تولید TTS ارائه می‌دهد.

سطح رایگان: نامحدود (self-hosted).

pip install mozilla-tts
tts --text "Mozilla TTS is fully open source." --out_path output.wav

بهترین برای: پژوهشگران و توسعه‌دهندگانی که می‌خواهند مدل‌های TTS سفارشی را از صفر آموزش دهند.

انتخاب API رایگان TTS مناسب

مورد استفاده	API پیشنهادی
اپ تولیدی با حجم کم	Hypereal AI TTS یا Google Cloud TTS
بالاترین کیفیت صدا	ElevenLabs یا OpenAI TTS
حداکثر کاراکتر رایگان	Google Cloud TTS (۴ میلیون/ماه)
کلون صدا	Hypereal AI، ElevenLabs، یا XTTS
بیشترین زبان	Microsoft Azure TTS (۱۴۰+)
آفلاین / بدون اینترنت	Piper
Self-hosted با GPU	XTTS
زیرساخت AWS	Amazon Polly

سوالات متداول

کدام API رایگان TTS بهترین کیفیت صدا دارد؟ ElevenLabs و OpenAI طبیعی‌ترین گفتار را تولید می‌کنند. Hypereal AI TTS با مزیت کلون صدا و یک API یکپارچه برای سایر سرویس‌های هوش مصنوعی کمی پایین‌تر قرار دارد.

آیا می‌توانم از APIهای رایگان TTS در پروژه‌های تجاری استفاده کنم؟ بله، تمام APIهای فهرست‌شده استفاده تجاری در سطوح رایگانشان را مجاز می‌دانند. شرایط خدمات هر ارائه‌دهنده را برای محدودیت‌های خاص نوع محتوا بررسی کنید.

ارزان‌ترین API TTS برای حجم بالا کدام است؟ Google Cloud TTS (۴ میلیون کاراکتر رایگان/ماه) و Amazon Polly (۵ میلیون کاراکتر رایگان برای ۱۲ ماه) بیشترین حجم رایگان را ارائه می‌دهند. برای استفاده پولی، Fish Audio و Hypereal AI مقرون‌به‌صرفه‌ترین هستند.

آیا می‌توانم صدایم را به صورت رایگان کلون کنم؟ ElevenLabs (۳ کلون در سطح رایگان)، Hypereal AI (در محدوده اعتبار رایگان)، Fish Audio (در محدوده روزانه)، و XTTS (نامحدود، self-hosted) همه از کلون صدا در سطوح رایگانشان پشتیبانی می‌کنند.

جمع‌بندی

چشم‌انداز TTS در ۲۰۲۶ گزینه‌های رایگان عالی برای هر مورد استفاده ارائه می‌دهد. Google Cloud TTS در حجم پیشرو است، ElevenLabs در کیفیت، و XTTS در انعطاف self-hosted. برای توسعه‌دهندگانی که اپلیکیشن‌هایی می‌سازند که علاوه بر TTS به قابلیت‌های دیگر هوش مصنوعی نیاز دارند، رویکرد پلتفرم یکپارچه اغلب عملی‌ترین انتخاب است.

Hypereal AI را رایگان امتحان کنید — ۳۵ اعتبار، بدون نیاز به کارت اعتباری. فراتر از TTS، Hypereal APIهایی برای تولید تصویر، ساخت ویدیو، lip sync و کلون صدا از طریق یک پلتفرم واحد ارائه می‌دهد. برای توسعه‌دهندگانی که به چندین قابلیت رسانه هوش مصنوعی بدون مدیریت ارائه‌دهندگان جداگانه نیاز دارند ایده‌آل است.