بهترین APIهای رایگان تبدیل متن به گفتار در ۲۰۲۶
مقایسه APIهای رایگان TTS با نمونه کد و جزئیات قیمتگذاری
شروع به ساخت با Hypereal AI
دسترسی به Kling, Flux, Sora, Veo و موارد دیگر از طریق یک API واحد. اعتبار رایگان برای شروع، مقیاسپذیری تا میلیونها.
بدون نیاز به کارت اعتباری • بیش از ۱۰۰ هزار توسعهدهنده • آماده برای شرکتها
بهترین APIهای رایگان تبدیل متن به گفتار در ۲۰۲۶
فناوری تبدیل متن به گفتار (TTS) پیشرفت چشمگیری داشته است. APIهای مدرن TTS صداهایی تولید میکنند که تقریباً از صدای انسان واقعی قابل تشخیص نیستند، با پشتیبانی از احساسات، خروجی چندزبانه، و کلونسازی صدا. اما APIهای پریمیوم TTS در مقیاس بزرگ میتوانند گران باشند.
این راهنما بهترین APIهای رایگان و freemium تبدیل متن به گفتار موجود در ۲۰۲۶ را با نمونه کد، محدودیتهای نرخ، ارزیابی کیفیت، و توصیههای عملی برای موارد استفاده مختلف مقایسه میکند.
جدول مقایسه سریع
| API | سطح رایگان | کیفیت صدا | زبانها | تأخیر | کلون صدا | بهترین برای |
|---|---|---|---|---|---|---|
| Hypereal AI TTS | ۳۵ اعتبار رایگان | عالی | ۳۰+ | کم | بله | اپهای تولیدی |
| Google Cloud TTS | ۴ میلیون کاراکتر/ماه | خیلی خوب | ۵۰+ | خیلی کم | خیر | حجم بالا |
| OpenAI TTS | اعتبار API | عالی | ۵۷ | کم | خیر | گفتار طبیعی |
| ElevenLabs | ۱۰ هزار کاراکتر/ماه | بهترین | ۳۲ | کم | بله (۳ کلون) | بالاترین کیفیت |
| Amazon Polly | ۵ میلیون کاراکتر/ماه (۱۲ ماه) | خوب | ۳۰+ | خیلی کم | خیر | کاربران AWS |
| Microsoft Azure TTS | ۵۰۰ هزار کاراکتر/ماه | خیلی خوب | ۱۴۰+ | خیلی کم | بله (محدود) | سازمانی |
| Fish Audio | ۱۰ هزار کاراکتر/روز | خیلی خوب | ۱۳ | کم | بله | کلون مقرونبهصرفه |
| Coqui/XTTS | نامحدود (self-hosted) | خوب | ۱۷ | متوسط | بله | self-hosted |
| Piper | نامحدود (محلی) | خوب | ۳۰+ | خیلی کم | خیر | آفلاین/edge |
| Mozilla TTS | نامحدود (self-hosted) | متوسط | ۱۰+ | متوسط | خیر | متنباز |
۱. Hypereal AI TTS
Hypereal AI یک API تبدیل متن به گفتار با سنتز صدای باکیفیت در بیش از ۳۰ زبان ارائه میدهد. کاربران جدید ۳۵ اعتبار رایگان بدون نیاز به کارت اعتباری دریافت میکنند، که تست در سناریوهای تولیدی را آسان میکند. توسعهدهندگان ایرانی میتوانند بدون هیچ محدودیت تحریمی از Hypereal ثبتنام کنند.
سطح رایگان: ۳۵ اعتبار در هنگام ثبتنام (بدون کارت اعتباری). اعتبارات TTS، تولید تصویر، ویدیو و سایر سرویسهای هوش مصنوعی را پوشش میدهند.
ویژگیهای کلیدی:
- صداهای طبیعی با کنترل احساسات
- کلونسازی صدا از نمونههای صوتی کوتاه
- ۳۰+ زبان با کیفیت گویشور بومی
- خروجی streaming با تأخیر کم
- REST API ساده
نمونه کد
import requests
response = requests.post(
"https://api.hypereal.ai/v1/audio/speech",
headers={
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
},
json={
"text": "Welcome to our platform. Let me walk you through the key features.",
"voice": "alloy",
"language": "en",
"output_format": "mp3"
}
)
with open("output.mp3", "wb") as f:
f.write(response.content)
بهترین برای: توسعهدهندگانی که به TTS با کیفیت تولیدی همراه با کلون صدا نیاز دارند و یک API یکپارچه برای سرویسهای مختلف هوش مصنوعی میخواهند.
۲. Google Cloud Text-to-Speech
Google Cloud TTS یکی از سخاوتمندانهترین سطوح رایگان را ارائه میدهد: ۴ میلیون کاراکتر در ماه برای صداهای استاندارد و ۱ میلیون برای صداهای WaveNet/Neural2.
سطح رایگان: ۴ میلیون کاراکتر استاندارد/ماه، ۱ میلیون WaveNet/ماه، ۱ میلیون Neural2/ماه (همیشه رایگان، نه آزمایشی).
نمونه کد
from google.cloud import texttospeech
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(
text="Hello, this is a test of Google Cloud Text-to-Speech."
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="en-US-Neural2-F",
ssml_gender=texttospeech.SsmlVoiceGender.FEMALE,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open("output.mp3", "wb") as f:
f.write(response.audio_content)
بهترین برای: اپلیکیشنهای پرحجمی که ماهانه به میلیونها کاراکتر رایگان نیاز دارند.
۳. OpenAI TTS
API TTS از OpenAI برخی از طبیعیترین گفتارهای موجود را تولید میکند. دو مدل ارائه میدهد: tts-1 برای تأخیر کم و tts-1-hd برای کیفیت بالاتر.
سطح رایگان: در اعتبار API حسابهای جدید گنجانده شده ($5-18). سطح رایگان دائمی ندارد.
نمونه کد
from openai import OpenAI
client = OpenAI()
response = client.audio.speech.create(
model="tts-1",
voice="nova", # alloy, echo, fable, onyx, nova, shimmer
input="This is a test of OpenAI's text-to-speech API. The quality is remarkable."
)
response.stream_to_file("output.mp3")
قیمتگذاری بعد از اعتبار رایگان
| مدل | قیمت (به ازای ۱ میلیون کاراکتر) |
|---|---|
| tts-1 | $15.00 |
| tts-1-hd | $30.00 |
بهترین برای: اپلیکیشنهایی که کیفیت گفتار طبیعی و محاورهای اولویت اصلی است.
۴. ElevenLabs
ElevenLabs به طور گسترده به عنوان باکیفیتترین API TTS موجود شناخته میشود. سطح رایگانشان محدود است اما برای تست و پروژههای شخصی کافی است.
سطح رایگان: ۱۰,۰۰۰ کاراکتر در ماه، ۳ کلون صدای سفارشی، دسترسی محدود به کتابخانه صدا.
نمونه کد
from elevenlabs import ElevenLabs
client = ElevenLabs(api_key="your-api-key")
audio = client.text_to_speech.convert(
voice_id="21m00Tcm4TlvDq8ikWAM", # Rachel voice
text="ElevenLabs produces incredibly natural-sounding speech.",
model_id="eleven_multilingual_v2"
)
with open("output.mp3", "wb") as f:
for chunk in audio:
f.write(chunk)
بهترین برای: پروژههایی که کیفیت صدا مطلقاً اولویت است و استفاده کم است.
۵. Amazon Polly
Amazon Polly در ۱۲ ماه اول ۵ میلیون کاراکتر در ماه رایگان ارائه میدهد که برای کاربران AWS گزینه قویای است.
سطح رایگان: ۵ میلیون کاراکتر استاندارد/ماه و ۱ میلیون کاراکتر neural/ماه برای ۱۲ ماه (AWS Free Tier).
نمونه کد
import boto3
polly = boto3.client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
Text="Amazon Polly converts text into lifelike speech.",
OutputFormat="mp3",
VoiceId="Joanna",
Engine="neural"
)
with open("output.mp3", "wb") as f:
f.write(response["AudioStream"].read())
بهترین برای: اپلیکیشنهایی که قبلاً روی AWS اجرا میشوند و به TTS مقیاسپذیر نیاز دارند.
۶. Microsoft Azure TTS
سرویس گفتار Azure از گستردهترین طیف زبانها (۱۴۰+) پشتیبانی میکند و سطح رایگانی دارد که منقضی نمیشود.
سطح رایگان: ۵۰۰,۰۰۰ کاراکتر در ماه (همیشه رایگان). صداهای استاندارد و neural گنجانده شدهاند.
نمونه کد
import azure.cognitiveservices.speech as speechsdk
speech_config = speechsdk.SpeechConfig(
subscription="your-azure-key",
region="eastus"
)
speech_config.speech_synthesis_voice_name = "en-US-JennyNeural"
synthesizer = speechsdk.SpeechSynthesizer(
speech_config=speech_config,
audio_config=speechsdk.audio.AudioOutputConfig(filename="output.wav")
)
result = synthesizer.speak_text_async(
"Microsoft Azure supports over 140 languages."
).get()
بهترین برای: اپلیکیشنهای سازمانی که به گستردهترین پوشش زبانی نیاز دارند.
۷. Fish Audio
Fish Audio یک ارائهدهنده TTS جدیدتر است که سنتز صدای باکیفیت با کلونسازی را با قیمتهای بسیار پایینتر از ElevenLabs ارائه میدهد.
سطح رایگان: ۱۰,۰۰۰ کاراکتر در روز (روزانه تجدید میشود).
نمونه کد
import requests
response = requests.post(
"https://api.fish.audio/v1/tts",
headers={
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
},
json={
"text": "Fish Audio provides affordable high-quality TTS.",
"reference_id": "voice-id-here",
"format": "mp3"
}
)
with open("output.mp3", "wb") as f:
f.write(response.content)
بهترین برای: کلون صدا با بودجه محدود و محدودیتهای روزانه خوب.
۸. Coqui/XTTS (Self-Hosted)
XTTS یک مدل TTS متنباز است که از یک نمونه صوتی کوتاه پشتیبانی از کلون صدا میکند. چون به صورت محلی اجرا میشود، هیچ هزینه API یا محدودیت نرخی ندارد.
سطح رایگان: نامحدود (self-hosted). برای عملکرد معقول به GPU نیاز دارد.
نصب
# Install
pip install TTS
# List available models
tts --list_models
# Generate speech with voice cloning
tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
--text "This is generated locally with XTTS." \
--speaker_wav reference_audio.wav \
--language_idx en \
--out_path output.wav
Python API
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
tts.tts_to_file(
text="Self-hosted TTS with voice cloning.",
speaker_wav="reference_audio.wav",
language="en",
file_path="output.wav"
)
بهترین برای: پروژههایی که به TTS نامحدود با کلون صدا و بدون وابستگی به API نیاز دارند.
۹. Piper (آفلاین/Edge)
Piper یک سیستم TTS سریع و محلی است که برای دستگاههای edge و استفاده آفلاین طراحی شده است. بدون GPU روی CPU اجرا میشود و برای اپلیکیشنهای real-time سریع است.
سطح رایگان: نامحدود (به صورت محلی روی CPU اجرا میشود).
نصب
# Download Piper
wget https://github.com/rhasspy/piper/releases/latest/download/piper_linux_x86_64.tar.gz
tar -xzf piper_linux_x86_64.tar.gz
# Download a voice model
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/en/en_US/lessac/medium/en_US-lessac-medium.onnx
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/en/en_US/lessac/medium/en_US-lessac-medium.onnx.json
# Generate speech
echo "Piper runs locally without a GPU." | ./piper \
--model en_US-lessac-medium.onnx \
--output_file output.wav
بهترین برای: دستگاههای IoT، سیستمهای embedded، اپلیکیشنهای آفلاین، و موارد استفاده حساس به حریم خصوصی.
۱۰. Mozilla TTS (Self-Hosted)
Mozilla TTS یک جعبهابزار TTS متنباز با معماریهای مدل متعدد است. بیشتر یک جعبهابزار پژوهشی است تا راهحل plug-and-play، اما کنترل کامل بر خط تولید TTS ارائه میدهد.
سطح رایگان: نامحدود (self-hosted).
pip install mozilla-tts
tts --text "Mozilla TTS is fully open source." --out_path output.wav
بهترین برای: پژوهشگران و توسعهدهندگانی که میخواهند مدلهای TTS سفارشی را از صفر آموزش دهند.
انتخاب API رایگان TTS مناسب
| مورد استفاده | API پیشنهادی |
|---|---|
| اپ تولیدی با حجم کم | Hypereal AI TTS یا Google Cloud TTS |
| بالاترین کیفیت صدا | ElevenLabs یا OpenAI TTS |
| حداکثر کاراکتر رایگان | Google Cloud TTS (۴ میلیون/ماه) |
| کلون صدا | Hypereal AI، ElevenLabs، یا XTTS |
| بیشترین زبان | Microsoft Azure TTS (۱۴۰+) |
| آفلاین / بدون اینترنت | Piper |
| Self-hosted با GPU | XTTS |
| زیرساخت AWS | Amazon Polly |
سوالات متداول
کدام API رایگان TTS بهترین کیفیت صدا دارد؟ ElevenLabs و OpenAI طبیعیترین گفتار را تولید میکنند. Hypereal AI TTS با مزیت کلون صدا و یک API یکپارچه برای سایر سرویسهای هوش مصنوعی کمی پایینتر قرار دارد.
آیا میتوانم از APIهای رایگان TTS در پروژههای تجاری استفاده کنم؟ بله، تمام APIهای فهرستشده استفاده تجاری در سطوح رایگانشان را مجاز میدانند. شرایط خدمات هر ارائهدهنده را برای محدودیتهای خاص نوع محتوا بررسی کنید.
ارزانترین API TTS برای حجم بالا کدام است؟ Google Cloud TTS (۴ میلیون کاراکتر رایگان/ماه) و Amazon Polly (۵ میلیون کاراکتر رایگان برای ۱۲ ماه) بیشترین حجم رایگان را ارائه میدهند. برای استفاده پولی، Fish Audio و Hypereal AI مقرونبهصرفهترین هستند.
آیا میتوانم صدایم را به صورت رایگان کلون کنم؟ ElevenLabs (۳ کلون در سطح رایگان)، Hypereal AI (در محدوده اعتبار رایگان)، Fish Audio (در محدوده روزانه)، و XTTS (نامحدود، self-hosted) همه از کلون صدا در سطوح رایگانشان پشتیبانی میکنند.
جمعبندی
چشمانداز TTS در ۲۰۲۶ گزینههای رایگان عالی برای هر مورد استفاده ارائه میدهد. Google Cloud TTS در حجم پیشرو است، ElevenLabs در کیفیت، و XTTS در انعطاف self-hosted. برای توسعهدهندگانی که اپلیکیشنهایی میسازند که علاوه بر TTS به قابلیتهای دیگر هوش مصنوعی نیاز دارند، رویکرد پلتفرم یکپارچه اغلب عملیترین انتخاب است.
Hypereal AI را رایگان امتحان کنید — ۳۵ اعتبار، بدون نیاز به کارت اعتباری. فراتر از TTS، Hypereal APIهایی برای تولید تصویر، ساخت ویدیو، lip sync و کلون صدا از طریق یک پلتفرم واحد ارائه میدهد. برای توسعهدهندگانی که به چندین قابلیت رسانه هوش مصنوعی بدون مدیریت ارائهدهندگان جداگانه نیاز دارند ایدهآل است.
مقالات مرتبط
Download Hypereal Agent
Run a local AI media workspace for image generation, video prompts, model selection, credit tracking, and saved artifacts.


