Voice/Speech ModelselevenlabsText-to-Speech

معرفی و مستندات مدل هوش مصنوعی eleven_turbo_v2_5

مستندات مدل eleven_turbo_v2_5 ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک مطلب فارسی قابل قبول است، اما ممکن است در تلفظ برخی کلمات و عبارات مشکل داشته باشد.

مدل eleven_turbo_v2_5 از ElevenLabs یک مدل تبدیل متن به گفتار با کیفیت بالا است که لحن طبیعی و پشتیبانی از 31 زبان را ارائه می‌دهد. این مدل تا 3 برابر سریع‌تر از مدل eleven_multilingual_v2 است. همچنین، طیف گسترده‌ای از فرمت‌های صوتی خروجی و تنظیمات کیفیت در دسترس است. این مدل با بهره‌گیری از تکنولوژی‌های پیشرفته یادگیری عمیق، قادر است متن‌های مختلف را با دقت و ظرافت به گفتار تبدیل کند. یکی از ویژگی‌های برجسته این مدل، توانایی تولید گفتار با لحن و احساسات طبیعی است که باعث می‌شود خروجی نهایی بسیار واقعی و جذاب به نظر برسد. این مدل می‌تواند برای کاربردهای مختلفی مانند تولید کتاب‌های صوتی، آموزش زبان، تولید محتوای چندرسانه‌ای، و دستیارهای صوتی استفاده شود. سرعت بالای این مدل نسبت به مدل‌های قبلی، امکان پردازش سریع‌تر و کارآمدتر متن‌ها را فراهم می‌کند. همچنین، پشتیبانی از 31 زبان مختلف، این مدل را به یک ابزار قدرتمند برای تولید محتوای چندزبانه تبدیل کرده است. تنوع فرمت‌های صوتی خروجی نیز به کاربران این امکان را می‌دهد تا فرمت مناسب برای نیازهای خود را انتخاب کنند. مدل eleven_turbo_v2_5 با ارائه کیفیت بالا، سرعت بالا، و پشتیبانی از زبان‌های مختلف، یک انتخاب عالی برای توسعه‌دهندگان و تولیدکنندگان محتوا است که به دنبال یک راه حل تبدیل متن به گفتار قدرتمند و کارآمد هستند. این مدل با استفاده از الگوریتم‌های پیشرفته، قادر است حتی پیچیده‌ترین متون را با دقت و روانی به گفتار تبدیل کند. همچنین، امکان تنظیم پارامترهای مختلف مانند سرعت، لحن، و حجم صدا، به کاربران این امکان را می‌دهد تا خروجی نهایی را به دلخواه خود تنظیم کنند. این مدل به طور مداوم در حال بهبود و توسعه است تا بتواند نیازهای روزافزون کاربران را برآورده کند. با استفاده از مدل eleven_turbo_v2_5، می‌توانید به راحتی و با کیفیت بالا، متن‌های خود را به گفتار تبدیل کنید و از آن در پروژه‌های مختلف خود استفاده کنید. این مدل با ارائه امکانات گسترده و کیفیت بالا، یک ابزار ارزشمند برای هر کسی است که به دنبال یک راه حل تبدیل متن به گفتار قدرتمند است.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تبدیل متن به گفتار. مقادیر مجاز (کلیک برای کپی):
text	stringRequired	متنی که باید به گفتار تبدیل شود.
voice	stringRequired	نام صدایی که باید استفاده شود. مقادیر مجاز (کلیک برای کپی):
apply_text_normalization	string	این پارامتر نحوه نرمال‌سازی متن را کنترل می‌کند. 'auto' به سیستم اجازه می‌دهد تصمیم بگیرد، 'on' همیشه نرمال‌سازی را اعمال می‌کند، و 'off' آن را غیرفعال می‌کند. مقادیر مجاز (کلیک برای کپی):
next_text	string	متنی که بعد از متن فعلی می‌آید. برای بهبود پیوستگی گفتار در تولیدات متوالی استفاده می‌شود.
previous_text	string	متنی که قبل از متن فعلی آمده است. برای بهبود پیوستگی گفتار در تولیدات متوالی استفاده می‌شود.
output_format	string	فرمت خروجی صوتی تولید شده. به صورت codec_sample_rate_bitrate قالب‌بندی شده است. به عنوان مثال mp3_22050_32 یک فایل MP3 با نرخ نمونه‌برداری 22.05kHz و نرخ بیت 32kbps است. مقادیر مجاز (کلیک برای کپی):
voice_settings	object	تنظیمات صدا که تنظیمات ذخیره شده برای صدای داده شده را لغو می کند. آنها فقط در درخواست داده شده اعمال می شوند.
seed	integer	اگر مشخص شود، سیستم ما تمام تلاش خود را می کند تا به طور قطعی نمونه برداری کند، به طوری که درخواست های مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند. قطعیت تضمین نمی شود.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "elevenlabs/eleven_turbo_v2_5",
        "text": '''
Cities of the future promise to radically transform how people live, work, and move.
Instead of sprawling layouts, we’ll see vertical structures that integrate residential, work, and public spaces into single, self-sustaining ecosystems.
Architecture will adapt to climate conditions, and buildings will be energy-efficient—generating power through solar panels, wind turbines, and even foot traffic.
'''
        ,
        "voice": "Nicole"
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    # result = os.path.join(os.path.dirname(__file__), "audio.wav")  # if you run this code as a .py file
    result = "audio.wav"  # if you run this code in Jupyter Notebook
    with open(result, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", result)

main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T16:41:22.222Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}