Voice/Speech ModelselevenlabsText-to-Speech

معرفی و مستندات مدل هوش مصنوعی eleven_multilingual_v2

مستندات مدل eleven_multilingual_v2 از ElevenLabs، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. تلفظ‌ها ممکن است کامل و بدون نقص نباشند، اما قابل فهم است.

مدل eleven_multilingual_v2 از ElevenLabs یک مدل تبدیل متن به گفتار با کیفیت بالا است که لحن طبیعی و پشتیبانی از 29 زبان مختلف را ارائه می‌دهد. این مدل با ارائه طیف گسترده‌ای از فرمت‌های صوتی خروجی و تنظیمات کیفیت، امکان تولید صداهای متنوع و با کیفیت را فراهم می‌کند. این مدل به کاربران اجازه می‌دهد تا متن خود را به گفتاری طبیعی و رسا تبدیل کنند و از آن در کاربردهای مختلفی مانند تولید محتوای صوتی، آموزش زبان، و برنامه‌های کاربردی تعاملی استفاده کنند.

یکی از ویژگی‌های برجسته این مدل، پشتیبانی از زبان‌های متعدد است که به کاربران امکان می‌دهد تا محتوای خود را به زبان‌های مختلف تولید کنند و به مخاطبان گسترده‌تری دسترسی پیدا کنند. این مدل با استفاده از الگوریتم‌های پیشرفته، قادر است لحن و آهنگ صدا را به طور طبیعی شبیه‌سازی کند و صدایی بسیار نزدیک به صدای انسان تولید کند. همچنین، این مدل دارای مجموعه‌ای از صداهای پیش‌فرض است که کاربران می‌توانند از بین آن‌ها انتخاب کنند و صدای مورد نظر خود را برای تولید گفتار استفاده کنند.

مدل eleven_multilingual_v2 از طریق API قابل دسترسی است و کاربران می‌توانند با استفاده از کلید API خود، به این مدل دسترسی پیدا کنند و از آن در برنامه‌های خود استفاده کنند. این مدل دارای پارامترهای مختلفی است که به کاربران امکان می‌دهد تا تنظیمات مختلفی را برای تولید گفتار اعمال کنند، مانند انتخاب صدا، تنظیم سرعت و لحن صدا، و انتخاب فرمت صوتی خروجی. همچنین، این مدل دارای قابلیت‌های پیشرفته‌ای مانند نرمال‌سازی متن و بهبود پیوستگی گفتار است که به کاربران امکان می‌دهد تا گفتاری با کیفیت و طبیعی تولید کنند.

با استفاده از مدل eleven_multilingual_v2، کاربران می‌توانند به راحتی و با کیفیت بالا متن خود را به گفتار تبدیل کنند و از آن در کاربردهای مختلفی استفاده کنند. این مدل با پشتیبانی از زبان‌های متعدد و ارائه تنظیمات مختلف، امکان تولید صداهای متنوع و با کیفیت را فراهم می‌کند و به کاربران امکان می‌دهد تا محتوای صوتی خود را به بهترین شکل ممکن تولید کنند. ای آی کار (AI-KAR) این مدل را به عنوان یکی از بهترین گزینه‌ها برای تبدیل متن به گفتار پیشنهاد می‌کند. این مدل برای تولید کتاب‌های صوتی، پادکست‌ها، محتوای آموزشی و بسیاری موارد دیگر مناسب است و می‌تواند به شما کمک کند تا محتوای خود را به شکلی جذاب و قابل دسترس ارائه دهید.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	نام مدل مورد استفاده. باید `elevenlabs/eleven_multilingual_v2` باشد. مقادیر مجاز (کلیک برای کپی):
text	stringRequired	متن برای تبدیل به گفتار.
voice	stringRequired	نام صدایی که باید استفاده شود. مقادیر مجاز (کلیک برای کپی):
apply_text_normalization	string	این پارامتر نرمال‌سازی متن را با سه حالت کنترل می‌کند: 'auto'، 'on' و 'off'. وقتی روی 'auto' تنظیم شود، سیستم به طور خودکار تصمیم می‌گیرد که آیا نرمال‌سازی متن را اعمال کند (به عنوان مثال، املای اعداد). با 'on'، نرمال‌سازی متن همیشه اعمال می‌شود، در حالی که با 'off' رد می‌شود. مقادیر مجاز (کلیک برای کپی):
next_text	string	متنی که بعد از متن درخواست فعلی می‌آید. می‌تواند برای بهبود پیوستگی گفتار هنگام به هم پیوستن چندین نسل یا تأثیرگذاری بر پیوستگی گفتار در نسل فعلی استفاده شود.
previous_text	string	متنی که قبل از متن درخواست فعلی آمده است. می‌تواند برای بهبود پیوستگی گفتار هنگام به هم پیوستن چندین نسل یا تأثیرگذاری بر پیوستگی گفتار در نسل فعلی استفاده شود.
output_format	string	فرمت خروجی صوتی تولید شده. به صورت codec_sample_rate_bitrate قالب‌بندی شده است. بنابراین یک mp3 با نرخ نمونه‌برداری 22.05kHz در 32kbs به صورت mp3_22050_32 نشان داده می‌شود. مقادیر مجاز (کلیک برای کپی):
voice_settings	object	تنظیمات صدا که تنظیمات ذخیره شده برای صدای داده شده را لغو می‌کند. آنها فقط در درخواست داده شده اعمال می‌شوند.
seed	integer	اگر مشخص شود، سیستم ما تمام تلاش خود را می‌کند تا به طور قطعی نمونه‌برداری کند، به طوری که درخواست‌های مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند. قطعیت تضمین نمی‌شود.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "elevenlabs/eleven_multilingual_v2",
        "text": '''
Cities of the future promise to radically transform how people live, work, and move.
Instead of sprawling layouts, we’ll see vertical structures that integrate residential, work, and public spaces into single, self-sustaining ecosystems.
Architecture will adapt to climate conditions, and buildings will be energy-efficient—generating power through solar panels, wind turbines, and even foot traffic.
'''
        ,
        "voice": "Alice"
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    # result = os.path.join(os.path.dirname(__file__), "audio.wav")  # if you run this code as a .py file
    result = "audio.wav"  # if you run this code in Jupyter Notebook
    with open(result, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", result)


main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T16:53:58.474Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}