Voice/Speech ModelselevenlabsText-to-Speech
معرفی و مستندات مدل هوش مصنوعی eleven_multilingual_v2
مستندات مدل eleven_multilingual_v2 از ElevenLabs، ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. تلفظها ممکن است کامل و بدون نقص نباشند، اما قابل فهم است.
مدل eleven_multilingual_v2 از ElevenLabs یک مدل تبدیل متن به گفتار با کیفیت بالا است که لحن طبیعی و پشتیبانی از 29 زبان مختلف را ارائه میدهد. این مدل با ارائه طیف گستردهای از فرمتهای صوتی خروجی و تنظیمات کیفیت، امکان تولید صداهای متنوع و با کیفیت را فراهم میکند. این مدل به کاربران اجازه میدهد تا متن خود را به گفتاری طبیعی و رسا تبدیل کنند و از آن در کاربردهای مختلفی مانند تولید محتوای صوتی، آموزش زبان، و برنامههای کاربردی تعاملی استفاده کنند.
یکی از ویژگیهای برجسته این مدل، پشتیبانی از زبانهای متعدد است که به کاربران امکان میدهد تا محتوای خود را به زبانهای مختلف تولید کنند و به مخاطبان گستردهتری دسترسی پیدا کنند. این مدل با استفاده از الگوریتمهای پیشرفته، قادر است لحن و آهنگ صدا را به طور طبیعی شبیهسازی کند و صدایی بسیار نزدیک به صدای انسان تولید کند. همچنین، این مدل دارای مجموعهای از صداهای پیشفرض است که کاربران میتوانند از بین آنها انتخاب کنند و صدای مورد نظر خود را برای تولید گفتار استفاده کنند.
مدل eleven_multilingual_v2 از طریق API قابل دسترسی است و کاربران میتوانند با استفاده از کلید API خود، به این مدل دسترسی پیدا کنند و از آن در برنامههای خود استفاده کنند. این مدل دارای پارامترهای مختلفی است که به کاربران امکان میدهد تا تنظیمات مختلفی را برای تولید گفتار اعمال کنند، مانند انتخاب صدا، تنظیم سرعت و لحن صدا، و انتخاب فرمت صوتی خروجی. همچنین، این مدل دارای قابلیتهای پیشرفتهای مانند نرمالسازی متن و بهبود پیوستگی گفتار است که به کاربران امکان میدهد تا گفتاری با کیفیت و طبیعی تولید کنند.
با استفاده از مدل eleven_multilingual_v2، کاربران میتوانند به راحتی و با کیفیت بالا متن خود را به گفتار تبدیل کنند و از آن در کاربردهای مختلفی استفاده کنند. این مدل با پشتیبانی از زبانهای متعدد و ارائه تنظیمات مختلف، امکان تولید صداهای متنوع و با کیفیت را فراهم میکند و به کاربران امکان میدهد تا محتوای صوتی خود را به بهترین شکل ممکن تولید کنند. ای آی کار (AI-KAR) این مدل را به عنوان یکی از بهترین گزینهها برای تبدیل متن به گفتار پیشنهاد میکند. این مدل برای تولید کتابهای صوتی، پادکستها، محتوای آموزشی و بسیاری موارد دیگر مناسب است و میتواند به شما کمک کند تا محتوای خود را به شکلی جذاب و قابل دسترس ارائه دهید.
یکی از ویژگیهای برجسته این مدل، پشتیبانی از زبانهای متعدد است که به کاربران امکان میدهد تا محتوای خود را به زبانهای مختلف تولید کنند و به مخاطبان گستردهتری دسترسی پیدا کنند. این مدل با استفاده از الگوریتمهای پیشرفته، قادر است لحن و آهنگ صدا را به طور طبیعی شبیهسازی کند و صدایی بسیار نزدیک به صدای انسان تولید کند. همچنین، این مدل دارای مجموعهای از صداهای پیشفرض است که کاربران میتوانند از بین آنها انتخاب کنند و صدای مورد نظر خود را برای تولید گفتار استفاده کنند.
مدل eleven_multilingual_v2 از طریق API قابل دسترسی است و کاربران میتوانند با استفاده از کلید API خود، به این مدل دسترسی پیدا کنند و از آن در برنامههای خود استفاده کنند. این مدل دارای پارامترهای مختلفی است که به کاربران امکان میدهد تا تنظیمات مختلفی را برای تولید گفتار اعمال کنند، مانند انتخاب صدا، تنظیم سرعت و لحن صدا، و انتخاب فرمت صوتی خروجی. همچنین، این مدل دارای قابلیتهای پیشرفتهای مانند نرمالسازی متن و بهبود پیوستگی گفتار است که به کاربران امکان میدهد تا گفتاری با کیفیت و طبیعی تولید کنند.
با استفاده از مدل eleven_multilingual_v2، کاربران میتوانند به راحتی و با کیفیت بالا متن خود را به گفتار تبدیل کنند و از آن در کاربردهای مختلفی استفاده کنند. این مدل با پشتیبانی از زبانهای متعدد و ارائه تنظیمات مختلف، امکان تولید صداهای متنوع و با کیفیت را فراهم میکند و به کاربران امکان میدهد تا محتوای صوتی خود را به بهترین شکل ممکن تولید کنند. ای آی کار (AI-KAR) این مدل را به عنوان یکی از بهترین گزینهها برای تبدیل متن به گفتار پیشنهاد میکند. این مدل برای تولید کتابهای صوتی، پادکستها، محتوای آموزشی و بسیاری موارد دیگر مناسب است و میتواند به شما کمک کند تا محتوای خود را به شکلی جذاب و قابل دسترس ارائه دهید.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | نام مدل مورد استفاده. باید `elevenlabs/eleven_multilingual_v2` باشد. مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متن برای تبدیل به گفتار. |
voice | stringRequired | نام صدایی که باید استفاده شود. مقادیر مجاز (کلیک برای کپی): |
apply_text_normalization | string | این پارامتر نرمالسازی متن را با سه حالت کنترل میکند: 'auto'، 'on' و 'off'. وقتی روی 'auto' تنظیم شود، سیستم به طور خودکار تصمیم میگیرد که آیا نرمالسازی متن را اعمال کند (به عنوان مثال، املای اعداد). با 'on'، نرمالسازی متن همیشه اعمال میشود، در حالی که با 'off' رد میشود. مقادیر مجاز (کلیک برای کپی): |
next_text | string | متنی که بعد از متن درخواست فعلی میآید. میتواند برای بهبود پیوستگی گفتار هنگام به هم پیوستن چندین نسل یا تأثیرگذاری بر پیوستگی گفتار در نسل فعلی استفاده شود. |
previous_text | string | متنی که قبل از متن درخواست فعلی آمده است. میتواند برای بهبود پیوستگی گفتار هنگام به هم پیوستن چندین نسل یا تأثیرگذاری بر پیوستگی گفتار در نسل فعلی استفاده شود. |
output_format | string | فرمت خروجی صوتی تولید شده. به صورت codec_sample_rate_bitrate قالببندی شده است. بنابراین یک mp3 با نرخ نمونهبرداری 22.05kHz در 32kbs به صورت mp3_22050_32 نشان داده میشود. مقادیر مجاز (کلیک برای کپی): |
voice_settings | object | تنظیمات صدا که تنظیمات ذخیره شده برای صدای داده شده را لغو میکند. آنها فقط در درخواست داده شده اعمال میشوند. |
seed | integer | اگر مشخص شود، سیستم ما تمام تلاش خود را میکند تا به طور قطعی نمونهبرداری کند، به طوری که درخواستهای مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند. قطعیت تضمین نمیشود. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import os
import requests
def main():
url = "https://api.ai-kar.com/v1/tts"
headers = {
# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
}
payload = {
"model": "elevenlabs/eleven_multilingual_v2",
"text": '''
Cities of the future promise to radically transform how people live, work, and move.
Instead of sprawling layouts, we’ll see vertical structures that integrate residential, work, and public spaces into single, self-sustaining ecosystems.
Architecture will adapt to climate conditions, and buildings will be energy-efficient—generating power through solar panels, wind turbines, and even foot traffic.
'''
,
"voice": "Alice"
}
response = requests.post(url, headers=headers, json=payload, stream=True)
# result = os.path.join(os.path.dirname(__file__), "audio.wav") # if you run this code as a .py file
result = "audio.wav" # if you run this code in Jupyter Notebook
with open(result, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", result)
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T16:53:58.474Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}