Voice/Speech ModelselevenlabsVoice Chat
معرفی و مستندات مدل هوش مصنوعی v3_alpha
مستندات مدل v3_alpha از ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند و ممکن است در تلفظ برخی کلمات و عبارات با مشکل مواجه شود.
مدل v3_alpha از ElevenLabs یک مدل پیشرفته تبدیل متن به گفتار است که توسط ای آی کار (AI-KAR) ارائه شده است. این مدل با پشتیبانی از طیف گستردهای از فرمتهای خروجی و سطوح کیفیت، امکان تولید صداهای طبیعی و با کیفیت بالا را فراهم میکند. یکی از ویژگیهای برجسته این مدل، قابلیت نرمالسازی متن است که به بهبود کیفیت و وضوح گفتار تولید شده کمک میکند. همچنین، این مدل از بیش از 70 زبان مختلف پشتیبانی میکند که آن را به یک ابزار چندزبانه قدرتمند تبدیل کرده است.
برای استفاده از این مدل، ابتدا باید یک حساب کاربری در وبسایت ای آی کار (AI-KAR) ایجاد کنید و یک کلید API تولید کنید. سپس، میتوانید از طریق API به مدل دسترسی پیدا کرده و متن مورد نظر خود را برای تبدیل به گفتار ارسال کنید. پارامترهای مختلفی برای تنظیم رفتار مدل وجود دارد که میتوانید از آنها برای سفارشیسازی خروجی استفاده کنید. پارامترهای اجباری شامل متن (text) و صدای مورد نظر (voice) هستند، اما پارامترهای اختیاری دیگری نیز وجود دارند که به شما امکان میدهند کیفیت صدا، فرمت خروجی و سایر جنبههای تولید گفتار را کنترل کنید.
مدل v3_alpha با استفاده از الگوریتمهای پیشرفته یادگیری عمیق، قادر است صداهایی با لحن و احساسات مختلف تولید کند. این مدل میتواند برای کاربردهای مختلفی مانند تولید کتابهای صوتی، آموزش زبان، تولید محتوای تبلیغاتی و غیره استفاده شود. با توجه به پشتیبانی از زبانهای مختلف، این مدل میتواند به عنوان یک ابزار جهانی برای تولید محتوای صوتی مورد استفاده قرار گیرد.
یکی از ویژگیهای کلیدی این مدل، قابلیت تنظیم پارامترهای صدا است. شما میتوانید پارامترهایی مانند سرعت، زیر و بم، و حجم صدا را تنظیم کنید تا خروجی دقیقا مطابق با نیازهای شما باشد. همچنین، این مدل از فرمتهای خروجی مختلفی مانند MP3 و PCM پشتیبانی میکند که به شما امکان میدهد فایلهای صوتی را با کیفیت و حجم دلخواه تولید کنید.
در نهایت، مدل v3_alpha یک ابزار قدرتمند و انعطافپذیر برای تبدیل متن به گفتار است که با ارائه کیفیت بالا و پشتیبانی از زبانهای مختلف، میتواند نیازهای مختلف کاربران را برآورده کند. ای آی کار (AI-KAR) با ارائه این مدل، گامی بزرگ در جهت توسعه فناوریهای هوش مصنوعی در ایران برداشته است.
برای استفاده از این مدل، ابتدا باید یک حساب کاربری در وبسایت ای آی کار (AI-KAR) ایجاد کنید و یک کلید API تولید کنید. سپس، میتوانید از طریق API به مدل دسترسی پیدا کرده و متن مورد نظر خود را برای تبدیل به گفتار ارسال کنید. پارامترهای مختلفی برای تنظیم رفتار مدل وجود دارد که میتوانید از آنها برای سفارشیسازی خروجی استفاده کنید. پارامترهای اجباری شامل متن (text) و صدای مورد نظر (voice) هستند، اما پارامترهای اختیاری دیگری نیز وجود دارند که به شما امکان میدهند کیفیت صدا، فرمت خروجی و سایر جنبههای تولید گفتار را کنترل کنید.
مدل v3_alpha با استفاده از الگوریتمهای پیشرفته یادگیری عمیق، قادر است صداهایی با لحن و احساسات مختلف تولید کند. این مدل میتواند برای کاربردهای مختلفی مانند تولید کتابهای صوتی، آموزش زبان، تولید محتوای تبلیغاتی و غیره استفاده شود. با توجه به پشتیبانی از زبانهای مختلف، این مدل میتواند به عنوان یک ابزار جهانی برای تولید محتوای صوتی مورد استفاده قرار گیرد.
یکی از ویژگیهای کلیدی این مدل، قابلیت تنظیم پارامترهای صدا است. شما میتوانید پارامترهایی مانند سرعت، زیر و بم، و حجم صدا را تنظیم کنید تا خروجی دقیقا مطابق با نیازهای شما باشد. همچنین، این مدل از فرمتهای خروجی مختلفی مانند MP3 و PCM پشتیبانی میکند که به شما امکان میدهد فایلهای صوتی را با کیفیت و حجم دلخواه تولید کنید.
در نهایت، مدل v3_alpha یک ابزار قدرتمند و انعطافپذیر برای تبدیل متن به گفتار است که با ارائه کیفیت بالا و پشتیبانی از زبانهای مختلف، میتواند نیازهای مختلف کاربران را برآورده کند. ای آی کار (AI-KAR) با ارائه این مدل، گامی بزرگ در جهت توسعه فناوریهای هوش مصنوعی در ایران برداشته است.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | نام مدل مورد استفاده. مقدار ثابت: elevenlabs/v3_alpha مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متن مورد نظر برای تبدیل به گفتار. |
voice | stringRequired | نام صدای مورد استفاده. مقادیر مجاز (کلیک برای کپی): |
apply_text_normalization | string | این پارامتر نحوه نرمالسازی متن را کنترل میکند. 'auto' به سیستم اجازه میدهد تصمیم بگیرد، 'on' همیشه نرمالسازی را اعمال میکند و 'off' آن را غیرفعال میکند. مقادیر مجاز (کلیک برای کپی): |
next_text | string | متنی که بعد از متن فعلی میآید. برای بهبود پیوستگی گفتار در تولیدات متوالی استفاده میشود. |
previous_text | string | متنی که قبل از متن فعلی آمده است. برای بهبود پیوستگی گفتار در تولیدات متوالی استفاده میشود. |
output_format | string | فرمت خروجی برای درخواستهای غیر جریانی. نحوه رمزگذاری دادههای صوتی تولید شده در پاسخ را کنترل میکند. مقادیر مجاز (کلیک برای کپی): |
voice_settings | object | تنظیمات صدا که تنظیمات ذخیره شده برای صدای داده شده را لغو میکند. این تنظیمات فقط در درخواست داده شده اعمال میشوند. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import os
import requests
def main():
url = "https://api.ai-kar.com/v1/tts"
headers = {
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
}
payload = {
"model": "elevenlabs/v3_alpha",
"text": "Hi! What are you doing today?",
"voice": "Alice"
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.abspath("audio.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T16:59:52.345Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}