Voice/Speech ModelselevenlabsVoice Chat

معرفی و مستندات مدل هوش مصنوعی v3_alpha

مستندات مدل v3_alpha از ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند و ممکن است در تلفظ برخی کلمات و عبارات با مشکل مواجه شود.

مدل v3_alpha از ElevenLabs یک مدل پیشرفته تبدیل متن به گفتار است که توسط ای آی کار (AI-KAR) ارائه شده است. این مدل با پشتیبانی از طیف گسترده‌ای از فرمت‌های خروجی و سطوح کیفیت، امکان تولید صداهای طبیعی و با کیفیت بالا را فراهم می‌کند. یکی از ویژگی‌های برجسته این مدل، قابلیت نرمال‌سازی متن است که به بهبود کیفیت و وضوح گفتار تولید شده کمک می‌کند. همچنین، این مدل از بیش از 70 زبان مختلف پشتیبانی می‌کند که آن را به یک ابزار چندزبانه قدرتمند تبدیل کرده است.

برای استفاده از این مدل، ابتدا باید یک حساب کاربری در وب‌سایت ای آی کار (AI-KAR) ایجاد کنید و یک کلید API تولید کنید. سپس، می‌توانید از طریق API به مدل دسترسی پیدا کرده و متن مورد نظر خود را برای تبدیل به گفتار ارسال کنید. پارامترهای مختلفی برای تنظیم رفتار مدل وجود دارد که می‌توانید از آن‌ها برای سفارشی‌سازی خروجی استفاده کنید. پارامترهای اجباری شامل متن (text) و صدای مورد نظر (voice) هستند، اما پارامترهای اختیاری دیگری نیز وجود دارند که به شما امکان می‌دهند کیفیت صدا، فرمت خروجی و سایر جنبه‌های تولید گفتار را کنترل کنید.

مدل v3_alpha با استفاده از الگوریتم‌های پیشرفته یادگیری عمیق، قادر است صداهایی با لحن و احساسات مختلف تولید کند. این مدل می‌تواند برای کاربردهای مختلفی مانند تولید کتاب‌های صوتی، آموزش زبان، تولید محتوای تبلیغاتی و غیره استفاده شود. با توجه به پشتیبانی از زبان‌های مختلف، این مدل می‌تواند به عنوان یک ابزار جهانی برای تولید محتوای صوتی مورد استفاده قرار گیرد.

یکی از ویژگی‌های کلیدی این مدل، قابلیت تنظیم پارامترهای صدا است. شما می‌توانید پارامترهایی مانند سرعت، زیر و بم، و حجم صدا را تنظیم کنید تا خروجی دقیقا مطابق با نیازهای شما باشد. همچنین، این مدل از فرمت‌های خروجی مختلفی مانند MP3 و PCM پشتیبانی می‌کند که به شما امکان می‌دهد فایل‌های صوتی را با کیفیت و حجم دلخواه تولید کنید.

در نهایت، مدل v3_alpha یک ابزار قدرتمند و انعطاف‌پذیر برای تبدیل متن به گفتار است که با ارائه کیفیت بالا و پشتیبانی از زبان‌های مختلف، می‌تواند نیازهای مختلف کاربران را برآورده کند. ای آی کار (AI-KAR) با ارائه این مدل، گامی بزرگ در جهت توسعه فناوری‌های هوش مصنوعی در ایران برداشته است.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
نام مدل مورد استفاده. مقدار ثابت: elevenlabs/v3_alpha
مقادیر مجاز (کلیک برای کپی):
text
stringRequired
متن مورد نظر برای تبدیل به گفتار.
voice
stringRequired
نام صدای مورد استفاده.
مقادیر مجاز (کلیک برای کپی):
apply_text_normalization
string
این پارامتر نحوه نرمال‌سازی متن را کنترل می‌کند. 'auto' به سیستم اجازه می‌دهد تصمیم بگیرد، 'on' همیشه نرمال‌سازی را اعمال می‌کند و 'off' آن را غیرفعال می‌کند.
مقادیر مجاز (کلیک برای کپی):
next_text
string
متنی که بعد از متن فعلی می‌آید. برای بهبود پیوستگی گفتار در تولیدات متوالی استفاده می‌شود.
previous_text
string
متنی که قبل از متن فعلی آمده است. برای بهبود پیوستگی گفتار در تولیدات متوالی استفاده می‌شود.
output_format
string
فرمت خروجی برای درخواست‌های غیر جریانی. نحوه رمزگذاری داده‌های صوتی تولید شده در پاسخ را کنترل می‌کند.
مقادیر مجاز (کلیک برای کپی):
voice_settings
object
تنظیمات صدا که تنظیمات ذخیره شده برای صدای داده شده را لغو می‌کند. این تنظیمات فقط در درخواست داده شده اعمال می‌شوند.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "elevenlabs/v3_alpha",
        "text": "Hi! What are you doing today?",
        "voice": "Alice"
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.abspath("audio.wav")
    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", dist)

main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T16:59:52.345Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}