Voice/Speech ModelsminimaxVoice Chat

معرفی و مستندات مدل هوش مصنوعی speech-2.6-turbo

مستندات مدل تبدیل متن به گفتار speech-2.6-turbo از minimax، ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک مطلب فارسی در سطح خوبی است اما ممکن است در تلفظ برخی کلمات و عبارات با مشکل مواجه شود.

مدل speech-2.6-turbo از minimax یک مدل پیشرفته تبدیل متن به گفتار (TTS) است که برای تولید سریع و با کمترین تأخیر صدا بهینه شده است. این مدل به توسعه‌دهندگان این امکان را می‌دهد تا به راحتی متن‌های خود را به گفتار با کیفیت بالا تبدیل کنند. یکی از ویژگی‌های برجسته این مدل، پشتیبانی از صداهای متنوع است که به کاربران امکان می‌دهد صدای مورد نظر خود را برای تولید گفتار انتخاب کنند. این ویژگی به ویژه برای برنامه‌هایی که نیاز به شخصی‌سازی صدا دارند، بسیار مفید است. مدل speech-2.6-turbo با استفاده از الگوریتم‌های پیشرفته یادگیری عمیق، قادر است تا گفتاری طبیعی و روان تولید کند. این مدل نه تنها کلمات را به درستی تلفظ می‌کند، بلکه قادر است تا لحن و آهنگ صدا را نیز به گونه‌ای تنظیم کند که با متن هماهنگ باشد. این ویژگی باعث می‌شود تا گفتار تولید شده بسیار طبیعی و جذاب به نظر برسد. یکی دیگر از ویژگی‌های مهم این مدل، سرعت بالای تولید گفتار است. مدل speech-2.6-turbo به گونه‌ای طراحی شده است که بتواند در کمترین زمان ممکن، متن را به گفتار تبدیل کند. این ویژگی به ویژه برای برنامه‌هایی که نیاز به پاسخگویی سریع دارند، بسیار حائز اهمیت است. به عنوان مثال، در برنامه‌های دستیار صوتی، سرعت بالای تولید گفتار می‌تواند تجربه کاربری را به طور قابل توجهی بهبود بخشد. علاوه بر این، مدل speech-2.6-turbo از API ساده و کاربرپسندی برخوردار است که به توسعه‌دهندگان این امکان را می‌دهد تا به راحتی از آن در برنامه‌های خود استفاده کنند. این API به توسعه‌دهندگان امکان می‌دهد تا پارامترهای مختلفی مانند صدا، سرعت، و لحن گفتار را تنظیم کنند. این ویژگی به توسعه‌دهندگان این امکان را می‌دهد تا گفتار تولید شده را به طور دقیق با نیازهای خود هماهنگ کنند. در نهایت، مدل speech-2.6-turbo یک ابزار قدرتمند و کارآمد برای تبدیل متن به گفتار است که می‌تواند در طیف گسترده‌ای از برنامه‌ها مورد استفاده قرار گیرد. از برنامه‌های دستیار صوتی گرفته تا برنامه‌های آموزشی و تبلیغاتی، این مدل می‌تواند به بهبود تجربه کاربری و افزایش کارایی کمک کند. با توجه به ویژگی‌های برجسته این مدل، می‌توان انتظار داشت که در آینده‌ای نزدیک، به یکی از محبوب‌ترین مدل‌های TTS در بین توسعه‌دهندگان تبدیل شود. این مدل توسط ای آی کار (AI-KAR) ارائه شده است.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت: minimax/speech-2.6-turbo
مقادیر مجاز (کلیک برای کپی):
text
stringRequired
متن مورد نظر برای تبدیل به گفتار. حداقل طول: 1 کاراکتر، حداکثر طول: 5000 کاراکتر.
voice_setting
object
تنظیمات صدا برای سفارشی‌سازی. در صورت عدم تعیین، از تنظیمات پیش‌فرض صدا استفاده می‌شود. مقدار پیش‌فرض: {"voice_id":"Wise_Woman"}
audio_setting
object
تنظیمات خروجی صدا.
pronunciation_dict
object
فرهنگ لغت تلفظ سفارشی برای مدیریت کلمات یا عبارات خاص. امکان تنظیم دقیق نحوه تلفظ متن با استفاده از نمایش‌های آوایی.
timbre_weights
object[]
تنظیمات ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف را با وزن‌های مشخص فراهم می‌کند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی نقش دارد.
stream
boolean
فعال کردن حالت استریم برای تولید صدای بی‌درنگ. در صورت فعال بودن، صدا به صورت تکه‌ای تولید و تحویل داده می‌شود. مقدار پیش‌فرض: false
language_boost
string
گزینه تقویت تشخیص زبان.
مقادیر مجاز (کلیک برای کپی):
voice_modify
object
تنظیمات تغییر صدا برای تنظیم زیر و بمی، شدت، طنین و اعمال جلوه‌های صوتی برای سفارشی‌سازی ویژگی‌های صدا.
subtitle_enable
boolean
فعال کردن سرویس تولید زیرنویس. فقط برای درخواست‌های غیر استریم در دسترس است. اطلاعات زمان‌بندی را برای گفتار تولید شده ایجاد می‌کند. مقدار پیش‌فرض: false
output_format
string
فرمت محتوای خروجی برای درخواست‌های غیر استریم. نحوه رمزگذاری داده‌های صوتی تولید شده در پاسخ را کنترل می‌کند. مقدار پیش‌فرض: hex
مقادیر مجاز (کلیک برای کپی):

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": " minimax/speech-2.6-turbo",
        "text": "Hi! What are you doing today?",
        "voice_setting": {
            "voice_id": "Wise_Woman"
        }
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.abspath("your_file_name.wav")
    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", dist)


main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T18:10:30.403Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}