Voice/Speech ModelsminimaxVoice Chat

معرفی و مستندات مدل هوش مصنوعی speech-2.6-turbo

مستندات مدل تبدیل متن به گفتار speech-2.6-turbo از minimax، ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک مطلب فارسی در سطح خوبی است اما ممکن است در تلفظ برخی کلمات و عبارات با مشکل مواجه شود.

مدل speech-2.6-turbo از minimax یک مدل پیشرفته تبدیل متن به گفتار (TTS) است که برای تولید سریع و با کمترین تأخیر صدا بهینه شده است. این مدل به توسعه‌دهندگان این امکان را می‌دهد تا به راحتی متن‌های خود را به گفتار با کیفیت بالا تبدیل کنند. یکی از ویژگی‌های برجسته این مدل، پشتیبانی از صداهای متنوع است که به کاربران امکان می‌دهد صدای مورد نظر خود را برای تولید گفتار انتخاب کنند. این ویژگی به ویژه برای برنامه‌هایی که نیاز به شخصی‌سازی صدا دارند، بسیار مفید است. مدل speech-2.6-turbo با استفاده از الگوریتم‌های پیشرفته یادگیری عمیق، قادر است تا گفتاری طبیعی و روان تولید کند. این مدل نه تنها کلمات را به درستی تلفظ می‌کند، بلکه قادر است تا لحن و آهنگ صدا را نیز به گونه‌ای تنظیم کند که با متن هماهنگ باشد. این ویژگی باعث می‌شود تا گفتار تولید شده بسیار طبیعی و جذاب به نظر برسد. یکی دیگر از ویژگی‌های مهم این مدل، سرعت بالای تولید گفتار است. مدل speech-2.6-turbo به گونه‌ای طراحی شده است که بتواند در کمترین زمان ممکن، متن را به گفتار تبدیل کند. این ویژگی به ویژه برای برنامه‌هایی که نیاز به پاسخگویی سریع دارند، بسیار حائز اهمیت است. به عنوان مثال، در برنامه‌های دستیار صوتی، سرعت بالای تولید گفتار می‌تواند تجربه کاربری را به طور قابل توجهی بهبود بخشد. علاوه بر این، مدل speech-2.6-turbo از API ساده و کاربرپسندی برخوردار است که به توسعه‌دهندگان این امکان را می‌دهد تا به راحتی از آن در برنامه‌های خود استفاده کنند. این API به توسعه‌دهندگان امکان می‌دهد تا پارامترهای مختلفی مانند صدا، سرعت، و لحن گفتار را تنظیم کنند. این ویژگی به توسعه‌دهندگان این امکان را می‌دهد تا گفتار تولید شده را به طور دقیق با نیازهای خود هماهنگ کنند. در نهایت، مدل speech-2.6-turbo یک ابزار قدرتمند و کارآمد برای تبدیل متن به گفتار است که می‌تواند در طیف گسترده‌ای از برنامه‌ها مورد استفاده قرار گیرد. از برنامه‌های دستیار صوتی گرفته تا برنامه‌های آموزشی و تبلیغاتی، این مدل می‌تواند به بهبود تجربه کاربری و افزایش کارایی کمک کند. با توجه به ویژگی‌های برجسته این مدل، می‌توان انتظار داشت که در آینده‌ای نزدیک، به یکی از محبوب‌ترین مدل‌های TTS در بین توسعه‌دهندگان تبدیل شود. این مدل توسط ای آی کار (AI-KAR) ارائه شده است.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت: minimax/speech-2.6-turbo مقادیر مجاز (کلیک برای کپی):
text	stringRequired	متن مورد نظر برای تبدیل به گفتار. حداقل طول: 1 کاراکتر، حداکثر طول: 5000 کاراکتر.
voice_setting	object	تنظیمات صدا برای سفارشی‌سازی. در صورت عدم تعیین، از تنظیمات پیش‌فرض صدا استفاده می‌شود. مقدار پیش‌فرض: {"voice_id":"Wise_Woman"}
audio_setting	object	تنظیمات خروجی صدا.
pronunciation_dict	object	فرهنگ لغت تلفظ سفارشی برای مدیریت کلمات یا عبارات خاص. امکان تنظیم دقیق نحوه تلفظ متن با استفاده از نمایش‌های آوایی.
timbre_weights	object[]	تنظیمات ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف را با وزن‌های مشخص فراهم می‌کند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی نقش دارد.
stream	boolean	فعال کردن حالت استریم برای تولید صدای بی‌درنگ. در صورت فعال بودن، صدا به صورت تکه‌ای تولید و تحویل داده می‌شود. مقدار پیش‌فرض: false
language_boost	string	گزینه تقویت تشخیص زبان. مقادیر مجاز (کلیک برای کپی):
voice_modify	object	تنظیمات تغییر صدا برای تنظیم زیر و بمی، شدت، طنین و اعمال جلوه‌های صوتی برای سفارشی‌سازی ویژگی‌های صدا.
subtitle_enable	boolean	فعال کردن سرویس تولید زیرنویس. فقط برای درخواست‌های غیر استریم در دسترس است. اطلاعات زمان‌بندی را برای گفتار تولید شده ایجاد می‌کند. مقدار پیش‌فرض: false
output_format	string	فرمت محتوای خروجی برای درخواست‌های غیر استریم. نحوه رمزگذاری داده‌های صوتی تولید شده در پاسخ را کنترل می‌کند. مقدار پیش‌فرض: hex مقادیر مجاز (کلیک برای کپی):

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": " minimax/speech-2.6-turbo",
        "text": "Hi! What are you doing today?",
        "voice_setting": {
            "voice_id": "Wise_Woman"
        }
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.abspath("your_file_name.wav")
    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", dist)


main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T18:10:30.403Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}