Voice/Speech ModelsminimaxVoice Chat

معرفی و مستندات مدل هوش مصنوعی speech-2.6-hd

مستندات مدل speech-2.6-hd از minimax، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. تلفظ و درک برخی عبارات ممکن است نیاز به تنظیمات داشته باشد.

مدل speech-2.6-hd از Minimax یک مدل پیشرفته تبدیل متن به گفتار (TTS) است که برای تولید خروجی صوتی با کیفیت بالا و صدای طبیعی طراحی شده است. این مدل به ویژه برای کاربردهایی که نیاز به صدای واضح، رسا و شبیه به انسان دارند، مناسب است. با استفاده از الگوریتم‌های پیچیده و آموزش داده شده بر روی مجموعه داده‌های گسترده، speech-2.6-hd قادر است متن را به گفتاری روان و طبیعی با لحن و آهنگ مناسب تبدیل کند.

یکی از ویژگی‌های برجسته این مدل، پشتیبانی از صداهای متنوع است. این امکان به کاربران اجازه می‌دهد تا صدای مورد نظر خود را از بین گزینه‌های مختلف انتخاب کنند و یا حتی ترکیبی از صداها را برای تولید خروجی صوتی سفارشی ایجاد کنند. این ویژگی به ویژه برای تولید محتوای چندرسانه‌ای، کتاب‌های صوتی، و دستیارهای صوتی که نیاز به شخصیت‌پردازی دارند، بسیار مفید است.

مدل speech-2.6-hd برای بهینه‌سازی وفاداری بالا و خروجی صدای طبیعی طراحی شده است. این مدل با استفاده از تکنیک‌های پیشرفته پردازش سیگنال صوتی، نویز و اعوجاج را به حداقل می‌رساند و صدایی واضح و شفاف تولید می‌کند. این ویژگی به ویژه برای کاربردهایی که کیفیت صدا در آن‌ها اهمیت بالایی دارد، مانند سیستم‌های پاسخگویی تلفنی، آموزش آنلاین، و تولید محتوای حرفه‌ای، بسیار مهم است.

علاوه بر این، مدل speech-2.6-hd قابلیت تنظیم دقیق پارامترهای صوتی را نیز فراهم می‌کند. کاربران می‌توانند مواردی مانند سرعت گفتار، زیر و بمی صدا، و حجم صدا را به دلخواه تنظیم کنند تا خروجی صوتی دقیقا مطابق با نیازهای آن‌ها باشد. این انعطاف‌پذیری به کاربران اجازه می‌دهد تا تجربه‌ای سفارشی و بهینه از تبدیل متن به گفتار داشته باشند.

این مدل در ای آی کار (AI-KAR) به عنوان یکی از ابزارهای کلیدی در دسترس توسعه‌دهندگان و کاربران قرار گرفته است تا بتوانند به راحتی از قابلیت‌های پیشرفته آن در پروژه‌های خود بهره ببرند. با استفاده از API ساده و قابل فهم، ادغام این مدل در برنامه‌های مختلف بسیار آسان است و کاربران می‌توانند به سرعت و به سادگی از امکانات آن استفاده کنند. مدل speech-2.6-hd یک انتخاب عالی برای هر کسی است که به دنبال یک راه حل قدرتمند و با کیفیت برای تبدیل متن به گفتار است.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت `minimax/speech-2.6-hd` را بپذیرید. مقادیر مجاز (کلیک برای کپی):
text	stringRequired	متن برای تبدیل به گفتار. طول متن باید بین 1 تا 5000 کاراکتر باشد.
voice_setting	object	تنظیمات صدا برای سفارشی‌سازی. تنظیمات پیش‌فرض برای `voice_id` برابر `Wise_Woman` است.
audio_setting	object	تنظیمات خروجی صدا.
pronunciation_dict	object	فرهنگ لغت تلفظ سفارشی برای مدیریت کلمات یا عبارات خاص. امکان تنظیم دقیق نحوه تلفظ متن با استفاده از نمایش‌های آوایی را فراهم می‌کند.
timbre_weights	object[]	تنظیمات ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف با وزن‌های مشخص را فراهم می‌کند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی مشارکت می‌کند.
stream	boolean	فعال کردن حالت استریم برای تولید صدای بی‌درنگ. در صورت فعال بودن، صدا به صورت تکه‌ای تولید و تحویل داده می‌شود.
language_boost	string	گزینه تقویت تشخیص زبان. مقادیر مجاز (کلیک برای کپی):
voice_modify	object	تنظیمات تغییر صدا برای تنظیم زیر و بمی، شدت، طنین و اعمال جلوه‌های صوتی برای سفارشی‌سازی ویژگی‌های صدا.
subtitle_enable	boolean	فعال کردن سرویس تولید زیرنویس. فقط برای درخواست‌های غیر استریم در دسترس است. اطلاعات زمان‌بندی برای گفتار سنتز شده را تولید می‌کند.
output_format	string	فرمت محتوای خروجی برای درخواست‌های غیر استریم. نحوه رمزگذاری داده‌های صوتی تولید شده در پاسخ را کنترل می‌کند. مقادیر مجاز (کلیک برای کپی):

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "minimax/speech-2.6-hd",
        "text": "Hi! What are you doing today?",
        "voice_setting": {
            "voice_id": "Wise_Woman"
        }
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.abspath("your_file_name.wav")
    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", dist)

main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T18:07:43.837Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}