Voice/Speech ModelsminimaxVoice Chat

معرفی و مستندات مدل هوش مصنوعی speech-2.6-hd

مستندات مدل speech-2.6-hd از minimax، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. تلفظ و درک برخی عبارات ممکن است نیاز به تنظیمات داشته باشد.

مدل speech-2.6-hd از Minimax یک مدل پیشرفته تبدیل متن به گفتار (TTS) است که برای تولید خروجی صوتی با کیفیت بالا و صدای طبیعی طراحی شده است. این مدل به ویژه برای کاربردهایی که نیاز به صدای واضح، رسا و شبیه به انسان دارند، مناسب است. با استفاده از الگوریتم‌های پیچیده و آموزش داده شده بر روی مجموعه داده‌های گسترده، speech-2.6-hd قادر است متن را به گفتاری روان و طبیعی با لحن و آهنگ مناسب تبدیل کند.

یکی از ویژگی‌های برجسته این مدل، پشتیبانی از صداهای متنوع است. این امکان به کاربران اجازه می‌دهد تا صدای مورد نظر خود را از بین گزینه‌های مختلف انتخاب کنند و یا حتی ترکیبی از صداها را برای تولید خروجی صوتی سفارشی ایجاد کنند. این ویژگی به ویژه برای تولید محتوای چندرسانه‌ای، کتاب‌های صوتی، و دستیارهای صوتی که نیاز به شخصیت‌پردازی دارند، بسیار مفید است.

مدل speech-2.6-hd برای بهینه‌سازی وفاداری بالا و خروجی صدای طبیعی طراحی شده است. این مدل با استفاده از تکنیک‌های پیشرفته پردازش سیگنال صوتی، نویز و اعوجاج را به حداقل می‌رساند و صدایی واضح و شفاف تولید می‌کند. این ویژگی به ویژه برای کاربردهایی که کیفیت صدا در آن‌ها اهمیت بالایی دارد، مانند سیستم‌های پاسخگویی تلفنی، آموزش آنلاین، و تولید محتوای حرفه‌ای، بسیار مهم است.

علاوه بر این، مدل speech-2.6-hd قابلیت تنظیم دقیق پارامترهای صوتی را نیز فراهم می‌کند. کاربران می‌توانند مواردی مانند سرعت گفتار، زیر و بمی صدا، و حجم صدا را به دلخواه تنظیم کنند تا خروجی صوتی دقیقا مطابق با نیازهای آن‌ها باشد. این انعطاف‌پذیری به کاربران اجازه می‌دهد تا تجربه‌ای سفارشی و بهینه از تبدیل متن به گفتار داشته باشند.

این مدل در ای آی کار (AI-KAR) به عنوان یکی از ابزارهای کلیدی در دسترس توسعه‌دهندگان و کاربران قرار گرفته است تا بتوانند به راحتی از قابلیت‌های پیشرفته آن در پروژه‌های خود بهره ببرند. با استفاده از API ساده و قابل فهم، ادغام این مدل در برنامه‌های مختلف بسیار آسان است و کاربران می‌توانند به سرعت و به سادگی از امکانات آن استفاده کنند. مدل speech-2.6-hd یک انتخاب عالی برای هر کسی است که به دنبال یک راه حل قدرتمند و با کیفیت برای تبدیل متن به گفتار است.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت `minimax/speech-2.6-hd` را بپذیرید.
مقادیر مجاز (کلیک برای کپی):
text
stringRequired
متن برای تبدیل به گفتار. طول متن باید بین 1 تا 5000 کاراکتر باشد.
voice_setting
object
تنظیمات صدا برای سفارشی‌سازی. تنظیمات پیش‌فرض برای `voice_id` برابر `Wise_Woman` است.
audio_setting
object
تنظیمات خروجی صدا.
pronunciation_dict
object
فرهنگ لغت تلفظ سفارشی برای مدیریت کلمات یا عبارات خاص. امکان تنظیم دقیق نحوه تلفظ متن با استفاده از نمایش‌های آوایی را فراهم می‌کند.
timbre_weights
object[]
تنظیمات ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف با وزن‌های مشخص را فراهم می‌کند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی مشارکت می‌کند.
stream
boolean
فعال کردن حالت استریم برای تولید صدای بی‌درنگ. در صورت فعال بودن، صدا به صورت تکه‌ای تولید و تحویل داده می‌شود.
language_boost
string
گزینه تقویت تشخیص زبان.
مقادیر مجاز (کلیک برای کپی):
voice_modify
object
تنظیمات تغییر صدا برای تنظیم زیر و بمی، شدت، طنین و اعمال جلوه‌های صوتی برای سفارشی‌سازی ویژگی‌های صدا.
subtitle_enable
boolean
فعال کردن سرویس تولید زیرنویس. فقط برای درخواست‌های غیر استریم در دسترس است. اطلاعات زمان‌بندی برای گفتار سنتز شده را تولید می‌کند.
output_format
string
فرمت محتوای خروجی برای درخواست‌های غیر استریم. نحوه رمزگذاری داده‌های صوتی تولید شده در پاسخ را کنترل می‌کند.
مقادیر مجاز (کلیک برای کپی):

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "minimax/speech-2.6-hd",
        "text": "Hi! What are you doing today?",
        "voice_setting": {
            "voice_id": "Wise_Woman"
        }
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.abspath("your_file_name.wav")
    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", dist)

main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T18:07:43.837Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}