Voice/Speech ModelsminimaxVoice Chat

معرفی و مستندات مدل هوش مصنوعی speech-2.5-hd-preview

مستندات مدل speech-2.5-hd-preview از ای آی کار (AI-KAR): یک مدل تبدیل متن به گفتار با کیفیت بالا.

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک مطلب و تولید گفتار به زبان فارسی در سطح قابل قبولی است، اما ممکن است در تلفظ برخی کلمات و عبارات پیچیده، دقت کمتری داشته باشد.

مدل speech-2.5-hd-preview از minimax، یک مدل تبدیل متن به گفتار (TTS) با کیفیت بالا است که توسط ای آی کار (AI-KAR) ارائه شده است. این مدل با هدف ارائه صدایی طبیعی‌تر و رسا‌تر طراحی شده است و از قابلیت‌های پیشرفته‌ای برای تولید گفتار در زبان‌های مختلف بهره می‌برد. این مدل به طور خاص برای ارائه کیفیت صدای عالی، بازتولید دقیق صدا و پشتیبانی گسترده از 40 زبان مختلف توسعه یافته است. این مدل با بهره‌گیری از تکنولوژی‌های نوین در زمینه یادگیری عمیق، قادر است تا با دقت بالایی متن ورودی را به گفتار تبدیل کند و جزئیات ظریف زبانی مانند لحن، آهنگ و احساسات را در صدای تولید شده منعکس کند. یکی از ویژگی‌های برجسته این مدل، توانایی آن در بازتولید دقیق صدا است. این به این معنی است که مدل می‌تواند صدای یک فرد خاص را با دقت بالایی شبیه‌سازی کند و گفتاری تولید کند که به صدای اصلی بسیار نزدیک باشد. این قابلیت برای کاربردهایی مانند تولید کتاب‌های صوتی با صدای نویسنده، ایجاد دستیارهای صوتی شخصی‌سازی شده و تولید محتوای آموزشی با صدای اساتید بسیار مفید است. علاوه بر این، مدل speech-2.5-hd-preview از طیف گسترده‌ای از زبان‌ها پشتیبانی می‌کند. این امر به کاربران امکان می‌دهد تا از این مدل برای تولید گفتار در زبان‌های مختلف استفاده کنند و محتوای خود را به مخاطبان گسترده‌تری ارائه دهند. پشتیبانی از 40 زبان مختلف، این مدل را به یک ابزار قدرتمند برای کسب‌وکارها و سازمان‌هایی تبدیل می‌کند که به دنبال ارائه خدمات چندزبانه هستند. این مدل برای کاربردهای مختلفی مناسب است، از جمله تولید کتاب‌های صوتی، ایجاد دستیارهای صوتی، تولید محتوای آموزشی، ارائه خدمات مشتریان از طریق تلفن و تولید تبلیغات صوتی. با استفاده از این مدل، کاربران می‌توانند به راحتی و با کیفیت بالا، متن را به گفتار تبدیل کنند و محتوای خود را به شکلی جذاب و قابل دسترس ارائه دهند. در مجموع، مدل speech-2.5-hd-preview یک ابزار قدرتمند و کارآمد برای تبدیل متن به گفتار است که با ارائه کیفیت صدای عالی، بازتولید دقیق صدا و پشتیبانی گسترده از زبان‌های مختلف، نیازهای مختلف کاربران را برآورده می‌کند. این مدل توسط ای آی کار (AI-KAR) ارائه شده است و به کاربران امکان می‌دهد تا به راحتی و با کیفیت بالا، محتوای خود را به گفتار تبدیل کنند.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تبدیل متن به گفتار. مقدار این پارامتر باید `minimax/speech-2.5-hd-preview` باشد.
مقادیر مجاز (کلیک برای کپی):
text
stringRequired
متن مورد نظر برای تبدیل به گفتار. طول متن باید بین 1 تا 5000 کاراکتر باشد.
voice_setting
object
تنظیمات مربوط به صدا. این پارامتر اختیاری است و برای تغییر تنظیمات پیش‌فرض صدا استفاده می‌شود.
audio_setting
object
تنظیمات مربوط به خروجی صدا. این پارامتر اختیاری است و برای پیکربندی خروجی صدا استفاده می‌شود.
pronunciation_dict
object
فرهنگ لغت تلفظ سفارشی برای مدیریت کلمات یا عبارات خاص. به شما امکان می دهد نحوه تلفظ متن خاص را با استفاده از نمایش های آوایی تنظیم کنید.
timbre_weights
object[]
پیکربندی ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف را با وزن های مشخص شده فراهم می کند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی نقش دارد.
stream
boolean
فعال کردن حالت استریم برای تولید صدای بی‌درنگ. وقتی فعال باشد، صدا به صورت تکه تکه تولید و ارائه می‌شود.
language_boost
string
گزینه تقویت تشخیص زبان.
مقادیر مجاز (کلیک برای کپی):
voice_modify
object
تنظیمات تغییر صدا برای تنظیم زیر و بمی، شدت، طنین و اعمال جلوه های صوتی برای سفارشی کردن ویژگی های صدا.
subtitle_enable
boolean
فعال کردن سرویس تولید زیرنویس. فقط برای درخواست های غیر جریانی در دسترس است. اطلاعات زمان بندی را برای گفتار سنتز شده ایجاد می کند.
output_format
string
فرمت محتوای خروجی برای درخواست های غیر جریانی. نحوه رمزگذاری داده های صوتی تولید شده در پاسخ را کنترل می کند.
مقادیر مجاز (کلیک برای کپی):

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "minimax/speech-2.5-hd-preview",
        "text": "Hi! What are you doing today?",
        "voice_setting": {
            "voice_id": "Wise_Woman"
        }
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.abspath("your_file_name.wav")
    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", dist)


main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T21:30:42.172Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}