Voice/Speech ModelsminimaxVoice Chat

معرفی و مستندات مدل هوش مصنوعی speech-2.5-turbo-preview

مستندات مدل تبدیل متن به گفتار speech-2.5-turbo-preview از minimax، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند و درک نسبتا خوبی از متون فارسی دارد، اما ممکن است در تلفظ برخی کلمات و عبارات با مشکل مواجه شود.

مدل speech-2.5-turbo-preview از minimax یک مدل پیشرفته تبدیل متن به گفتار (TTS) با کیفیت بالا است که برای ارائه تجربه صوتی طبیعی و رسا طراحی شده است. این مدل با بهره‌گیری از فناوری‌های نوین در زمینه یادگیری عمیق و پردازش زبان طبیعی، قادر است متن‌های مختلف را با لحن‌ها و لهجه‌های گوناگون به گفتار تبدیل کند. یکی از ویژگی‌های برجسته این مدل، پشتیبانی گسترده از زبان‌های مختلف است. speech-2.5-turbo-preview از 40 زبان مختلف پشتیبانی می‌کند و به کاربران امکان می‌دهد تا محتوای صوتی خود را به زبان‌های متنوع تولید کنند. این ویژگی به ویژه برای کسب‌وکارها و سازمان‌هایی که با مخاطبان بین‌المللی در ارتباط هستند، بسیار ارزشمند است. این مدل نه تنها از نظر تعداد زبان‌های پشتیبانی شده، بلکه از نظر کیفیت و دقت در تلفظ نیز برتری دارد. با استفاده از الگوریتم‌های پیشرفته، speech-2.5-turbo-preview قادر است تلفظ صحیح کلمات و عبارات را در هر زبان تضمین کند. این امر باعث می‌شود تا محتوای صوتی تولید شده، طبیعی و قابل فهم باشد. علاوه بر این، این مدل امکان تنظیم لحن و سبک گفتار را نیز فراهم می‌کند. کاربران می‌توانند با استفاده از تنظیمات مختلف، لحن مورد نظر خود را برای تولید محتوای صوتی انتخاب کنند. این ویژگی به ویژه برای تولید محتوای آموزشی، تبلیغاتی و سرگرمی بسیار مفید است. مدل speech-2.5-turbo-preview همچنین از قابلیت‌های پیشرفته‌ای مانند تشخیص احساسات و انتقال آن‌ها به گفتار برخوردار است. این بدان معناست که مدل می‌تواند با توجه به متن ورودی، احساسات مختلفی مانند شادی، غم، تعجب و غیره را تشخیص داده و آن‌ها را در لحن گفتار خود منعکس کند. این ویژگی باعث می‌شود تا محتوای صوتی تولید شده، جذاب‌تر و تاثیرگذارتر باشد. یکی دیگر از ویژگی‌های مهم این مدل، قابلیت یکپارچه‌سازی آسان با سایر سیستم‌ها و پلتفرم‌ها است. speech-2.5-turbo-preview را می‌توان به راحتی با استفاده از API در برنامه‌ها و وب‌سایت‌های مختلف ادغام کرد. این امر به توسعه‌دهندگان امکان می‌دهد تا از قابلیت‌های این مدل در پروژه‌های خود بهره‌مند شوند. در مجموع، مدل speech-2.5-turbo-preview یک ابزار قدرتمند و کارآمد برای تبدیل متن به گفتار است که با ارائه کیفیت بالا، پشتیبانی گسترده از زبان‌ها و قابلیت‌های پیشرفته، می‌تواند نیازهای مختلف کاربران را در این زمینه برآورده کند. این مدل برای تولید محتوای آموزشی، تبلیغاتی، سرگرمی و غیره بسیار مناسب است و می‌تواند به کسب‌وکارها و سازمان‌ها در ارتباط بهتر با مخاطبان خود کمک کند.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تبدیل متن به گفتار. مقادیر مجاز (کلیک برای کپی):
text	stringRequired	متن برای تبدیل به گفتار. طول متن باید بین 1 تا 5000 کاراکتر باشد.
voice_setting	object	تنظیمات صدا برای لغو تنظیمات ذخیره شده برای صدای داده شده. این تنظیمات فقط در درخواست داده شده اعمال می شوند.
audio_setting	object	پیکربندی خروجی صدا
pronunciation_dict	object	فرهنگ لغت تلفظ سفارشی برای رسیدگی به کلمات یا عبارات خاص. امکان تنظیم دقیق نحوه تلفظ متن خاص با استفاده از نمایش های آوایی را فراهم می کند.
timbre_weights	object[]	پیکربندی ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف با وزن های مشخص را فراهم می کند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی مشارکت می کند.
stream	boolean	فعال کردن حالت استریم برای تولید صدای بلادرنگ. هنگامی که فعال است، صدا به صورت تکه تکه تولید و تحویل داده می شود.
language_boost	string	گزینه افزایش تشخیص زبان. مقادیر مجاز (کلیک برای کپی):
voice_modify	object	تنظیمات اصلاح صدا برای تنظیم زیر و بم، شدت، طنین و اعمال جلوه های صوتی برای سفارشی کردن ویژگی های صدا.
subtitle_enable	boolean	فعال کردن سرویس تولید زیرنویس. فقط برای درخواست های غیر جریانی در دسترس است. اطلاعات زمان بندی را برای گفتار سنتز شده تولید می کند.
output_format	string	فرمت محتوای خروجی برای درخواست های غیر جریانی. نحوه رمزگذاری داده های صوتی تولید شده در پاسخ را کنترل می کند. مقادیر مجاز (کلیک برای کپی):

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "minimax/speech-2.5-turbo-preview",
        "text": "Hi! What are you doing today?",
        "voice_setting": {
            "voice_id": "Wise_Woman"
        }
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.abspath("your_file_name.wav")
    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", dist)


main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T18:13:15.755Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}