Voice/Speech ModelsminimaxVoice Chat
معرفی و مستندات مدل هوش مصنوعی speech-2.6-turbo
مستندات مدل تبدیل متن به گفتار speech-2.6-turbo از minimax، ارائه شده توسط ای آی کار (AI-KAR).
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. درک مطلب فارسی در سطح خوبی است اما ممکن است در تلفظ برخی کلمات و عبارات با مشکل مواجه شود.
مدل speech-2.6-turbo از minimax یک مدل پیشرفته تبدیل متن به گفتار (TTS) است که برای تولید سریع و با کمترین تأخیر صدا بهینه شده است. این مدل به توسعهدهندگان این امکان را میدهد تا به راحتی متنهای خود را به گفتار با کیفیت بالا تبدیل کنند. یکی از ویژگیهای برجسته این مدل، پشتیبانی از صداهای متنوع است که به کاربران امکان میدهد صدای مورد نظر خود را برای تولید گفتار انتخاب کنند. این ویژگی به ویژه برای برنامههایی که نیاز به شخصیسازی صدا دارند، بسیار مفید است. مدل speech-2.6-turbo با استفاده از الگوریتمهای پیشرفته یادگیری عمیق، قادر است تا گفتاری طبیعی و روان تولید کند. این مدل نه تنها کلمات را به درستی تلفظ میکند، بلکه قادر است تا لحن و آهنگ صدا را نیز به گونهای تنظیم کند که با متن هماهنگ باشد. این ویژگی باعث میشود تا گفتار تولید شده بسیار طبیعی و جذاب به نظر برسد. یکی دیگر از ویژگیهای مهم این مدل، سرعت بالای تولید گفتار است. مدل speech-2.6-turbo به گونهای طراحی شده است که بتواند در کمترین زمان ممکن، متن را به گفتار تبدیل کند. این ویژگی به ویژه برای برنامههایی که نیاز به پاسخگویی سریع دارند، بسیار حائز اهمیت است. به عنوان مثال، در برنامههای دستیار صوتی، سرعت بالای تولید گفتار میتواند تجربه کاربری را به طور قابل توجهی بهبود بخشد. علاوه بر این، مدل speech-2.6-turbo از API ساده و کاربرپسندی برخوردار است که به توسعهدهندگان این امکان را میدهد تا به راحتی از آن در برنامههای خود استفاده کنند. این API به توسعهدهندگان امکان میدهد تا پارامترهای مختلفی مانند صدا، سرعت، و لحن گفتار را تنظیم کنند. این ویژگی به توسعهدهندگان این امکان را میدهد تا گفتار تولید شده را به طور دقیق با نیازهای خود هماهنگ کنند. در نهایت، مدل speech-2.6-turbo یک ابزار قدرتمند و کارآمد برای تبدیل متن به گفتار است که میتواند در طیف گستردهای از برنامهها مورد استفاده قرار گیرد. از برنامههای دستیار صوتی گرفته تا برنامههای آموزشی و تبلیغاتی، این مدل میتواند به بهبود تجربه کاربری و افزایش کارایی کمک کند. با توجه به ویژگیهای برجسته این مدل، میتوان انتظار داشت که در آیندهای نزدیک، به یکی از محبوبترین مدلهای TTS در بین توسعهدهندگان تبدیل شود. این مدل توسط ای آی کار (AI-KAR) ارائه شده است.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت: minimax/speech-2.6-turbo مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متن مورد نظر برای تبدیل به گفتار. حداقل طول: 1 کاراکتر، حداکثر طول: 5000 کاراکتر. |
voice_setting | object | تنظیمات صدا برای سفارشیسازی. در صورت عدم تعیین، از تنظیمات پیشفرض صدا استفاده میشود. مقدار پیشفرض: {"voice_id":"Wise_Woman"} |
audio_setting | object | تنظیمات خروجی صدا. |
pronunciation_dict | object | فرهنگ لغت تلفظ سفارشی برای مدیریت کلمات یا عبارات خاص. امکان تنظیم دقیق نحوه تلفظ متن با استفاده از نمایشهای آوایی. |
timbre_weights | object[] | تنظیمات ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف را با وزنهای مشخص فراهم میکند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی نقش دارد. |
stream | boolean | فعال کردن حالت استریم برای تولید صدای بیدرنگ. در صورت فعال بودن، صدا به صورت تکهای تولید و تحویل داده میشود. مقدار پیشفرض: false |
language_boost | string | گزینه تقویت تشخیص زبان. مقادیر مجاز (کلیک برای کپی): |
voice_modify | object | تنظیمات تغییر صدا برای تنظیم زیر و بمی، شدت، طنین و اعمال جلوههای صوتی برای سفارشیسازی ویژگیهای صدا. |
subtitle_enable | boolean | فعال کردن سرویس تولید زیرنویس. فقط برای درخواستهای غیر استریم در دسترس است. اطلاعات زمانبندی را برای گفتار تولید شده ایجاد میکند. مقدار پیشفرض: false |
output_format | string | فرمت محتوای خروجی برای درخواستهای غیر استریم. نحوه رمزگذاری دادههای صوتی تولید شده در پاسخ را کنترل میکند. مقدار پیشفرض: hex مقادیر مجاز (کلیک برای کپی): |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import os
import requests
def main():
url = "https://api.ai-kar.com/v1/tts"
headers = {
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
}
payload = {
"model": " minimax/speech-2.6-turbo",
"text": "Hi! What are you doing today?",
"voice_setting": {
"voice_id": "Wise_Woman"
}
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.abspath("your_file_name.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T18:10:30.403Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}