Voice/Speech ModelsminimaxVoice Chat
معرفی و مستندات مدل هوش مصنوعی speech-2.6-hd
مستندات مدل speech-2.6-hd از minimax، ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. تلفظ و درک برخی عبارات ممکن است نیاز به تنظیمات داشته باشد.
مدل speech-2.6-hd از Minimax یک مدل پیشرفته تبدیل متن به گفتار (TTS) است که برای تولید خروجی صوتی با کیفیت بالا و صدای طبیعی طراحی شده است. این مدل به ویژه برای کاربردهایی که نیاز به صدای واضح، رسا و شبیه به انسان دارند، مناسب است. با استفاده از الگوریتمهای پیچیده و آموزش داده شده بر روی مجموعه دادههای گسترده، speech-2.6-hd قادر است متن را به گفتاری روان و طبیعی با لحن و آهنگ مناسب تبدیل کند.
یکی از ویژگیهای برجسته این مدل، پشتیبانی از صداهای متنوع است. این امکان به کاربران اجازه میدهد تا صدای مورد نظر خود را از بین گزینههای مختلف انتخاب کنند و یا حتی ترکیبی از صداها را برای تولید خروجی صوتی سفارشی ایجاد کنند. این ویژگی به ویژه برای تولید محتوای چندرسانهای، کتابهای صوتی، و دستیارهای صوتی که نیاز به شخصیتپردازی دارند، بسیار مفید است.
مدل speech-2.6-hd برای بهینهسازی وفاداری بالا و خروجی صدای طبیعی طراحی شده است. این مدل با استفاده از تکنیکهای پیشرفته پردازش سیگنال صوتی، نویز و اعوجاج را به حداقل میرساند و صدایی واضح و شفاف تولید میکند. این ویژگی به ویژه برای کاربردهایی که کیفیت صدا در آنها اهمیت بالایی دارد، مانند سیستمهای پاسخگویی تلفنی، آموزش آنلاین، و تولید محتوای حرفهای، بسیار مهم است.
علاوه بر این، مدل speech-2.6-hd قابلیت تنظیم دقیق پارامترهای صوتی را نیز فراهم میکند. کاربران میتوانند مواردی مانند سرعت گفتار، زیر و بمی صدا، و حجم صدا را به دلخواه تنظیم کنند تا خروجی صوتی دقیقا مطابق با نیازهای آنها باشد. این انعطافپذیری به کاربران اجازه میدهد تا تجربهای سفارشی و بهینه از تبدیل متن به گفتار داشته باشند.
این مدل در ای آی کار (AI-KAR) به عنوان یکی از ابزارهای کلیدی در دسترس توسعهدهندگان و کاربران قرار گرفته است تا بتوانند به راحتی از قابلیتهای پیشرفته آن در پروژههای خود بهره ببرند. با استفاده از API ساده و قابل فهم، ادغام این مدل در برنامههای مختلف بسیار آسان است و کاربران میتوانند به سرعت و به سادگی از امکانات آن استفاده کنند. مدل speech-2.6-hd یک انتخاب عالی برای هر کسی است که به دنبال یک راه حل قدرتمند و با کیفیت برای تبدیل متن به گفتار است.
یکی از ویژگیهای برجسته این مدل، پشتیبانی از صداهای متنوع است. این امکان به کاربران اجازه میدهد تا صدای مورد نظر خود را از بین گزینههای مختلف انتخاب کنند و یا حتی ترکیبی از صداها را برای تولید خروجی صوتی سفارشی ایجاد کنند. این ویژگی به ویژه برای تولید محتوای چندرسانهای، کتابهای صوتی، و دستیارهای صوتی که نیاز به شخصیتپردازی دارند، بسیار مفید است.
مدل speech-2.6-hd برای بهینهسازی وفاداری بالا و خروجی صدای طبیعی طراحی شده است. این مدل با استفاده از تکنیکهای پیشرفته پردازش سیگنال صوتی، نویز و اعوجاج را به حداقل میرساند و صدایی واضح و شفاف تولید میکند. این ویژگی به ویژه برای کاربردهایی که کیفیت صدا در آنها اهمیت بالایی دارد، مانند سیستمهای پاسخگویی تلفنی، آموزش آنلاین، و تولید محتوای حرفهای، بسیار مهم است.
علاوه بر این، مدل speech-2.6-hd قابلیت تنظیم دقیق پارامترهای صوتی را نیز فراهم میکند. کاربران میتوانند مواردی مانند سرعت گفتار، زیر و بمی صدا، و حجم صدا را به دلخواه تنظیم کنند تا خروجی صوتی دقیقا مطابق با نیازهای آنها باشد. این انعطافپذیری به کاربران اجازه میدهد تا تجربهای سفارشی و بهینه از تبدیل متن به گفتار داشته باشند.
این مدل در ای آی کار (AI-KAR) به عنوان یکی از ابزارهای کلیدی در دسترس توسعهدهندگان و کاربران قرار گرفته است تا بتوانند به راحتی از قابلیتهای پیشرفته آن در پروژههای خود بهره ببرند. با استفاده از API ساده و قابل فهم، ادغام این مدل در برنامههای مختلف بسیار آسان است و کاربران میتوانند به سرعت و به سادگی از امکانات آن استفاده کنند. مدل speech-2.6-hd یک انتخاب عالی برای هر کسی است که به دنبال یک راه حل قدرتمند و با کیفیت برای تبدیل متن به گفتار است.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت `minimax/speech-2.6-hd` را بپذیرید. مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متن برای تبدیل به گفتار. طول متن باید بین 1 تا 5000 کاراکتر باشد. |
voice_setting | object | تنظیمات صدا برای سفارشیسازی. تنظیمات پیشفرض برای `voice_id` برابر `Wise_Woman` است. |
audio_setting | object | تنظیمات خروجی صدا. |
pronunciation_dict | object | فرهنگ لغت تلفظ سفارشی برای مدیریت کلمات یا عبارات خاص. امکان تنظیم دقیق نحوه تلفظ متن با استفاده از نمایشهای آوایی را فراهم میکند. |
timbre_weights | object[] | تنظیمات ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف با وزنهای مشخص را فراهم میکند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی مشارکت میکند. |
stream | boolean | فعال کردن حالت استریم برای تولید صدای بیدرنگ. در صورت فعال بودن، صدا به صورت تکهای تولید و تحویل داده میشود. |
language_boost | string | گزینه تقویت تشخیص زبان. مقادیر مجاز (کلیک برای کپی): |
voice_modify | object | تنظیمات تغییر صدا برای تنظیم زیر و بمی، شدت، طنین و اعمال جلوههای صوتی برای سفارشیسازی ویژگیهای صدا. |
subtitle_enable | boolean | فعال کردن سرویس تولید زیرنویس. فقط برای درخواستهای غیر استریم در دسترس است. اطلاعات زمانبندی برای گفتار سنتز شده را تولید میکند. |
output_format | string | فرمت محتوای خروجی برای درخواستهای غیر استریم. نحوه رمزگذاری دادههای صوتی تولید شده در پاسخ را کنترل میکند. مقادیر مجاز (کلیک برای کپی): |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import os
import requests
def main():
url = "https://api.ai-kar.com/v1/tts"
headers = {
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
}
payload = {
"model": "minimax/speech-2.6-hd",
"text": "Hi! What are you doing today?",
"voice_setting": {
"voice_id": "Wise_Woman"
}
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.abspath("your_file_name.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T18:07:43.837Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}