Voice/Speech ModelsminimaxVoice Chat
معرفی و مستندات مدل هوش مصنوعی speech-2.5-turbo-preview
مستندات مدل تبدیل متن به گفتار speech-2.5-turbo-preview از minimax، ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند و درک نسبتا خوبی از متون فارسی دارد، اما ممکن است در تلفظ برخی کلمات و عبارات با مشکل مواجه شود.
مدل speech-2.5-turbo-preview از minimax یک مدل پیشرفته تبدیل متن به گفتار (TTS) با کیفیت بالا است که برای ارائه تجربه صوتی طبیعی و رسا طراحی شده است. این مدل با بهرهگیری از فناوریهای نوین در زمینه یادگیری عمیق و پردازش زبان طبیعی، قادر است متنهای مختلف را با لحنها و لهجههای گوناگون به گفتار تبدیل کند. یکی از ویژگیهای برجسته این مدل، پشتیبانی گسترده از زبانهای مختلف است. speech-2.5-turbo-preview از 40 زبان مختلف پشتیبانی میکند و به کاربران امکان میدهد تا محتوای صوتی خود را به زبانهای متنوع تولید کنند. این ویژگی به ویژه برای کسبوکارها و سازمانهایی که با مخاطبان بینالمللی در ارتباط هستند، بسیار ارزشمند است. این مدل نه تنها از نظر تعداد زبانهای پشتیبانی شده، بلکه از نظر کیفیت و دقت در تلفظ نیز برتری دارد. با استفاده از الگوریتمهای پیشرفته، speech-2.5-turbo-preview قادر است تلفظ صحیح کلمات و عبارات را در هر زبان تضمین کند. این امر باعث میشود تا محتوای صوتی تولید شده، طبیعی و قابل فهم باشد. علاوه بر این، این مدل امکان تنظیم لحن و سبک گفتار را نیز فراهم میکند. کاربران میتوانند با استفاده از تنظیمات مختلف، لحن مورد نظر خود را برای تولید محتوای صوتی انتخاب کنند. این ویژگی به ویژه برای تولید محتوای آموزشی، تبلیغاتی و سرگرمی بسیار مفید است. مدل speech-2.5-turbo-preview همچنین از قابلیتهای پیشرفتهای مانند تشخیص احساسات و انتقال آنها به گفتار برخوردار است. این بدان معناست که مدل میتواند با توجه به متن ورودی، احساسات مختلفی مانند شادی، غم، تعجب و غیره را تشخیص داده و آنها را در لحن گفتار خود منعکس کند. این ویژگی باعث میشود تا محتوای صوتی تولید شده، جذابتر و تاثیرگذارتر باشد. یکی دیگر از ویژگیهای مهم این مدل، قابلیت یکپارچهسازی آسان با سایر سیستمها و پلتفرمها است. speech-2.5-turbo-preview را میتوان به راحتی با استفاده از API در برنامهها و وبسایتهای مختلف ادغام کرد. این امر به توسعهدهندگان امکان میدهد تا از قابلیتهای این مدل در پروژههای خود بهرهمند شوند. در مجموع، مدل speech-2.5-turbo-preview یک ابزار قدرتمند و کارآمد برای تبدیل متن به گفتار است که با ارائه کیفیت بالا، پشتیبانی گسترده از زبانها و قابلیتهای پیشرفته، میتواند نیازهای مختلف کاربران را در این زمینه برآورده کند. این مدل برای تولید محتوای آموزشی، تبلیغاتی، سرگرمی و غیره بسیار مناسب است و میتواند به کسبوکارها و سازمانها در ارتباط بهتر با مخاطبان خود کمک کند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تبدیل متن به گفتار. مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متن برای تبدیل به گفتار. طول متن باید بین 1 تا 5000 کاراکتر باشد. |
voice_setting | object | تنظیمات صدا برای لغو تنظیمات ذخیره شده برای صدای داده شده. این تنظیمات فقط در درخواست داده شده اعمال می شوند. |
audio_setting | object | پیکربندی خروجی صدا |
pronunciation_dict | object | فرهنگ لغت تلفظ سفارشی برای رسیدگی به کلمات یا عبارات خاص. امکان تنظیم دقیق نحوه تلفظ متن خاص با استفاده از نمایش های آوایی را فراهم می کند. |
timbre_weights | object[] | پیکربندی ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف با وزن های مشخص را فراهم می کند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی مشارکت می کند. |
stream | boolean | فعال کردن حالت استریم برای تولید صدای بلادرنگ. هنگامی که فعال است، صدا به صورت تکه تکه تولید و تحویل داده می شود. |
language_boost | string | گزینه افزایش تشخیص زبان. مقادیر مجاز (کلیک برای کپی): |
voice_modify | object | تنظیمات اصلاح صدا برای تنظیم زیر و بم، شدت، طنین و اعمال جلوه های صوتی برای سفارشی کردن ویژگی های صدا. |
subtitle_enable | boolean | فعال کردن سرویس تولید زیرنویس. فقط برای درخواست های غیر جریانی در دسترس است. اطلاعات زمان بندی را برای گفتار سنتز شده تولید می کند. |
output_format | string | فرمت محتوای خروجی برای درخواست های غیر جریانی. نحوه رمزگذاری داده های صوتی تولید شده در پاسخ را کنترل می کند. مقادیر مجاز (کلیک برای کپی): |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import os
import requests
def main():
url = "https://api.ai-kar.com/v1/tts"
headers = {
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
}
payload = {
"model": "minimax/speech-2.5-turbo-preview",
"text": "Hi! What are you doing today?",
"voice_setting": {
"voice_id": "Wise_Woman"
}
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.abspath("your_file_name.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T18:13:15.755Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}