Voice/Speech ModelsminimaxVoice Chat
معرفی و مستندات مدل هوش مصنوعی speech-2.5-hd-preview
مستندات مدل speech-2.5-hd-preview از ای آی کار (AI-KAR): یک مدل تبدیل متن به گفتار با کیفیت بالا.
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. درک مطلب و تولید گفتار به زبان فارسی در سطح قابل قبولی است، اما ممکن است در تلفظ برخی کلمات و عبارات پیچیده، دقت کمتری داشته باشد.
مدل speech-2.5-hd-preview از minimax، یک مدل تبدیل متن به گفتار (TTS) با کیفیت بالا است که توسط ای آی کار (AI-KAR) ارائه شده است. این مدل با هدف ارائه صدایی طبیعیتر و رساتر طراحی شده است و از قابلیتهای پیشرفتهای برای تولید گفتار در زبانهای مختلف بهره میبرد. این مدل به طور خاص برای ارائه کیفیت صدای عالی، بازتولید دقیق صدا و پشتیبانی گسترده از 40 زبان مختلف توسعه یافته است. این مدل با بهرهگیری از تکنولوژیهای نوین در زمینه یادگیری عمیق، قادر است تا با دقت بالایی متن ورودی را به گفتار تبدیل کند و جزئیات ظریف زبانی مانند لحن، آهنگ و احساسات را در صدای تولید شده منعکس کند. یکی از ویژگیهای برجسته این مدل، توانایی آن در بازتولید دقیق صدا است. این به این معنی است که مدل میتواند صدای یک فرد خاص را با دقت بالایی شبیهسازی کند و گفتاری تولید کند که به صدای اصلی بسیار نزدیک باشد. این قابلیت برای کاربردهایی مانند تولید کتابهای صوتی با صدای نویسنده، ایجاد دستیارهای صوتی شخصیسازی شده و تولید محتوای آموزشی با صدای اساتید بسیار مفید است. علاوه بر این، مدل speech-2.5-hd-preview از طیف گستردهای از زبانها پشتیبانی میکند. این امر به کاربران امکان میدهد تا از این مدل برای تولید گفتار در زبانهای مختلف استفاده کنند و محتوای خود را به مخاطبان گستردهتری ارائه دهند. پشتیبانی از 40 زبان مختلف، این مدل را به یک ابزار قدرتمند برای کسبوکارها و سازمانهایی تبدیل میکند که به دنبال ارائه خدمات چندزبانه هستند. این مدل برای کاربردهای مختلفی مناسب است، از جمله تولید کتابهای صوتی، ایجاد دستیارهای صوتی، تولید محتوای آموزشی، ارائه خدمات مشتریان از طریق تلفن و تولید تبلیغات صوتی. با استفاده از این مدل، کاربران میتوانند به راحتی و با کیفیت بالا، متن را به گفتار تبدیل کنند و محتوای خود را به شکلی جذاب و قابل دسترس ارائه دهند. در مجموع، مدل speech-2.5-hd-preview یک ابزار قدرتمند و کارآمد برای تبدیل متن به گفتار است که با ارائه کیفیت صدای عالی، بازتولید دقیق صدا و پشتیبانی گسترده از زبانهای مختلف، نیازهای مختلف کاربران را برآورده میکند. این مدل توسط ای آی کار (AI-KAR) ارائه شده است و به کاربران امکان میدهد تا به راحتی و با کیفیت بالا، محتوای خود را به گفتار تبدیل کنند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تبدیل متن به گفتار. مقدار این پارامتر باید `minimax/speech-2.5-hd-preview` باشد. مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متن مورد نظر برای تبدیل به گفتار. طول متن باید بین 1 تا 5000 کاراکتر باشد. |
voice_setting | object | تنظیمات مربوط به صدا. این پارامتر اختیاری است و برای تغییر تنظیمات پیشفرض صدا استفاده میشود. |
audio_setting | object | تنظیمات مربوط به خروجی صدا. این پارامتر اختیاری است و برای پیکربندی خروجی صدا استفاده میشود. |
pronunciation_dict | object | فرهنگ لغت تلفظ سفارشی برای مدیریت کلمات یا عبارات خاص. به شما امکان می دهد نحوه تلفظ متن خاص را با استفاده از نمایش های آوایی تنظیم کنید. |
timbre_weights | object[] | پیکربندی ترکیب صدا که امکان ترکیب حداکثر 4 صدای مختلف را با وزن های مشخص شده فراهم می کند. هر صدا بر اساس مقدار وزن خود (1-100) در خروجی نهایی نقش دارد. |
stream | boolean | فعال کردن حالت استریم برای تولید صدای بیدرنگ. وقتی فعال باشد، صدا به صورت تکه تکه تولید و ارائه میشود. |
language_boost | string | گزینه تقویت تشخیص زبان. مقادیر مجاز (کلیک برای کپی): |
voice_modify | object | تنظیمات تغییر صدا برای تنظیم زیر و بمی، شدت، طنین و اعمال جلوه های صوتی برای سفارشی کردن ویژگی های صدا. |
subtitle_enable | boolean | فعال کردن سرویس تولید زیرنویس. فقط برای درخواست های غیر جریانی در دسترس است. اطلاعات زمان بندی را برای گفتار سنتز شده ایجاد می کند. |
output_format | string | فرمت محتوای خروجی برای درخواست های غیر جریانی. نحوه رمزگذاری داده های صوتی تولید شده در پاسخ را کنترل می کند. مقادیر مجاز (کلیک برای کپی): |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import os
import requests
def main():
url = "https://api.ai-kar.com/v1/tts"
headers = {
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
}
payload = {
"model": "minimax/speech-2.5-hd-preview",
"text": "Hi! What are you doing today?",
"voice_setting": {
"voice_id": "Wise_Woman"
}
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.abspath("your_file_name.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T21:30:42.172Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}