Voice/Speech ModelsopenaiText-to-Speech
معرفی و مستندات مدل هوش مصنوعی gpt-4o-mini-tts
مستندات مدل تبدیل متن به گفتار gpt-4o-mini-tts ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. برای دستیابی به بهترین نتیجه، توصیه میشود از متون فارسی استاندارد و بدون غلط املایی استفاده کنید.
مدل gpt-4o-mini-tts یک مدل تبدیل متن به گفتار (TTS) است که توسط OpenAI توسعه داده شده است. این مدل بر پایه معماری GPT-4o mini ساخته شده و قادر است متن را به گفتار طبیعی و رسا تبدیل کند. این مدل از حداکثر 2000 توکن ورودی پشتیبانی میکند، که آن را برای تولید صدا از متون کوتاه تا متوسط مناسب میسازد. سرعت و کارایی بالا از ویژگیهای برجسته این مدل است که امکان استفاده در برنامههای کاربردی مختلف را فراهم میکند.
از جمله کاربردهای این مدل میتوان به موارد زیر اشاره کرد:
* **دستیارهای صوتی:** استفاده در دستیارهای صوتی برای پاسخگویی به سوالات کاربران و ارائه اطلاعات.
* **خوانش متون:** تبدیل متون دیجیتال به گفتار برای افراد دارای مشکلات بینایی یا کسانی که ترجیح میدهند به جای خواندن، به محتوا گوش دهند.
* **تولید محتوای صوتی:** ایجاد پادکستها، کتابهای صوتی و سایر فرمتهای محتوای صوتی.
* **آموزش الکترونیکی:** استفاده در دورههای آموزشی آنلاین برای ارائه توضیحات صوتی و تعاملی.
* **بازیهای ویدیویی:** تولید دیالوگهای شخصیتها و روایت داستان.
* **اعلانها و هشدارها:** استفاده در سیستمهای اعلان و هشدار برای ارائه پیامهای صوتی.
مدل gpt-4o-mini-tts با ارائه کیفیت صدای بالا و سرعت مناسب، یک گزینه عالی برای توسعهدهندگان و کسبوکارهایی است که به دنبال یک راهکار تبدیل متن به گفتار کارآمد و مقرونبهصرفه هستند. این مدل با پشتیبانی از تنظیمات مختلف صدا و سبک، امکان تولید گفتاری متنوع و متناسب با نیازهای مختلف را فراهم میکند. همچنین، با توجه به حجم کم و سرعت بالای پردازش، میتوان از آن در دستگاهها و پلتفرمهای مختلف استفاده کرد.
برای استفاده از این مدل، ابتدا باید یک کلید API از سرویس AI-KAR دریافت کنید. سپس میتوانید با استفاده از زبانهای برنامهنویسی مختلف مانند Python، JavaScript و cURL، درخواستهای خود را به API ارسال کرده و متن مورد نظر را به گفتار تبدیل کنید. در مستندات ارائه شده، نمونه کدهایی برای هر یک از این زبانها ارائه شده است که به شما کمک میکند به سرعت شروع به کار کنید.
با استفاده از این مدل، میتوانید تجربهای کاربری جذاب و تعاملی را برای مخاطبان خود فراهم کنید و محتوای خود را به شکلی جدید و قابل دسترس ارائه دهید.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت `openai/gpt-4o-mini-tts` را بپذیرید. مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متن مورد نظر برای تبدیل به گفتار. طول متن باید بین 1 تا 4096 کاراکتر باشد. |
voice | stringRequired | نام صدای مورد استفاده برای تبدیل متن به گفتار. مقادیر مجاز (کلیک برای کپی): |
style | string | تعیین میزان اغراق در سبک صدا. این تنظیمات سعی می کند سبک گوینده اصلی را تقویت کند. این کار منابع محاسباتی اضافی مصرف می کند و اگر روی مقداری غیر از 0 تنظیم شود، ممکن است تأخیر را افزایش دهد. |
response_format | string | فرمت محتوای خروجی برای درخواستهای غیر جریانی. کنترل میکند که دادههای صوتی تولید شده چگونه در پاسخ رمزگذاری شوند. مقادیر مجاز (کلیک برای کپی): |
speed | number | تنظیم سرعت صدا. مقدار 1.0 سرعت پیشفرض است، مقادیر کمتر از 1.0 سرعت را کاهش میدهند و مقادیر بیشتر از 1.0 سرعت را افزایش میدهند. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json",
}
data = {
"model": "openai/gpt-4o-mini-tts",
"text": "GPT-4o-mini-tts is a small and fast model. Use it to convert text to natural sounding spoken text.",
"voice": "coral",
}
response = requests.post(f"{base_url}/tts", headers=headers, json=data)
response.raise_for_status()
result = response.json()
print("Audio URL:", result["audio"]["url"])
نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T16:55:57.881Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}