Voice/Speech ModelsopenaiText-to-Speech

معرفی و مستندات مدل هوش مصنوعی gpt-4o-mini-tts

مستندات مدل تبدیل متن به گفتار gpt-4o-mini-tts ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. برای دستیابی به بهترین نتیجه، توصیه می‌شود از متون فارسی استاندارد و بدون غلط املایی استفاده کنید.

مدل gpt-4o-mini-tts یک مدل تبدیل متن به گفتار (TTS) است که توسط OpenAI توسعه داده شده است. این مدل بر پایه معماری GPT-4o mini ساخته شده و قادر است متن را به گفتار طبیعی و رسا تبدیل کند. این مدل از حداکثر 2000 توکن ورودی پشتیبانی می‌کند، که آن را برای تولید صدا از متون کوتاه تا متوسط مناسب می‌سازد. سرعت و کارایی بالا از ویژگی‌های برجسته این مدل است که امکان استفاده در برنامه‌های کاربردی مختلف را فراهم می‌کند.
از جمله کاربردهای این مدل می‌توان به موارد زیر اشاره کرد: * **دستیارهای صوتی:** استفاده در دستیارهای صوتی برای پاسخگویی به سوالات کاربران و ارائه اطلاعات. * **خوانش متون:** تبدیل متون دیجیتال به گفتار برای افراد دارای مشکلات بینایی یا کسانی که ترجیح می‌دهند به جای خواندن، به محتوا گوش دهند. * **تولید محتوای صوتی:** ایجاد پادکست‌ها، کتاب‌های صوتی و سایر فرمت‌های محتوای صوتی. * **آموزش الکترونیکی:** استفاده در دوره‌های آموزشی آنلاین برای ارائه توضیحات صوتی و تعاملی. * **بازی‌های ویدیویی:** تولید دیالوگ‌های شخصیت‌ها و روایت داستان. * **اعلان‌ها و هشدارها:** استفاده در سیستم‌های اعلان و هشدار برای ارائه پیام‌های صوتی. مدل gpt-4o-mini-tts با ارائه کیفیت صدای بالا و سرعت مناسب، یک گزینه عالی برای توسعه‌دهندگان و کسب‌وکارهایی است که به دنبال یک راهکار تبدیل متن به گفتار کارآمد و مقرون‌به‌صرفه هستند. این مدل با پشتیبانی از تنظیمات مختلف صدا و سبک، امکان تولید گفتاری متنوع و متناسب با نیازهای مختلف را فراهم می‌کند. همچنین، با توجه به حجم کم و سرعت بالای پردازش، می‌توان از آن در دستگاه‌ها و پلتفرم‌های مختلف استفاده کرد.
برای استفاده از این مدل، ابتدا باید یک کلید API از سرویس AI-KAR دریافت کنید. سپس می‌توانید با استفاده از زبان‌های برنامه‌نویسی مختلف مانند Python، JavaScript و cURL، درخواست‌های خود را به API ارسال کرده و متن مورد نظر را به گفتار تبدیل کنید. در مستندات ارائه شده، نمونه کدهایی برای هر یک از این زبان‌ها ارائه شده است که به شما کمک می‌کند به سرعت شروع به کار کنید.
با استفاده از این مدل، می‌توانید تجربه‌ای کاربری جذاب و تعاملی را برای مخاطبان خود فراهم کنید و محتوای خود را به شکلی جدید و قابل دسترس ارائه دهید.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت `openai/gpt-4o-mini-tts` را بپذیرید.
مقادیر مجاز (کلیک برای کپی):
text
stringRequired
متن مورد نظر برای تبدیل به گفتار. طول متن باید بین 1 تا 4096 کاراکتر باشد.
voice
stringRequired
نام صدای مورد استفاده برای تبدیل متن به گفتار.
مقادیر مجاز (کلیک برای کپی):
style
string
تعیین میزان اغراق در سبک صدا. این تنظیمات سعی می کند سبک گوینده اصلی را تقویت کند. این کار منابع محاسباتی اضافی مصرف می کند و اگر روی مقداری غیر از 0 تنظیم شود، ممکن است تأخیر را افزایش دهد.
response_format
string
فرمت محتوای خروجی برای درخواست‌های غیر جریانی. کنترل می‌کند که داده‌های صوتی تولید شده چگونه در پاسخ رمزگذاری شوند.
مقادیر مجاز (کلیک برای کپی):
speed
number
تنظیم سرعت صدا. مقدار 1.0 سرعت پیش‌فرض است، مقادیر کمتر از 1.0 سرعت را کاهش می‌دهند و مقادیر بیشتر از 1.0 سرعت را افزایش می‌دهند.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests

# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"
headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json",
}
data = {
    "model": "openai/gpt-4o-mini-tts",
    "text": "GPT-4o-mini-tts is a small and fast model. Use it to convert text to natural sounding spoken text.",
    "voice": "coral",
}
response = requests.post(f"{base_url}/tts", headers=headers, json=data)
response.raise_for_status()
result = response.json()
print("Audio URL:", result["audio"]["url"])

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T16:55:57.881Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}