Voice/Speech ModelsopenaiText-to-Speech

معرفی و مستندات مدل هوش مصنوعی tts-1

مستندات مدل tts-1 برای تبدیل متن به گفتار، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک مطلب فارسی قابل قبول است اما تلفظ و آهنگ صدا ممکن است کاملاً طبیعی نباشد.

مدل tts-1 یک مدل پیشرفته تبدیل متن به گفتار است که توسط OpenAI توسعه داده شده است. این مدل قادر است متن را به گفتاری طبیعی و رسا تبدیل کند. یکی از ویژگی‌های برجسته این مدل، سرعت بالای آن در تولید صدا است که آن را برای کاربردهای زمان واقعی (Realtime) بسیار مناسب می‌سازد. این مدل می‌تواند در زمینه‌های مختلفی مورد استفاده قرار گیرد، از جمله تولید محتوای صوتی برای کتاب‌های صوتی، پادکست‌ها، و مقالات خبری. همچنین، می‌تواند در سیستم‌های پاسخگویی خودکار، دستیارهای صوتی، و برنامه‌های آموزشی آنلاین به کار رود. مدل tts-1 از صداهای متنوعی پشتیبانی می‌کند که به کاربران امکان می‌دهد صدای مورد نظر خود را انتخاب کنند. این تنوع صدا به کاربران اجازه می‌دهد تا صدایی را انتخاب کنند که با محتوای مورد نظرشان هماهنگ باشد و تجربه کاربری بهتری را ارائه دهد. علاوه بر این، مدل tts-1 قابلیت تنظیم سرعت گفتار را نیز دارد، که این امکان را به کاربران می‌دهد تا سرعت پخش صدا را بر اساس نیاز خود تنظیم کنند. این ویژگی به ویژه برای افرادی که به دنبال یادگیری زبان هستند یا نیاز به گوش دادن به محتوا با سرعت‌های مختلف دارند، بسیار مفید است. مدل tts-1 با استفاده از تکنیک‌های پیشرفته یادگیری عمیق آموزش داده شده است، که این امر باعث شده است تا بتواند گفتاری طبیعی و روان تولید کند. این مدل قادر است الگوهای زبانی پیچیده را درک کند و صداهایی تولید کند که بسیار شبیه به صدای انسان هستند. همچنین، مدل tts-1 از نظر مصرف منابع نیز بهینه شده است، که این امر باعث می‌شود تا بتواند بر روی دستگاه‌های مختلف با قدرت پردازشی متفاوت اجرا شود. این مدل به طور مداوم در حال بهبود است و OpenAI در تلاش است تا با ارائه به‌روزرسانی‌های جدید، کیفیت و قابلیت‌های آن را افزایش دهد. با استفاده از مدل tts-1، کاربران می‌توانند به راحتی متن‌های خود را به گفتار تبدیل کنند و از مزایای این فناوری پیشرفته بهره‌مند شوند. این مدل یک ابزار قدرتمند برای تولید محتوای صوتی با کیفیت بالا است و می‌تواند در زمینه‌های مختلفی مورد استفاده قرار گیرد. ای آی کار (AI-KAR) این مدل را به شما پیشنهاد می کند.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تبدیل متن به گفتار. مقدار آن باید `openai/tts-1` باشد. مقادیر مجاز (کلیک برای کپی):
text	stringRequired	متنی که قرار است به گفتار تبدیل شود. حداقل طول: 1 کاراکتر، حداکثر طول: 4096 کاراکتر.
voice	stringRequired	نام صدایی که باید استفاده شود. مقادیر مجاز (کلیک برای کپی):
style	string	تعیین میزان اغراق در سبک صدا. این تنظیمات سعی می کند سبک سخنران اصلی را تقویت کند. اگر مقدار آن غیر از 0 باشد، منابع محاسباتی بیشتری مصرف می کند و ممکن است تاخیر را افزایش دهد.
response_format	string	فرمت محتوای خروجی برای درخواست‌های غیرجریانی. کنترل می‌کند که داده‌های صوتی تولید شده چگونه در پاسخ رمزگذاری شوند. مقادیر مجاز (کلیک برای کپی):
speed	number	تنظیم سرعت صدا. مقدار 1.0 سرعت پیش‌فرض است، مقادیر کمتر از 1.0 سرعت گفتار را کاهش می‌دهند و مقادیر بیشتر از 1.0 سرعت آن را افزایش می‌دهند.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests

# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"
headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json",
}

data = {
    "model": "openai/tts-1",
    "text": "TTS-1 is a fast and powerful language model. Use it to convert text to natural sounding spoken text.",
    "voice": "coral",
}

response = requests.post(f"{base_url}/tts", headers=headers, json=data)
response.raise_for_status()
result = response.json()
print("Audio URL:", result["audio"]["url"])

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T20:08:52.409Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}