Voice/Speech ModelsopenaiText-to-Speech

معرفی و مستندات مدل هوش مصنوعی tts-1-hd

مستندات مدل tts-1-hd برای تبدیل متن به گفتار با کیفیت بالا، ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. تلفظ کلمات فارسی ممکن است همیشه دقیق نباشد و نیاز به تنظیمات بیشتری داشته باشد.

مدل tts-1-hd از OpenAI، یک مدل پیشرفته تبدیل متن به گفتار (TTS) است که برای تولید صدای با کیفیت بالا و طبیعی طراحی شده است. این مدل قادر است متن را به گفتاری روان و واضح تبدیل کند، و برای طیف گسترده‌ای از کاربردها مناسب است. از جمله کاربردهای این مدل می‌توان به موارد زیر اشاره کرد: تولید محتوای صوتی برای کتاب‌های صوتی، پادکست‌ها، مقالات و سایر متون؛ ایجاد صداهای سفارشی برای دستیارهای مجازی و ربات‌های گفتگو؛ تولید صدا برای بازی‌های ویدیویی و انیمیشن‌ها؛ و ارائه خدمات دسترسی‌پذیری برای افراد دارای مشکلات بینایی. مدل tts-1-hd با استفاده از تکنیک‌های یادگیری عمیق پیشرفته، قادر است الگوهای پیچیده زبان را درک کرده و صدایی طبیعی و رسا تولید کند. این مدل از انواع مختلف صداها و سبک‌های گفتاری پشتیبانی می‌کند، و به کاربران امکان می‌دهد تا صدای خروجی را بر اساس نیازهای خود تنظیم کنند. یکی از ویژگی‌های برجسته مدل tts-1-hd، توانایی آن در تولید صدای با کیفیت بالا حتی در سرعت‌های بالا یا پایین است. این ویژگی به کاربران امکان می‌دهد تا سرعت گفتار را بر اساس ترجیحات خود تنظیم کنند، بدون اینکه کیفیت صدا کاهش یابد. علاوه بر این، مدل tts-1-hd از انواع مختلف فرمت‌های صوتی پشتیبانی می‌کند، از جمله MP3، WAV، و غیره. این امر به کاربران امکان می‌دهد تا صدای خروجی را در فرمت مورد نظر خود ذخیره کرده و از آن در برنامه‌های مختلف استفاده کنند. مدل tts-1-hd به طور مداوم در حال بهبود است، و OpenAI به طور منظم نسخه‌های جدیدی از این مدل را با ویژگی‌ها و قابلیت‌های جدید منتشر می‌کند. این امر به کاربران اطمینان می‌دهد که همیشه به آخرین و بهترین فناوری تبدیل متن به گفتار دسترسی دارند. با استفاده از مدل tts-1-hd، کاربران می‌توانند به راحتی و با کیفیت بالا متن را به گفتار تبدیل کرده و از آن در طیف گسترده‌ای از کاربردها استفاده کنند. این مدل یک ابزار قدرتمند برای تولید محتوای صوتی، ایجاد صداهای سفارشی، و ارائه خدمات دسترسی‌پذیری است. ای آی کار (AI-KAR) این مدل را به شما پیشنهاد می کند.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تبدیل متن به گفتار. مقدار آن باید 'openai/tts-1-hd' باشد.
مقادیر مجاز (کلیک برای کپی):
text
stringRequired
متنی که می‌خواهید به گفتار تبدیل شود. حداقل طول: 1 کاراکتر، حداکثر طول: 4096 کاراکتر.
voice
stringRequired
نام صدایی که می‌خواهید استفاده کنید.
مقادیر مجاز (کلیک برای کپی):
style
string
میزان اغراق در سبک صدا را تعیین می‌کند. این تنظیمات سعی می‌کند سبک گوینده اصلی را تقویت کند. استفاده از مقداری غیر از 0 ممکن است منابع محاسباتی بیشتری مصرف کند و تأخیر را افزایش دهد.
response_format
string
فرمت محتوای خروجی برای درخواست‌های غیر جریانی. نحوه رمزگذاری داده‌های صوتی تولید شده در پاسخ را کنترل می‌کند.
مقادیر مجاز (کلیک برای کپی):
speed
number
سرعت صدا را تنظیم می‌کند. مقدار 1.0 سرعت پیش‌فرض است، مقادیر کمتر از 1.0 سرعت را کاهش می‌دهند و مقادیر بیشتر از 1.0 سرعت را افزایش می‌دهند.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests

# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"
headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json",
}
data = {
    "model": "openai/tts-1-hd",
    "text": "TTS-1 is a fast and powerful language model. Use it to convert text to natural sounding spoken text.",
    "voice": "coral",
}
response = requests.post(f"{base_url}/tts", headers=headers, json=data)
response.raise_for_status()
result = response.json()
print("Audio URL:", result["audio"]["url"])

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T19:58:27.754Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}