Voice/Speech ModelsopenaiText-to-Speech
معرفی و مستندات مدل هوش مصنوعی tts-1-hd
مستندات مدل tts-1-hd برای تبدیل متن به گفتار با کیفیت بالا، ارائه شده توسط ای آی کار (AI-KAR).
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. تلفظ کلمات فارسی ممکن است همیشه دقیق نباشد و نیاز به تنظیمات بیشتری داشته باشد.
مدل tts-1-hd از OpenAI، یک مدل پیشرفته تبدیل متن به گفتار (TTS) است که برای تولید صدای با کیفیت بالا و طبیعی طراحی شده است. این مدل قادر است متن را به گفتاری روان و واضح تبدیل کند، و برای طیف گستردهای از کاربردها مناسب است. از جمله کاربردهای این مدل میتوان به موارد زیر اشاره کرد: تولید محتوای صوتی برای کتابهای صوتی، پادکستها، مقالات و سایر متون؛ ایجاد صداهای سفارشی برای دستیارهای مجازی و رباتهای گفتگو؛ تولید صدا برای بازیهای ویدیویی و انیمیشنها؛ و ارائه خدمات دسترسیپذیری برای افراد دارای مشکلات بینایی. مدل tts-1-hd با استفاده از تکنیکهای یادگیری عمیق پیشرفته، قادر است الگوهای پیچیده زبان را درک کرده و صدایی طبیعی و رسا تولید کند. این مدل از انواع مختلف صداها و سبکهای گفتاری پشتیبانی میکند، و به کاربران امکان میدهد تا صدای خروجی را بر اساس نیازهای خود تنظیم کنند. یکی از ویژگیهای برجسته مدل tts-1-hd، توانایی آن در تولید صدای با کیفیت بالا حتی در سرعتهای بالا یا پایین است. این ویژگی به کاربران امکان میدهد تا سرعت گفتار را بر اساس ترجیحات خود تنظیم کنند، بدون اینکه کیفیت صدا کاهش یابد. علاوه بر این، مدل tts-1-hd از انواع مختلف فرمتهای صوتی پشتیبانی میکند، از جمله MP3، WAV، و غیره. این امر به کاربران امکان میدهد تا صدای خروجی را در فرمت مورد نظر خود ذخیره کرده و از آن در برنامههای مختلف استفاده کنند. مدل tts-1-hd به طور مداوم در حال بهبود است، و OpenAI به طور منظم نسخههای جدیدی از این مدل را با ویژگیها و قابلیتهای جدید منتشر میکند. این امر به کاربران اطمینان میدهد که همیشه به آخرین و بهترین فناوری تبدیل متن به گفتار دسترسی دارند. با استفاده از مدل tts-1-hd، کاربران میتوانند به راحتی و با کیفیت بالا متن را به گفتار تبدیل کرده و از آن در طیف گستردهای از کاربردها استفاده کنند. این مدل یک ابزار قدرتمند برای تولید محتوای صوتی، ایجاد صداهای سفارشی، و ارائه خدمات دسترسیپذیری است. ای آی کار (AI-KAR) این مدل را به شما پیشنهاد می کند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تبدیل متن به گفتار. مقدار آن باید 'openai/tts-1-hd' باشد. مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متنی که میخواهید به گفتار تبدیل شود. حداقل طول: 1 کاراکتر، حداکثر طول: 4096 کاراکتر. |
voice | stringRequired | نام صدایی که میخواهید استفاده کنید. مقادیر مجاز (کلیک برای کپی): |
style | string | میزان اغراق در سبک صدا را تعیین میکند. این تنظیمات سعی میکند سبک گوینده اصلی را تقویت کند. استفاده از مقداری غیر از 0 ممکن است منابع محاسباتی بیشتری مصرف کند و تأخیر را افزایش دهد. |
response_format | string | فرمت محتوای خروجی برای درخواستهای غیر جریانی. نحوه رمزگذاری دادههای صوتی تولید شده در پاسخ را کنترل میکند. مقادیر مجاز (کلیک برای کپی): |
speed | number | سرعت صدا را تنظیم میکند. مقدار 1.0 سرعت پیشفرض است، مقادیر کمتر از 1.0 سرعت را کاهش میدهند و مقادیر بیشتر از 1.0 سرعت را افزایش میدهند. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json",
}
data = {
"model": "openai/tts-1-hd",
"text": "TTS-1 is a fast and powerful language model. Use it to convert text to natural sounding spoken text.",
"voice": "coral",
}
response = requests.post(f"{base_url}/tts", headers=headers, json=data)
response.raise_for_status()
result = response.json()
print("Audio URL:", result["audio"]["url"])
نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T19:58:27.754Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}