Voice/Speech ModelsopenaiText-to-Speech
معرفی و مستندات مدل هوش مصنوعی tts-1
مستندات مدل tts-1 برای تبدیل متن به گفتار، ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. درک مطلب فارسی قابل قبول است اما تلفظ و آهنگ صدا ممکن است کاملاً طبیعی نباشد.
مدل tts-1 یک مدل پیشرفته تبدیل متن به گفتار است که توسط OpenAI توسعه داده شده است. این مدل قادر است متن را به گفتاری طبیعی و رسا تبدیل کند. یکی از ویژگیهای برجسته این مدل، سرعت بالای آن در تولید صدا است که آن را برای کاربردهای زمان واقعی (Realtime) بسیار مناسب میسازد. این مدل میتواند در زمینههای مختلفی مورد استفاده قرار گیرد، از جمله تولید محتوای صوتی برای کتابهای صوتی، پادکستها، و مقالات خبری. همچنین، میتواند در سیستمهای پاسخگویی خودکار، دستیارهای صوتی، و برنامههای آموزشی آنلاین به کار رود. مدل tts-1 از صداهای متنوعی پشتیبانی میکند که به کاربران امکان میدهد صدای مورد نظر خود را انتخاب کنند. این تنوع صدا به کاربران اجازه میدهد تا صدایی را انتخاب کنند که با محتوای مورد نظرشان هماهنگ باشد و تجربه کاربری بهتری را ارائه دهد. علاوه بر این، مدل tts-1 قابلیت تنظیم سرعت گفتار را نیز دارد، که این امکان را به کاربران میدهد تا سرعت پخش صدا را بر اساس نیاز خود تنظیم کنند. این ویژگی به ویژه برای افرادی که به دنبال یادگیری زبان هستند یا نیاز به گوش دادن به محتوا با سرعتهای مختلف دارند، بسیار مفید است. مدل tts-1 با استفاده از تکنیکهای پیشرفته یادگیری عمیق آموزش داده شده است، که این امر باعث شده است تا بتواند گفتاری طبیعی و روان تولید کند. این مدل قادر است الگوهای زبانی پیچیده را درک کند و صداهایی تولید کند که بسیار شبیه به صدای انسان هستند. همچنین، مدل tts-1 از نظر مصرف منابع نیز بهینه شده است، که این امر باعث میشود تا بتواند بر روی دستگاههای مختلف با قدرت پردازشی متفاوت اجرا شود. این مدل به طور مداوم در حال بهبود است و OpenAI در تلاش است تا با ارائه بهروزرسانیهای جدید، کیفیت و قابلیتهای آن را افزایش دهد. با استفاده از مدل tts-1، کاربران میتوانند به راحتی متنهای خود را به گفتار تبدیل کنند و از مزایای این فناوری پیشرفته بهرهمند شوند. این مدل یک ابزار قدرتمند برای تولید محتوای صوتی با کیفیت بالا است و میتواند در زمینههای مختلفی مورد استفاده قرار گیرد. ای آی کار (AI-KAR) این مدل را به شما پیشنهاد می کند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تبدیل متن به گفتار. مقدار آن باید `openai/tts-1` باشد. مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متنی که قرار است به گفتار تبدیل شود. حداقل طول: 1 کاراکتر، حداکثر طول: 4096 کاراکتر. |
voice | stringRequired | نام صدایی که باید استفاده شود. مقادیر مجاز (کلیک برای کپی): |
style | string | تعیین میزان اغراق در سبک صدا. این تنظیمات سعی می کند سبک سخنران اصلی را تقویت کند. اگر مقدار آن غیر از 0 باشد، منابع محاسباتی بیشتری مصرف می کند و ممکن است تاخیر را افزایش دهد. |
response_format | string | فرمت محتوای خروجی برای درخواستهای غیرجریانی. کنترل میکند که دادههای صوتی تولید شده چگونه در پاسخ رمزگذاری شوند. مقادیر مجاز (کلیک برای کپی): |
speed | number | تنظیم سرعت صدا. مقدار 1.0 سرعت پیشفرض است، مقادیر کمتر از 1.0 سرعت گفتار را کاهش میدهند و مقادیر بیشتر از 1.0 سرعت آن را افزایش میدهند. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json",
}
data = {
"model": "openai/tts-1",
"text": "TTS-1 is a fast and powerful language model. Use it to convert text to natural sounding spoken text.",
"voice": "coral",
}
response = requests.post(f"{base_url}/tts", headers=headers, json=data)
response.raise_for_status()
result = response.json()
print("Audio URL:", result["audio"]["url"])
نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T20:08:52.409Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}