Voice/Speech ModelsdeepgramText-to-Speech
معرفی و مستندات مدل هوش مصنوعی aura
مستندات مدل aura از Deepgram، ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت ضعیف پشتیبانی میکند و بیشتر برای زبان انگلیسی بهینه شده است.
مدل Aura از Deepgram، اولین مدل هوش مصنوعی تبدیل متن به گفتار (TTS) است که به طور خاص برای عوامل و برنامههای کاربردی هوش مصنوعی مکالمهای و بیدرنگ طراحی شده است. این مدل با ارائه کیفیت صدای شبیه به انسان، سرعت و کارایی بینظیری را ارائه میدهد. Aura دارای دهها صدای طبیعی و شبیه به انسان است که تاخیر کمتری نسبت به سایر گزینههای هوش مصنوعی صوتی مشابه دارد و از ادغام یکپارچه با API تبدیل گفتار به متن Nova از Deepgram، که در صنعت پیشرو است، پشتیبانی میکند. این مدل به توسعهدهندگان امکان میدهد تا تجربههای کاربری جذابتر و طبیعیتری را در برنامههای خود ایجاد کنند. Aura با استفاده از الگوریتمهای پیشرفته یادگیری عمیق، قادر است متن را با دقت و ظرافت به گفتار تبدیل کند و احساسات و لحنهای مختلف را در صدا بازتاب دهد. این ویژگی باعث میشود تا تعامل با برنامههای مبتنی بر Aura، بسیار شبیه به مکالمه با یک انسان واقعی باشد. Aura به طور خاص برای پاسخگویی به نیازهای برنامههای کاربردی بیدرنگ طراحی شده است. تاخیر کم این مدل، امکان ایجاد مکالمات روان و بدون وقفه را فراهم میکند. این ویژگی برای برنامههایی مانند دستیارهای صوتی، رباتهای گفتگو و سیستمهای پاسخگویی خودکار بسیار مهم است. علاوه بر این، Aura از طیف گستردهای از زبانها و لهجهها پشتیبانی میکند و به توسعهدهندگان امکان میدهد تا برنامههای خود را برای مخاطبان جهانی طراحی کنند. Aura با ارائه کیفیت صدای بالا، سرعت و کارایی بینظیر و پشتیبانی از طیف گستردهای از زبانها و لهجهها، یک انتخاب ایدهآل برای توسعهدهندگانی است که به دنبال ایجاد تجربههای کاربری جذاب و طبیعی در برنامههای خود هستند. این مدل به طور مداوم در حال بهبود و توسعه است و Deepgram متعهد است تا با ارائه ویژگیها و قابلیتهای جدید، Aura را به بهترین مدل TTS در بازار تبدیل کند. با استفاده از Aura، میتوانید برنامههای خود را به سطح جدیدی از تعامل و جذابیت برسانید و تجربهای بینظیر را برای کاربران خود فراهم کنید. این مدل در ای آی کار (AI-KAR) به صورت ویژه پشتیبانی شده و آموزش های لازم برای استفاده از آن ارائه می شود.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تبدیل متن به گفتار. یکی از مقادیر enum را انتخاب کنید. مقادیر مجاز (کلیک برای کپی): |
text | stringRequired | متن برای تبدیل به گفتار. |
container | string | فرمت فایل خروجی صوتی. گزینههای موجود بستگی به نوع رمزگذاری دارد. |
encoding | string | نوع رمزگذاری مورد انتظار برای خروجی صوتی. مقادیر مجاز (کلیک برای کپی): |
sample_rate | string | نرخ نمونه برداری برای خروجی صوتی. بر اساس رمزگذاری، نرخ نمونه برداری های مختلفی پشتیبانی می شود. برای برخی از رمزگذاری ها، نرخ نمونه برداری قابل تنظیم نیست. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import os
import requests
def main():
url = "https://api.ai-kar.com/v1/tts"
headers = {
# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
}
payload = {
"model": "#g1_aura-athena-en",
"text": '''
Cities of the future promise to radically transform how people live, work, and move.
Instead of sprawling layouts, we’ll see vertical structures that integrate residential, work, and public spaces into single, self-sustaining ecosystems.
Architecture will adapt to climate conditions, and buildings will be energy-efficient—generating power through solar panels, wind turbines, and even foot traffic.
'''
}
response = requests.post(url, headers=headers, json=payload, stream=True)
# result = os.path.join(os.path.dirname(__file__), "audio.wav") # if you run this code as a .py file
result = "audio.wav" # if you run this code in Jupyter Notebook
with open(result, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", result)
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T16:58:35.198Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}