Voice/Speech ModelsdeepgramText-to-Speech

معرفی و مستندات مدل هوش مصنوعی aura

مستندات مدل aura از Deepgram، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت ضعیف پشتیبانی می‌کند و بیشتر برای زبان انگلیسی بهینه شده است.

مدل Aura از Deepgram، اولین مدل هوش مصنوعی تبدیل متن به گفتار (TTS) است که به طور خاص برای عوامل و برنامه‌های کاربردی هوش مصنوعی مکالمه‌ای و بی‌درنگ طراحی شده است. این مدل با ارائه کیفیت صدای شبیه به انسان، سرعت و کارایی بی‌نظیری را ارائه می‌دهد. Aura دارای ده‌ها صدای طبیعی و شبیه به انسان است که تاخیر کمتری نسبت به سایر گزینه‌های هوش مصنوعی صوتی مشابه دارد و از ادغام یکپارچه با API تبدیل گفتار به متن Nova از Deepgram، که در صنعت پیشرو است، پشتیبانی می‌کند. این مدل به توسعه‌دهندگان امکان می‌دهد تا تجربه‌های کاربری جذاب‌تر و طبیعی‌تری را در برنامه‌های خود ایجاد کنند. Aura با استفاده از الگوریتم‌های پیشرفته یادگیری عمیق، قادر است متن را با دقت و ظرافت به گفتار تبدیل کند و احساسات و لحن‌های مختلف را در صدا بازتاب دهد. این ویژگی باعث می‌شود تا تعامل با برنامه‌های مبتنی بر Aura، بسیار شبیه به مکالمه با یک انسان واقعی باشد. Aura به طور خاص برای پاسخگویی به نیازهای برنامه‌های کاربردی بی‌درنگ طراحی شده است. تاخیر کم این مدل، امکان ایجاد مکالمات روان و بدون وقفه را فراهم می‌کند. این ویژگی برای برنامه‌هایی مانند دستیارهای صوتی، ربات‌های گفتگو و سیستم‌های پاسخگویی خودکار بسیار مهم است. علاوه بر این، Aura از طیف گسترده‌ای از زبان‌ها و لهجه‌ها پشتیبانی می‌کند و به توسعه‌دهندگان امکان می‌دهد تا برنامه‌های خود را برای مخاطبان جهانی طراحی کنند. Aura با ارائه کیفیت صدای بالا، سرعت و کارایی بی‌نظیر و پشتیبانی از طیف گسترده‌ای از زبان‌ها و لهجه‌ها، یک انتخاب ایده‌آل برای توسعه‌دهندگانی است که به دنبال ایجاد تجربه‌های کاربری جذاب و طبیعی در برنامه‌های خود هستند. این مدل به طور مداوم در حال بهبود و توسعه است و Deepgram متعهد است تا با ارائه ویژگی‌ها و قابلیت‌های جدید، Aura را به بهترین مدل TTS در بازار تبدیل کند. با استفاده از Aura، می‌توانید برنامه‌های خود را به سطح جدیدی از تعامل و جذابیت برسانید و تجربه‌ای بی‌نظیر را برای کاربران خود فراهم کنید. این مدل در ای آی کار (AI-KAR) به صورت ویژه پشتیبانی شده و آموزش های لازم برای استفاده از آن ارائه می شود.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تبدیل متن به گفتار. یکی از مقادیر enum را انتخاب کنید. مقادیر مجاز (کلیک برای کپی):
text	stringRequired	متن برای تبدیل به گفتار.
container	string	فرمت فایل خروجی صوتی. گزینه‌های موجود بستگی به نوع رمزگذاری دارد.
encoding	string	نوع رمزگذاری مورد انتظار برای خروجی صوتی. مقادیر مجاز (کلیک برای کپی):
sample_rate	string	نرخ نمونه برداری برای خروجی صوتی. بر اساس رمزگذاری، نرخ نمونه برداری های مختلفی پشتیبانی می شود. برای برخی از رمزگذاری ها، نرخ نمونه برداری قابل تنظیم نیست.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "#g1_aura-athena-en",
        "text": '''
Cities of the future promise to radically transform how people live, work, and move.
Instead of sprawling layouts, we’ll see vertical structures that integrate residential, work, and public spaces into single, self-sustaining ecosystems.
Architecture will adapt to climate conditions, and buildings will be energy-efficient—generating power through solar panels, wind turbines, and even foot traffic.
'''
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    # result = os.path.join(os.path.dirname(__file__), "audio.wav")  # if you run this code as a .py file
    result = "audio.wav"  # if you run this code in Jupyter Notebook
    with open(result, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", result)


main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T16:58:35.198Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}