Voice/Speech ModelsdeepgramText-to-Speech

معرفی و مستندات مدل هوش مصنوعی aura-2

مستندات مدل aura-2 ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی در سطح متوسط پشتیبانی می‌کند. درک عبارات ساده و رایج فارسی قابل قبول است، اما در مواجهه با متون پیچیده و تخصصی، ممکن است با مشکلاتی روبرو شود.

معرفی مدل aura-2

مدل aura-2 یک مدل پیشرفته تولید متن به گفتار (TTS) است که توسط Deepgram توسعه داده شده و اکنون توسط ای آی کار (AI-KAR) ارائه می‌شود. این مدل با هدف تولید صدای طبیعی و شبیه به انسان طراحی شده است و در این راستا، دقت بالایی در تلفظ کلمات تخصصی و عبارات پیچیده از خود نشان می‌دهد. aura-2 قادر است نام داروها، اصطلاحات حقوقی، رشته‌های الفبایی-عددی و ورودی‌های ساختاریافته مانند تاریخ، زمان و مقادیر ارزی را با دقت و وضوح بالا تلفظ کند.

یکی از ویژگی‌های برجسته این مدل، زمان تا اولین بایت (TTFB) زیر 200 میلی‌ثانیه است که امکان پاسخ‌دهی سریع و بی‌درنگ را فراهم می‌کند. این ویژگی برای کاربردهایی که نیاز به تعامل فوری دارند، بسیار حیاتی است. همچنین، aura-2 از نظر مقیاس‌پذیری نیز بسیار کارآمد است و می‌تواند حجم بالایی از درخواست‌ها را با هزینه مناسب پردازش کند.

مدل aura-2 برای کاربردهای متنوعی مناسب است. از جمله این کاربردها می‌توان به موارد زیر اشاره کرد:

  • دستیارهای صوتی: تولید پاسخ‌های طبیعی و قابل فهم برای دستیارهای صوتی.
  • سیستم‌های پاسخگویی خودکار: ارائه اطلاعات دقیق و واضح به مشتریان در سیستم‌های تلفنی.
  • آموزش الکترونیکی: تولید محتوای صوتی با کیفیت برای دوره‌های آموزشی آنلاین.
  • تبدیل متن به گفتار برای افراد دارای معلولیت: کمک به افراد نابینا یا کم‌بینا برای دسترسی به اطلاعات متنی.
  • تولید محتوای صوتی برای رسانه‌ها: ایجاد پادکست‌ها، کتاب‌های صوتی و سایر محتواهای صوتی با کیفیت بالا.

ای آی کار (AI-KAR) با ارائه این مدل، تلاش می‌کند تا دسترسی به فناوری‌های پیشرفته هوش مصنوعی را برای توسعه‌دهندگان و کسب‌وکارها آسان‌تر کند. با استفاده از aura-2، می‌توانید تجربه‌ای کاربری بی‌نظیر را برای مخاطبان خود فراهم کنید و در عین حال، هزینه‌های عملیاتی خود را کاهش دهید.

برای شروع کار با مدل aura-2، می‌توانید از مستندات API و نمونه کدهای ارائه شده استفاده کنید. ای آی کار (AI-KAR) همواره در تلاش است تا پشتیبانی فنی لازم را برای کاربران خود فراهم کند و به سوالات و مشکلات آن‌ها پاسخ دهد.

این مدل‌ها در حال حاضر پشتیبانی می‌شوند:

  • #g1_aura-2-amalthea-en
  • #g1_aura-2-andromeda-en
  • #g1_aura-2-apollo-en
  • #g1_aura-2-arcas-en
  • #g1_aura-2-aries-en
  • #g1_aura-2-asteria-en
  • #g1_aura-2-athena-en
  • #g1_aura-2-atlas-en
  • #g1_aura-2-aurora-en
  • #g1_aura-2-callista-en
  • #g1_aura-2-celeste-es
  • #g1_aura-2-cora-en
  • #g1_aura-2-cordelia-en
  • #g1_aura-2-delia-en
  • #g1_aura-2-electra-en
  • #g1_aura-2-estrella-es
  • #g1_aura-2-harmonia-en
  • #g1_aura-2-helena-en
  • #g1_aura-2-hera-en
  • #g1_aura-2-hermes-en
  • #g1_aura-2-hyperion-en
  • #g1_aura-2-iris-en
  • #g1_aura-2-janus-en
  • #g1_aura-2-juno-en
  • #g1_aura-2-jupiter-en
  • #g1_aura-2-luna-en
  • #g1_aura-2-mars-en
  • #g1_aura-2-minerva-en
  • #g1_aura-2-neptune-en
  • #g1_aura-2-nestor-es
  • #g1_aura-2-odysseus-en
  • #g1_aura-2-ophelia-en
  • #g1_aura-2-orion-en
  • #g1_aura-2-orpheus-en
  • #g1_aura-2-pandora-en
  • #g1_aura-2-phoebe-en
  • #g1_aura-2-pluto-en
  • #g1_aura-2-saturn-en
  • #g1_aura-2-selene-en
  • #g1_aura-2-thalia-en
  • #g1_aura-2-theia-en
  • #g1_aura-2-vesta-en
  • #g1_aura-2-zeus-en

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تبدیل متن به گفتار. باید یکی از مقادیر enum باشد.
مقادیر مجاز (کلیک برای کپی):
text
stringRequired
متنی که باید به گفتار تبدیل شود.
container
string
فرمت فایل خروجی صدا. گزینه‌های موجود بستگی به نوع رمزگذاری دارد.
encoding
string
نوع رمزگذاری صدا. مقدار پیش‌فرض linear16 است.
مقادیر مجاز (کلیک برای کپی):
sample_rate
string
نرخ نمونه‌برداری صدا بر حسب هرتز.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "#g1_aura-2-helena-en",
        "text": '''
Cities of the future promise to radically transform how people live, work, and move.
Instead of sprawling layouts, we’ll see vertical structures that integrate residential, work, and public spaces into single, self-sustaining ecosystems.
Architecture will adapt to climate conditions, and buildings will be energy-efficient—generating power through solar panels, wind turbines, and even foot traffic.
'''
    }
    response = requests.post(url, headers=headers, json=payload, stream=True)
    # result = os.path.join(os.path.dirname(__file__), "audio.wav")  # if you run this code as a .py file
    result = "audio.wav"  # if you run this code in Jupyter Notebook
    with open(result, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)
    print("Audio saved to:", result)


main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T16:38:58.272Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}