Voice/Speech Modelsalibaba-cloudText-to-Speech

معرفی و مستندات مدل هوش مصنوعی qwen3-tts-flash

مستندات مدل qwen3-tts-flash از alibaba-cloud، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. تلفظ کلمات فارسی ممکن است نیاز به تنظیمات دقیق داشته باشد.

مدل qwen3-tts-flash از alibaba-cloud یک مدل پیشرفته تبدیل متن به گفتار (TTS) است که توسط ای آی کار (AI-KAR) ارائه شده است. این مدل با هدف تولید صدای طبیعی و شبیه به انسان طراحی شده است و از زبان‌ها و لهجه‌های مختلف پشتیبانی می‌کند. یکی از ویژگی‌های برجسته این مدل، توانایی تولید گفتار چند زبانه با یک صدای ثابت است، به این معنی که می‌تواند با حفظ لحن و آهنگ صدا، متون مختلف را به زبان‌های گوناگون تبدیل کند. این قابلیت به ویژه برای تولید محتوای بین‌المللی و ارائه خدمات به مخاطبان گسترده بسیار مفید است.
مدل qwen3-tts-flash قادر است لحن و آهنگ صدا را به گونه‌ای تنظیم کند که حتی برای متون پیچیده نیز روایتی روان و رسا ارائه دهد. این ویژگی باعث می‌شود که صدای تولید شده توسط این مدل، بسیار طبیعی و جذاب به نظر برسد و شنونده را به خوبی درگیر کند. علاوه بر این، این مدل از تکنیک‌های پیشرفته‌ای برای کاهش نویز و بهبود کیفیت صدا استفاده می‌کند، که نتیجه آن تولید صدایی واضح و بدون نقص است.
یکی دیگر از مزایای این مدل، سرعت بالای آن در تبدیل متن به گفتار است. qwen3-tts-flash می‌تواند در کمترین زمان ممکن، متون طولانی را به صدا تبدیل کند، که این امر آن را به یک ابزار ایده‌آل برای کاربردهایی مانند تولید کتاب‌های صوتی، پادکست‌ها و سایر محتواهای صوتی تبدیل می‌کند. همچنین، این مدل از API بسیار ساده و کاربرپسندی برخوردار است که به توسعه‌دهندگان اجازه می‌دهد به راحتی آن را در برنامه‌ها و پروژه‌های خود ادغام کنند.
در مجموع، مدل qwen3-tts-flash یک راهکار قدرتمند و کارآمد برای تبدیل متن به گفتار است که با ارائه صدای طبیعی، پشتیبانی از زبان‌های مختلف و سرعت بالا، می‌تواند نیازهای متنوع کاربران را برآورده کند. ای آی کار (AI-KAR) مفتخر است که این مدل پیشرفته را به شما ارائه می‌دهد و امیدوار است که از آن در پروژه‌های خود بهره‌مند شوید. این مدل برای تولید محتوای آموزشی، تبلیغاتی، سرگرمی و بسیاری موارد دیگر مناسب است و می‌تواند به شما کمک کند تا با مخاطبان خود به شیوه‌ای جذاب و موثر ارتباط برقرار کنید.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
نام مدل مورد استفاده. مقدار ثابت: alibaba/qwen3-tts-flash
مقادیر مجاز (کلیک برای کپی):
text
stringRequired
متن مورد نظر برای تبدیل به گفتار. حداقل طول: 1 کاراکتر، حداکثر طول: 600 کاراکتر.
voice
stringRequired
نام صدای مورد استفاده برای تبدیل متن به گفتار.
مقادیر مجاز (کلیک برای کپی):

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json

# for getting a structured output with indentation
def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "alibaba/qwen3-tts-flash",
        "text": "Qwen3 Speech Synthesis offers a range of natural, human-like voices with support for multiple languages and dialects. It can produce multilingual speech in a consistent voice, adapting tone and intonation to deliver smooth, expressive narration even for complex text.",
        "voice": "Cherry"
    }
    response = requests.post(url, headers=headers, json=payload)
    data = response.json()
    print(json.dumps(data, indent=2, ensure_ascii=False))

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "audio": {
    "url": "http://dashscope-result-sgp.oss-ap-southeast-1.aliyuncs.com/1d/18/20251022/cc0d532d/4adfa7be-08fe-4960-96c9-7dd866b24b48.wav?Expires=1761212494&OSSAccessKeyId=LTAI5tBLUzt9WaK89DU8aECd&Signature=CRyPQI%2BtVRQZSfjI5C5QH0VGDwU%3D"
  },
  "usage": {
    "characters": 267
  }
}