Text Models (LLM)alibaba-cloud

معرفی و مستندات مدل هوش مصنوعی qwen3-omni-30b-a3b-captioner

مستندات مدل qwen3-omni-30b-a3b-captioner ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک متون فارسی و تولید توضیحات مرتبط با صداهای فارسی ممکن است با درجاتی از خطا همراه باشد.

مدل qwen3-omni-30b-a3b-captioner یک مدل متن‌باز است که بر پایه Qwen3-Omni ساخته شده است. این مدل به طور خودکار توضیحات غنی و دقیقی از صداهای پیچیده تولید می‌کند - از جمله گفتار، موسیقی، صداهای محیطی و جلوه‌ها - بدون نیاز به هیچ گونه ورودی اولیه. این مدل قادر است احساسات، سبک‌های موسیقی، سازها و اطلاعات حساس را تشخیص دهد، که آن را برای تجزیه و تحلیل صدا، ممیزی امنیتی، تشخیص هدف و ویرایش ایده‌آل می‌سازد. این مدل با استفاده از الگوریتم‌های پیشرفته، قادر است صداها را به متن تبدیل کرده و سپس با تحلیل محتوای صوتی، توضیحات دقیقی از آن ارائه دهد. این توضیحات شامل جزئیاتی مانند نوع صدا، احساسات موجود در صدا، سبک موسیقی (در صورت وجود)، سازهای استفاده شده (در صورت وجود) و سایر اطلاعات مرتبط است. این مدل می‌تواند در زمینه‌های مختلفی مورد استفاده قرار گیرد. برای مثال، در زمینه تجزیه و تحلیل صدا، می‌تواند برای شناسایی صداهای خاص در یک فایل صوتی بزرگ استفاده شود. در زمینه ممیزی امنیتی، می‌تواند برای شناسایی صداهای غیرمجاز در یک محیط امنیتی استفاده شود. در زمینه تشخیص هدف، می‌تواند برای تشخیص هدف از یک مکالمه استفاده شود. و در نهایت، در زمینه ویرایش، می‌تواند برای تولید زیرنویس برای فیلم‌ها و سایر محتوای ویدیویی استفاده شود. این مدل با ارائه توضیحات دقیق و جامع از صداها، می‌تواند به کاربران در درک بهتر محتوای صوتی کمک کند و امکان استفاده از صدا را در زمینه‌های مختلف فراهم سازد. این مدل با توجه به قابلیت‌های منحصر به فرد خود، می‌تواند به عنوان یک ابزار قدرتمند در اختیار محققان، توسعه‌دهندگان و کاربران عادی قرار گیرد.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	نام مدلی که برای تولید پاسخ استفاده می‌شود. مقدار این فیلد باید `alibaba/qwen3-omni-30b-a3b-captioner` باشد. مقادیر مجاز (کلیک برای کپی):
messages	arrayRequired	لیستی از پیام‌ها که مکالمه را تا به اینجا تشکیل می‌دهند. بسته به مدلی که استفاده می‌کنید، انواع مختلفی از پیام‌ها (modalities) مانند متن، اسناد (txt, pdf)، تصاویر و صدا پشتیبانی می‌شوند.
max_tokens	number	حداکثر تعداد توکن‌هایی که می‌توان در تکمیل چت تولید کرد. این مقدار می‌تواند برای کنترل هزینه‌های متن تولید شده از طریق API استفاده شود.
stream	boolean	اگر روی True تنظیم شود، داده‌های پاسخ مدل به صورت جریانی با استفاده از رویدادهای ارسال شده توسط سرور به کلاینت ارسال می‌شود. مقادیر مجاز (کلیک برای کپی):
stream_options	object	تنظیمات مربوط به استریم کردن داده ها.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json  # for getting a structured output with indentation
response = requests.post(
    "https://api.ai-kar.com/v1/chat/completions",
    headers={
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization":"Bearer <YOUR_AI-KARAPI_KEY>",
        "Content-Type":"application/json"
    },
    json={
        "model": "alibaba/qwen3-omni-30b-a3b-captioner",
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_audio",
                        "input_audio": {
                            "data": "https://cdn.AI-KARapi.com/eagle/files/elephant/cJUTeeCmpoqIV1Q3WWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3"
                        }
                    }
                ]
            }
        ]
    }
)
data = response.json()
print(json.dumps(data, indent=2, ensure_ascii=False))

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "id": "chatcmpl-bec5dc33-8f63-96b9-89a4-00aecfce7af8",
  "system_fingerprint": null,
  "object": "chat.completion",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "logprobs": null,
      "message": {
        "role": "assistant",
        "content": "Hello! How can I help you today?"
      }
    }
  ],
  "created": 1758898624,
  "model": "qwen3-max",
  "usage": {
    "prompt_tokens": 23,
    "completion_tokens": 113,
    "total_tokens": 136
  }
}