Text Models (LLM)alibaba-cloud
معرفی و مستندات مدل هوش مصنوعی qwen3-omni-30b-a3b-captioner
مستندات مدل qwen3-omni-30b-a3b-captioner ارائه شده توسط ای آی کار (AI-KAR).
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. درک متون فارسی و تولید توضیحات مرتبط با صداهای فارسی ممکن است با درجاتی از خطا همراه باشد.
مدل qwen3-omni-30b-a3b-captioner یک مدل متنباز است که بر پایه Qwen3-Omni ساخته شده است. این مدل به طور خودکار توضیحات غنی و دقیقی از صداهای پیچیده تولید میکند - از جمله گفتار، موسیقی، صداهای محیطی و جلوهها - بدون نیاز به هیچ گونه ورودی اولیه. این مدل قادر است احساسات، سبکهای موسیقی، سازها و اطلاعات حساس را تشخیص دهد، که آن را برای تجزیه و تحلیل صدا، ممیزی امنیتی، تشخیص هدف و ویرایش ایدهآل میسازد. این مدل با استفاده از الگوریتمهای پیشرفته، قادر است صداها را به متن تبدیل کرده و سپس با تحلیل محتوای صوتی، توضیحات دقیقی از آن ارائه دهد. این توضیحات شامل جزئیاتی مانند نوع صدا، احساسات موجود در صدا، سبک موسیقی (در صورت وجود)، سازهای استفاده شده (در صورت وجود) و سایر اطلاعات مرتبط است. این مدل میتواند در زمینههای مختلفی مورد استفاده قرار گیرد. برای مثال، در زمینه تجزیه و تحلیل صدا، میتواند برای شناسایی صداهای خاص در یک فایل صوتی بزرگ استفاده شود. در زمینه ممیزی امنیتی، میتواند برای شناسایی صداهای غیرمجاز در یک محیط امنیتی استفاده شود. در زمینه تشخیص هدف، میتواند برای تشخیص هدف از یک مکالمه استفاده شود. و در نهایت، در زمینه ویرایش، میتواند برای تولید زیرنویس برای فیلمها و سایر محتوای ویدیویی استفاده شود. این مدل با ارائه توضیحات دقیق و جامع از صداها، میتواند به کاربران در درک بهتر محتوای صوتی کمک کند و امکان استفاده از صدا را در زمینههای مختلف فراهم سازد. این مدل با توجه به قابلیتهای منحصر به فرد خود، میتواند به عنوان یک ابزار قدرتمند در اختیار محققان، توسعهدهندگان و کاربران عادی قرار گیرد.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | نام مدلی که برای تولید پاسخ استفاده میشود. مقدار این فیلد باید `alibaba/qwen3-omni-30b-a3b-captioner` باشد. مقادیر مجاز (کلیک برای کپی): |
messages | arrayRequired | لیستی از پیامها که مکالمه را تا به اینجا تشکیل میدهند. بسته به مدلی که استفاده میکنید، انواع مختلفی از پیامها (modalities) مانند متن، اسناد (txt, pdf)، تصاویر و صدا پشتیبانی میشوند. |
max_tokens | number | حداکثر تعداد توکنهایی که میتوان در تکمیل چت تولید کرد. این مقدار میتواند برای کنترل هزینههای متن تولید شده از طریق API استفاده شود. |
stream | boolean | اگر روی True تنظیم شود، دادههای پاسخ مدل به صورت جریانی با استفاده از رویدادهای ارسال شده توسط سرور به کلاینت ارسال میشود. مقادیر مجاز (کلیک برای کپی): |
stream_options | object | تنظیمات مربوط به استریم کردن داده ها. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
import json # for getting a structured output with indentation
response = requests.post(
"https://api.ai-kar.com/v1/chat/completions",
headers={
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization":"Bearer <YOUR_AI-KARAPI_KEY>",
"Content-Type":"application/json"
},
json={
"model": "alibaba/qwen3-omni-30b-a3b-captioner",
"messages": [
{
"role": "user",
"content": [
{
"type": "input_audio",
"input_audio": {
"data": "https://cdn.AI-KARapi.com/eagle/files/elephant/cJUTeeCmpoqIV1Q3WWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3"
}
}
]
}
]
}
)
data = response.json()
print(json.dumps(data, indent=2, ensure_ascii=False))نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"id": "chatcmpl-bec5dc33-8f63-96b9-89a4-00aecfce7af8",
"system_fingerprint": null,
"object": "chat.completion",
"choices": [
{
"index": 0,
"finish_reason": "stop",
"logprobs": null,
"message": {
"role": "assistant",
"content": "Hello! How can I help you today?"
}
}
],
"created": 1758898624,
"model": "qwen3-max",
"usage": {
"prompt_tokens": 23,
"completion_tokens": 113,
"total_tokens": 136
}
}