Video Modelssber-ai

معرفی و مستندات مدل هوش مصنوعی kandinsky5-distill-text-to-video

مستندات مدل kandinsky5-distill-text-to-video ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک مفاهیم ساده و توصیفات مستقیم نسبتاً خوب است، اما در مواجهه با جملات پیچیده و استعاری ممکن است دچار مشکل شود.

مدل kandinsky5-distill-text-to-video یک مدل انتشار (diffusion) است که توسط sber-ai توسعه داده شده و برای تولید سریع ویدیو از متن طراحی شده است. این مدل یک نسخه فشرده از مدل Kandinsky 5 (Text-to-Video) است و هدف آن ارائه سرعت بالاتر در تولید ویدیو با حفظ کیفیت مناسب است. این مدل ویدیوهایی با رزولوشن کمی بالاتر از استاندارد SD تولید می‌کند. **ویژگی‌ها و قابلیت‌ها:** * **تولید ویدیو از متن:** این مدل قادر است با دریافت یک متن توصیفی، ویدیویی مرتبط با آن تولید کند. این قابلیت به کاربران اجازه می‌دهد تا ایده‌ها و تصورات خود را به صورت ویدیویی به تصویر بکشند. * **سرعت بالا:** به دلیل استفاده از معماری فشرده‌تر، این مدل نسبت به مدل‌های مشابه، سرعت تولید بالاتری دارد. این ویژگی برای کاربرانی که نیاز به تولید سریع ویدیو دارند، بسیار مهم است. * **رزولوشن مناسب:** ویدیوهای تولید شده توسط این مدل دارای رزولوشن کمی بالاتر از استاندارد SD هستند که برای بسیاری از کاربردها کافی است. * **سهولت استفاده:** این مدل از طریق API قابل دسترسی است و کاربران می‌توانند به راحتی آن را در پروژه‌های خود ادغام کنند. **کاربردها:** * **تولید محتوای تبلیغاتی:** کسب‌وکارها می‌توانند از این مدل برای تولید سریع و ارزان ویدیوهای تبلیغاتی استفاده کنند. * **تولید محتوای آموزشی:** معلمان و مربیان می‌توانند از این مدل برای تولید ویدیوهای آموزشی جذاب و متنوع استفاده کنند. * **تولید محتوای سرگرمی:** هنرمندان و تولیدکنندگان محتوا می‌توانند از این مدل برای تولید ویدیوهای سرگرم‌کننده و خلاقانه استفاده کنند. * **پیش‌نمایش ایده‌ها:** طراحان و معماران می‌توانند از این مدل برای ایجاد پیش‌نمایش‌های ویدیویی از طرح‌های خود استفاده کنند. **نحوه استفاده:** برای استفاده از این مدل، ابتدا باید یک حساب کاربری در پلتفرم ای آی کار (AI-KAR) ایجاد کنید و یک کلید API دریافت کنید. سپس می‌توانید با استفاده از API این مدل، درخواست تولید ویدیو ارسال کنید. برای این کار، باید متن توصیفی مورد نظر خود را به عنوان ورودی به مدل ارائه دهید. مدل پس از پردازش، ویدیویی مرتبط با متن ارائه شده تولید می‌کند و URL آن را در اختیار شما قرار می‌دهد. **محدودیت‌ها:** * این مدل در حال حاضر فقط از تولید ویدیو بدون صدا پشتیبانی می‌کند. * کیفیت ویدیوهای تولید شده ممکن است به اندازه ویدیوهای تولید شده توسط مدل‌های پیشرفته‌تر نباشد. * درک مدل از مفاهیم پیچیده و انتزاعی ممکن است محدود باشد. با این حال، مدل kandinsky5-distill-text-to-video یک ابزار قدرتمند و کارآمد برای تولید سریع ویدیو از متن است و می‌تواند در بسیاری از کاربردها مفید باشد. ای آی کار (AI-KAR) این مدل را به عنوان بخشی از خدمات خود ارائه می‌دهد تا کاربران بتوانند به راحتی از آن استفاده کنند و از مزایای آن بهره‌مند شوند.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	نام مدل مورد استفاده. مقدار ثابت `sber-ai/kandinsky5-distill-t2v` را باید قرار دهید. مقادیر مجاز (کلیک برای کپی):
prompt	stringRequired	توضیحات متنی صحنه، موضوع یا عملی که می‌خواهید در ویدیو تولید شود.
aspect_ratio	string	نسبت تصویر ویدیوی تولید شده. مقادیر مجاز (کلیک برای کپی):
duration	integer	مدت زمان ویدیوی خروجی بر حسب ثانیه. مقادیر مجاز (کلیک برای کپی):
generation_id	stringRequired	شناسه تولید ویدیو که از درخواست قبلی دریافت شده است.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import time

# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"

# Creating and sending a video generation task to the server
def generate_video():
    url = "https://api.ai-kar.com/v1/video/generations"
    headers = {
        "Authorization": f"Bearer {api_key}",
    }
    data = {
        "model": "sber-ai/kandinsky5-distill-t2v",
        "prompt": "A menacing evil dragon appears in a distance above the tallest mountain, then rushes toward the camera with its jaws open, revealing massive fangs. We see it's coming.",
        "duration": 5
    }
    response = requests.post(url, json=data, headers=headers)
    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        print(response_data)
        return response_data

# Requesting the result of the task from the server using the generation_id
def get_video(gen_id):
    url = "https://api.ai-kar.com/v1/video/generations"
    params = {
        "generation_id": gen_id,
    }
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    }
    response = requests.get(url, params=params, headers=headers)
    return response.json()

def main():
    # Generate video
    gen_response = generate_video()
    gen_id = gen_response.get("id")
    print("Generation ID:  ", gen_id)

    # Try to retrieve the video from the server every 10 sec
    if gen_id:
        start_time = time.time()
        timeout = 600
        while time.time() - start_time < timeout:
            response_data = get_video(gen_id)
            if response_data is None:
                print("Error: No response from API")
                break
            status = response_data.get("status")
            print("Status:", status)
            if status == "waiting" or status == "active" or  status == "queued" or status == "generating":
                print("Still waiting... Checking again in 10 seconds.")
                time.sleep(10)
            else:
                print("Processing complete:/n", response_data)
                return response_data
        print("Timeout reached. Stopping.")
        return None

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
  "status": "completed",
  "video": {
    "url": "#",
    "duration": 8
  },
  "duration": 8,
  "error": null,
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}