Video Modelsgoogle

معرفی و مستندات مدل هوش مصنوعی veo-3-1-image-to-video

مستندات مدل تولید ویدیو از تصویر veo-3-1-image-to-video، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی در سطح متوسط پشتیبانی می‌کند. درک دستورات فارسی در تولید ویدیو ممکن است نیازمند تنظیمات دقیق‌تر و استفاده از عبارات ساده‌تر باشد.

مدل veo-3-1-image-to-video یک مدل هوش مصنوعی است که توسط گوگل توسعه یافته و قادر است ویدیوهای واقع‌گرایانه با کیفیت بالا از روی یک تصویر ورودی تولید کند. این مدل با دریافت یک تصویر و یک توضیح متنی (prompt)، ویدیویی کوتاه با جزئیات بصری و صوتی تولید می‌کند. این ویدیوها می‌توانند تا 8 ثانیه طول داشته باشند و با رزولوشن‌های 720p و 1080p ایجاد شوند. یکی از ویژگی‌های برجسته این مدل، پشتیبانی از سبک‌های مختلف و حتی تولید دیالوگ است که امکان ساخت ویدیوهای متنوع و جذاب را فراهم می‌کند. این مدل می‌تواند در زمینه‌های مختلفی مانند تولید محتوای تبلیغاتی، ساخت انیمیشن‌های کوتاه، ایجاد جلوه‌های ویژه بصری و تولید ویدیوهای آموزشی مورد استفاده قرار گیرد. کاربران می‌توانند با ارائه تصاویر و توضیحات دقیق، ویدیوهایی با کیفیت و خلاقانه تولید کنند. این مدل با بهره‌گیری از الگوریتم‌های پیشرفته یادگیری عمیق، قادر است تصاویر ورودی را به طور هوشمندانه تحلیل کرده و ویدیوهایی با حرکات طبیعی و جزئیات دقیق ایجاد کند. همچنین، قابلیت تولید صدا و دیالوگ به ویدیوها، جذابیت و واقع‌گرایی بیشتری می‌بخشد. برای استفاده از این مدل، کاربران باید ابتدا یک کلید API از ای آی کار (AI-KAR) دریافت کنند و سپس با استفاده از API ارائه شده، درخواست تولید ویدیو را ارسال کنند. این فرآیند شامل دو مرحله است: ابتدا یک درخواست ایجاد ویدیو به سرور ارسال می‌شود که شامل تصویر ورودی و توضیحات متنی است. سپس، با استفاده از شناسه تولید (generation ID) که از مرحله اول دریافت می‌شود، می‌توان وضعیت تولید ویدیو را پیگیری کرده و در صورت تکمیل، ویدیوی تولید شده را دریافت کرد. این مدل با ارائه امکانات گسترده و کیفیت بالای ویدیوهای تولیدی، ابزاری قدرتمند برای تولیدکنندگان محتوا و علاقه‌مندان به حوزه هوش مصنوعی به شمار می‌رود. با استفاده از این مدل، می‌توان به راحتی ایده‌های خلاقانه را به ویدیوهای جذاب و واقع‌گرایانه تبدیل کرد و در زمینه‌های مختلف از آن بهره برد.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تولید ویدیو. مقدار ثابت: google/veo-3.1-i2v مقادیر مجاز (کلیک برای کپی):
prompt	stringRequired	توضیحات متنی صحنه، موضوع یا عملی که می‌خواهید در ویدیو تولید شود.
image_url	stringRequired	آدرس URL تصویر ورودی برای متحرک‌سازی. رزولوشن تصویر باید 720p یا بالاتر باشد.
aspect_ratio	string	نسبت تصویر ویدیوی تولید شده. مقادیر مجاز (کلیک برای کپی):
duration	integer	طول ویدیوی خروجی به ثانیه. مقادیر مجاز (کلیک برای کپی):
resolution	string	رزولوشن ویدیوی خروجی. مقدار پیش‌فرض: 1080p مقادیر مجاز (کلیک برای کپی):
generate_audio	boolean	مشخص می‌کند که آیا صدا برای ویدیو تولید شود یا خیر. مقدار پیش‌فرض: true

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import time

# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
AI-KARapi_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1/video/generations"

# Creating and sending a video generation task to the server
def generate_video():
    url = f"{base_url}"
    headers = {
        "Authorization": f"Bearer {AI-KARapi_key}",
        "Content-Type": "application/json",
    }
    data = {
        "model": "google/veo-3.1-i2v",
        "prompt": "The woman puts on glasses with her hands and then sighs and says slowly: 'Well...'.",
        "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
    }
    response = requests.post(url, json=data, headers=headers)
    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        return response_data

# Requesting the result of the task from the server using the generation_id
def get_video(gen_id):
    url = f"{base_url}"
    params = {
        "generation_id": gen_id,
    }
    headers = {
        "Authorization": f"Bearer {AI-KARapi_key}",
        "Content-Type": "application/json"
    }
    response = requests.get(url, params=params, headers=headers)
    return response.json()

def main():
    # Running video generation and getting a task id
    gen_response = generate_video()
    gen_id = gen_response.get("id")
    print("Generation ID:  ", gen_id)

    # Trying to retrieve the video from the server every 10 sec
    if gen_id:
        start_time = time.time()
        timeout = 1000
        while time.time() - start_time < timeout:
            response_data = get_video(gen_id)
            if response_data is None:
                print("Error: No response from API")
                break
            status = response_data.get("status")
            print("Status:", status)
            if status == "waiting" or status == "active" or  status == "queued" or status == "generating":
                print("Still waiting... Checking again in 10 seconds.")
                time.sleep(10)
            else:
                print("Processing complete:/n", response_data)
                return response_data
        print("Timeout reached. Stopping.")
        return None

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
  "status": "completed",
  "video": {
    "url": "#",
    "duration": 8
  },
  "duration": 8,
  "error": null,
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}