Video Modelsgoogle

معرفی و مستندات مدل هوش مصنوعی veo2-image-to-video

مستندات مدل veo2-image-to-video از گوگل، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. توضیحات فارسی در prompt می‌تواند تا حدودی در نتیجه تاثیر بگذارد، اما برای نتیجه بهتر توصیه می‌شود از prompt انگلیسی استفاده شود.

مدل veo2-image-to-video یک مدل هوش مصنوعی پیشرفته چندوجهی (تصویر + متن) است که تصاویر ثابت را به محتوای ویدیویی پویا و با کیفیت بالا تبدیل می‌کند. این مدل بر اساس موفقیت مدل Veo2 text-to-video گوگل ساخته شده است و کنترل و واقع‌گرایی بی‌سابقه‌ای را در تولید ویدیو از تصاویر ثابت ارائه می‌دهد. این مدل قادر است محتوای اصلی تصاویر منبع را به طور وفادارانه حفظ کند و حرکات بصری و فیزیکی واقع‌گرایانه‌ای را در ویدیو ایجاد کند. این مدل از دو مرحله اصلی برای تولید ویدیو استفاده می‌کند. در مرحله اول، یک درخواست تولید ویدیو به سرور ارسال می‌شود و یک شناسه تولید (generation ID) دریافت می‌شود. در مرحله دوم، با استفاده از این شناسه، ویدیو تولید شده از سرور درخواست می‌شود. با استفاده از این مدل، کاربران می‌توانند به راحتی تصاویر خود را به ویدیوهای جذاب و پویا تبدیل کنند. این مدل برای کاربردهای مختلفی مانند تولید محتوای تبلیغاتی، آموزشی، سرگرمی و غیره مناسب است. یکی از ویژگی‌های برجسته این مدل، توانایی آن در حفظ محتوای اصلی تصاویر ورودی است. این بدان معناست که ویدیوهای تولید شده، ویژگی‌ها و جزئیات اصلی تصاویر را به دقت حفظ می‌کنند. علاوه بر این، مدل veo2-image-to-video قادر است حرکات طبیعی و واقع‌گرایانه‌ای را در ویدیو ایجاد کند. این حرکات بر اساس قوانین فیزیک شبیه‌سازی شده‌اند و باعث می‌شوند ویدیوها بسیار جذاب‌تر و باورپذیرتر به نظر برسند. کاربران می‌توانند با استفاده از توضیحات متنی (prompt)، نوع حرکت و رفتاری که می‌خواهند در ویدیو ایجاد شود را مشخص کنند. این مدل همچنین امکان کنترل دقیق بر جنبه‌های مختلف ویدیو را فراهم می‌کند. کاربران می‌توانند نسبت تصویر (aspect ratio) و طول ویدیو (duration) را به دلخواه تنظیم کنند. همچنین، امکان تعیین یک تصویر به عنوان فریم پایانی (tail_image_url) نیز وجود دارد که می‌تواند برای ایجاد ویدیوهای با ساختار مشخص و جذاب مورد استفاده قرار گیرد. به طور خلاصه، مدل veo2-image-to-video یک ابزار قدرتمند و کارآمد برای تولید ویدیو از تصاویر ثابت است که با ارائه کنترل دقیق، واقع‌گرایی بالا و حفظ محتوای اصلی، امکان ایجاد ویدیوهای جذاب و با کیفیت را برای کاربران فراهم می‌کند. این مدل با بهره‌گیری از آخرین دستاوردهای هوش مصنوعی، تجربه کاربری بی‌نظیری را در زمینه تولید ویدیو ارائه می‌دهد و می‌تواند به عنوان یک ابزار ارزشمند برای تولیدکنندگان محتوا، بازاریابان و سایر افراد علاقه‌مند به تولید ویدیو مورد استفاده قرار گیرد.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تولید ویدیو. مقادیر مجاز (کلیک برای کپی):
prompt	stringRequired	توضیحات متنی صحنه، موضوع یا عملی که می‌خواهید در ویدیو تولید شود.
image_url	stringRequired	یک لینک مستقیم به یک تصویر آنلاین یا یک تصویر محلی کدگذاری شده با Base64 که به عنوان پایه بصری یا اولین فریم برای ویدیو استفاده می‌شود.
tail_image_url	string	یک لینک مستقیم به یک تصویر آنلاین یا یک تصویر محلی کدگذاری شده با Base64 که به عنوان آخرین فریم ویدیو استفاده می‌شود.
aspect_ratio	string	نسبت تصویر ویدیوی تولید شده. مقادیر مجاز (کلیک برای کپی):
duration	integer	طول ویدیوی خروجی بر حسب ثانیه. مقادیر مجاز (کلیک برای کپی):
negative_prompt	string	توضیحات عناصری که باید در ویدیوی تولید شده از آنها اجتناب شود.
seed	integer	تغییر عدد seed راهی برای دریافت نتایج مختلف برای سایر پارامترهای درخواست یکسان است. استفاده از مقدار یکسان برای یک درخواست مشابه، نتایج مشابهی را تولید می‌کند. اگر مشخص نشود، یک عدد تصادفی انتخاب می‌شود.
enhance_prompt	boolean	اینکه آیا تولید ویدیو بهبود یابد یا خیر.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import time

# replace <YOUR_AI-KARAPI_KEY> with your actual ای آی کار (AI-KAR) key
api_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"

# Creating and sending a video generation task to the server
def generate_video():
    url = f"{base_url}/generate/video/google/generation"
    headers = {
        "Authorization": f"Bearer {api_key}",
    }
    data = {
        "model": "veo2/image-to-video",
        "prompt": "Mona Lisa puts on glasses with her hands.",
        "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
        "duration": "5",
    }
    response = requests.post(url, json=data, headers=headers)
    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        return response_data

# Requesting the result of the task from the server using the generation_id
def get_video(gen_id):
    url = f"{base_url}/generate/video/google/generation"
    params = {
        "generation_id": gen_id,
    }
    # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    }
    response = requests.get(url, params=params, headers=headers)
    # print("Generation:", response.json())
    return response.json()

def main():
    # Running video generation and getting a task id
    gen_response = generate_video()
    gen_id = gen_response.get("id")
    print("Generation ID:  ", gen_id)

    # Trying to retrieve the video from the server every 10 sec
    if gen_id:
        start_time = time.time()
        timeout = 600
        while time.time() - start_time < timeout:
            response_data = get_video(gen_id)
            if response_data is None:
                print("Error: No response from API")
                break
            status = response_data.get("status")
            print("Status:", status)
            if status == "waiting" or status == "active" or  status == "queued" or status == "generating":
                print("Still waiting... Checking again in 10 seconds.")
                time.sleep(10)
            else:
                print("Processing complete:/n", response_data)
                return response_data
        print("Timeout reached. Stopping.")
        return None

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
  "status": "completed",
  "video": {
    "url": "#",
    "duration": 8
  },
  "duration": 8,
  "error": null,
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}