Video Modelsgoogle

معرفی و مستندات مدل هوش مصنوعی veo-3-image-to-video

مستندات مدل تولید ویدیو از تصویر veo-3-image-to-video، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل در درک زبان فارسی متوسط عمل می‌کند. برای نتایج بهتر، توصیه می‌شود توضیحات متنی به زبان انگلیسی ارائه شوند.

مدل هوش مصنوعی veo-3-image-to-video، ارائه شده توسط گوگل، یک مدل پیشرفته برای تولید ویدیوهای واقع‌گرایانه از روی تصاویر است. این مدل قادر است ویدیوهایی با کیفیت 720p و 1080p با جزئیات بصری و صوتی دقیق تولید کند. یکی از ویژگی‌های برجسته این مدل، پشتیبانی از سبک‌های مختلف و حتی تولید دیالوگ است که آن را به ابزاری قدرتمند برای تولید محتوای ویدیویی تبدیل می‌کند. این مدل به کاربران اجازه می‌دهد تا با ارائه یک تصویر و توضیحات متنی، ویدیوهایی خلاقانه و جذاب ایجاد کنند. مدل veo-3-image-to-video می‌تواند در زمینه‌های مختلفی مانند تبلیغات، آموزش، سرگرمی و تولید محتوای رسانه‌های اجتماعی مورد استفاده قرار گیرد. با استفاده از این مدل، کاربران می‌توانند به سرعت و به آسانی ویدیوهایی با کیفیت بالا تولید کنند که قبلاً نیاز به صرف زمان و هزینه زیادی داشت. این مدل با درک عمیق از محتوای تصویر و متن، قادر است ویدیوهایی تولید کند که نه تنها از نظر بصری جذاب هستند، بلکه از نظر معنایی نیز با توضیحات ارائه شده هماهنگی دارند. یکی دیگر از قابلیت‌های مهم این مدل، امکان کنترل جنبه‌های مختلف ویدیو مانند نسبت تصویر، رزولوشن و مدت زمان است. کاربران می‌توانند با تنظیم این پارامترها، ویدیوهایی تولید کنند که دقیقاً با نیازهای آن‌ها مطابقت داشته باشد. همچنین، این مدل از پارامترهای منفی نیز پشتیبانی می‌کند که به کاربران اجازه می‌دهد تا عناصری که نمی‌خواهند در ویدیو ظاهر شوند را مشخص کنند. این ویژگی به ویژه برای تولید ویدیوهایی با محتوای خاص و دقیق بسیار مفید است. در مجموع، مدل veo-3-image-to-video یک ابزار قدرتمند و انعطاف‌پذیر برای تولید ویدیوهای واقع‌گرایانه از روی تصاویر است که می‌تواند در زمینه‌های مختلفی مورد استفاده قرار گیرد و به کاربران کمک کند تا به سرعت و به آسانی ویدیوهایی با کیفیت بالا تولید کنند. برای شروع استفاده از این مدل، کافی است یک کلید API از ای آی کار (AI-KAR) دریافت کرده و از طریق API به این مدل دسترسی پیدا کنید.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تولید ویدیو.
مقادیر مجاز (کلیک برای کپی):
prompt
stringRequired
توضیحات متنی صحنه، موضوع یا عملی که می‌خواهید در ویدیو تولید شود.
image_url
stringRequired
یک لینک مستقیم به یک تصویر آنلاین یا یک تصویر محلی که به صورت Base64 کدگذاری شده است و به عنوان پایه بصری یا اولین فریم برای ویدیو عمل می‌کند.
aspect_ratio
string
نسبت تصویر ویدیوی تولید شده.
مقادیر مجاز (کلیک برای کپی):
resolution
string
رزولوشن ویدیوی تولید شده. مقدار پیش‌فرض 720P است.
مقادیر مجاز (کلیک برای کپی):
duration
integer
طول ویدیوی خروجی بر حسب ثانیه.
مقادیر مجاز (کلیک برای کپی):
negative_prompt
string
توضیحات عناصری که باید در ویدیوی تولید شده از آن‌ها اجتناب شود.
seed
integer
تغییر عدد seed راهی برای دریافت نتایج مختلف برای پارامترهای درخواست یکسان است. استفاده از مقدار یکسان برای یک درخواست مشابه، نتایج مشابهی تولید می‌کند. اگر مشخص نشود، یک عدد تصادفی انتخاب می‌شود.
enhance_prompt
boolean
اینکه آیا تولید ویدیو بهبود یابد یا خیر. مقدار پیش‌فرض true است.
generate_audio
boolean
اینکه آیا صدا برای ویدیو تولید شود یا خیر. مقدار پیش‌فرض true است.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import time

api_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"

def generate_video():
    url = f"{base_url}/generate/video/google/generation"
    headers = {
        "Authorization": f"Bearer {api_key}",
    }
    data = {
        "model": "google/veo-3.0-i2v",
        "prompt": "First, The woman silently puts on glasses with her hands. Then she sighs. After that she says once slowly: 'Well...'.",
        "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
    }
    response = requests.post(url, json=data, headers=headers)
    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        return response_data

def get_video(gen_id):
    url = f"{base_url}/generate/video/google/generation"
    params = {
        "generation_id": gen_id,
    }
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    }
    response = requests.get(url, params=params, headers=headers)
    return response.json()

def main():
    gen_response = generate_video()
    gen_id = gen_response.get("id")
    print("Generation ID:  ", gen_id)

    if gen_id:
        start_time = time.time()
        timeout = 600
        while time.time() - start_time < timeout:
            response_data = get_video(gen_id)
            if response_data is None:
                print("Error: No response from API")
                break
            status = response_data.get("status")
            print("Status:", status)
            if status == "waiting" or status == "active" or  status == "queued" or status == "generating":
                print("Still waiting... Checking again in 10 seconds.")
                time.sleep(10)
            else:
                print("Processing complete:/n", response_data)
                return response_data
        print("Timeout reached. Stopping.")
        return None

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
  "status": "completed",
  "video": {
    "url": "#",
    "duration": 8
  },
  "duration": 8,
  "error": null,
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}