Video Modelsgoogle

معرفی و مستندات مدل هوش مصنوعی veo2-text-to-video

مستندات مدل تولید ویدیو از متن veo2-text-to-video از گوگل، ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی در سطح ضعیف پشتیبانی می‌کند. برای دریافت بهترین نتیجه، استفاده از prompt های انگلیسی توصیه می‌شود.

مدل veo2-text-to-video یک مدل هوش مصنوعی پیشرفته از گوگل است که برای تولید محتوای ویدیویی واقع‌گرایانه و سینمایی از روی متن یا ترکیبی از متن و تصاویر طراحی شده است. این مدل با بهره‌گیری از تکنیک‌های پیشرفته یادگیری ماشین، در ایجاد ویدیوهایی با حرکت طبیعی، فیزیک واقع‌گرایانه و کیفیت بصری حرفه‌ای بسیار عالی عمل می‌کند. Veo2 قادر است با دریافت یک توضیح متنی، ویدیوهایی با جزئیات دقیق و کیفیت بالا تولید کند که پیش از این تنها با استفاده از تجهیزات فیلم‌برداری حرفه‌ای و صرف زمان و هزینه بسیار زیاد امکان‌پذیر بود. این مدل می‌تواند در زمینه‌های مختلفی مانند تولید محتوای تبلیغاتی، آموزشی، سرگرمی و هنری مورد استفاده قرار گیرد.
یکی از ویژگی‌های برجسته Veo2، توانایی آن در درک و تفسیر دقیق دستورات متنی است. این مدل می‌تواند مفاهیم پیچیده را درک کرده و آن‌ها را به صحنه‌های ویدیویی تبدیل کند. برای مثال، با ارائه یک متن توصیفی از یک منظره طبیعی زیبا، Veo2 می‌تواند ویدیویی با کیفیت بالا از آن منظره تولید کند که شامل جزئیاتی مانند نورپردازی، بافت‌ها و رنگ‌های طبیعی باشد. همچنین، این مدل قادر است حرکت دوربین و جلوه‌های ویژه را به ویدیو اضافه کند تا تجربه بصری جذاب‌تری برای بیننده ایجاد شود. Veo2 از طریق یک API قابل دسترس است که به توسعه‌دهندگان اجازه می‌دهد تا به راحتی این مدل را در برنامه‌ها و پروژه‌های خود ادغام کنند. این API امکاناتی مانند تنظیم پارامترهای مختلف ویدیو، انتخاب نسبت تصویر، تعیین مدت زمان ویدیو و اضافه کردن متن منفی (توضیح عناصری که باید از ویدیو حذف شوند) را فراهم می‌کند. همچنین، توسعه‌دهندگان می‌توانند از طریق API وضعیت تولید ویدیو را پیگیری کرده و پس از اتمام فرآیند، ویدیوی تولید شده را دریافت کنند. با استفاده از Veo2، تولیدکنندگان محتوا می‌توانند به سرعت و با هزینه کم، ویدیوهای با کیفیت بالا تولید کنند. این مدل به ویژه برای کسب‌وکارهایی که نیاز به تولید محتوای ویدیویی به صورت مداوم دارند، بسیار مفید است. به عنوان مثال، یک شرکت تبلیغاتی می‌تواند با استفاده از Veo2، تبلیغات ویدیویی جذاب و موثری را برای محصولات و خدمات خود تولید کند. همچنین، یک موسسه آموزشی می‌تواند از این مدل برای تولید ویدیوهای آموزشی با کیفیت بالا استفاده کند. در مجموع، Veo2 یک ابزار قدرتمند و نوآورانه است که امکان تولید محتوای ویدیویی با کیفیت بالا را برای همه فراهم می‌کند. این مدل با ترکیب هوش مصنوعی و تکنیک‌های پیشرفته یادگیری ماشین، توانسته است یک گام بزرگ در جهت تسهیل و تسریع فرآیند تولید ویدیو بردارد. ای آی کار (AI-KAR) مفتخر است که این تکنولوژی را در اختیار کاربران ایرانی قرار می‌دهد.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تولید ویدیو. مقدار ثابت `veo2` را بپذیرید.
مقادیر مجاز (کلیک برای کپی):
prompt
stringRequired
توضیح متنی صحنه، موضوع یا عملی که می‌خواهید در ویدیو تولید شود.
aspect_ratio
string
نسبت تصویر ویدیوی تولید شده.
مقادیر مجاز (کلیک برای کپی):
duration
integer
مدت زمان ویدیوی خروجی بر حسب ثانیه.
مقادیر مجاز (کلیک برای کپی):
negative_prompt
string
توضیح عناصری که باید از ویدیو اجتناب شوند.
seed
integer
تغییر مقدار seed یک راه برای دریافت نتایج مختلف برای پارامترهای درخواست مشابه است. استفاده از مقدار یکسان برای یک درخواست یکسان، نتایج مشابهی تولید می‌کند. اگر مشخص نشود، یک عدد تصادفی انتخاب می‌شود.
enhance_prompt
boolean
اینکه آیا تولید ویدیو بهبود یابد یا خیر.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import time

# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
AI-KARapi_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"

# Creating and sending a video generation task to the server
def generate_video():
    url = f"{base_url}/generate/video/google/generation"
    headers = {
        "Authorization": f"Bearer {AI-KARapi_key}",
    }
    data = {
        "model": "veo2",
        "prompt": '''
A menacing evil dragon appears in a distance above the tallest mountain, then rushes toward the camera with its jaws open, revealing massive fangs. We see it's coming.
'''
    }
    response = requests.post(url, json=data, headers=headers)
    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        return response_data

# Requesting the result of the task from the server using the generation_id
def get_video(gen_id):
    url = f"{base_url}/generate/video/google/generation"
    params = {
        "generation_id": gen_id,
    }
    headers = {
        "Authorization": f"Bearer {AI-KARapi_key}",
        "Content-Type": "application/json"
    }
    response = requests.get(url, params=params, headers=headers)
    return response.json()

def main():
    # Running video generation and getting a task id
    gen_response = generate_video()
    gen_id = gen_response.get("id")
    print("Gen_ID:  ", gen_id)

    # Trying to retrieve the video from the server every 10 sec
    if gen_id:
        start_time = time.time()
        timeout = 1000
        while time.time() - start_time < timeout:
            response_data = get_video(gen_id)
            if response_data is None:
                print("Error: No response from API")
                break
            status = response_data.get("status")
            print("Status:", status)
            if status == "waiting" or status == "active" or status == "queued" or status == "generating":
                print("Still waiting... Checking again in 10 seconds.")
                time.sleep(10)
            else:
                print("Processing complete:/n", response_data)
                return response_data
        print("Timeout reached. Stopping.")
        return None

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
  "status": "completed",
  "video": {
    "url": "#",
    "duration": 8
  },
  "duration": 8,
  "error": null,
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}