Video Modelsgoogle

معرفی و مستندات مدل هوش مصنوعی veo-3-1-reference-to-video

مستندات مدل تولید ویدیو از روی عکس و متن veo-3-1-reference-to-video، ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل در درک و پردازش زبان فارسی در سطح ضعیف عمل می‌کند. برای دریافت نتایج بهتر، توصیه می‌شود از توضیحات متنی انگلیسی استفاده کنید.

مدل veo-3-1-reference-to-video از Google، یک مدل هوش مصنوعی پیشرفته است که قادر به تولید ویدیوهای واقع‌گرایانه با کیفیت 720p و 1080p است. این مدل با دریافت یک یا چند تصویر مرجع و یک توضیح متنی، ویدیوهایی با جزئیات بصری و صوتی دقیق تولید می‌کند. طول ویدیوهای تولید شده توسط این مدل 8 ثانیه است و از سبک‌های مختلف پشتیبانی می‌کند. یکی از ویژگی‌های برجسته این مدل، پشتیبانی از تولید دیالوگ در ویدیوها است که امکان ایجاد ویدیوهای جذاب‌تر و پویاتر را فراهم می‌کند. این مدل می‌تواند چندین تصویر مرجع را به عنوان ورودی دریافت کند و با ترکیب آن‌ها و توضیحات متنی، ویدیوهای منحصربه‌فردی ایجاد کند. این قابلیت به کاربران اجازه می‌دهد تا با استفاده از تصاویر مختلف و توضیحات دقیق، ویدیوهایی با سناریوهای پیچیده و متنوع تولید کنند. مدل veo-3-1-reference-to-video با بهره‌گیری از الگوریتم‌های پیشرفته یادگیری عمیق، قادر است جزئیات دقیقی از تصاویر مرجع را در ویدیوهای تولید شده بازسازی کند. این امر باعث می‌شود تا ویدیوها بسیار واقع‌گرایانه و با کیفیت بالا باشند. همچنین، این مدل از تولید صدا برای ویدیوها نیز پشتیبانی می‌کند که به افزایش جذابیت و واقع‌گرایی ویدیوها کمک می‌کند. کاربران می‌توانند با استفاده از این مدل، ویدیوهایی با موضوعات مختلف ایجاد کنند، از جمله ویدیوهای تبلیغاتی، آموزشی، هنری و سرگرمی. این مدل به ویژه برای تولیدکنندگانی که به دنبال ایجاد محتوای ویدیویی با کیفیت بالا و با استفاده از تصاویر موجود هستند، بسیار مفید است. با استفاده از API این مدل، کاربران می‌توانند به راحتی ویدیوهای مورد نظر خود را تولید کرده و در پروژه‌های خود استفاده کنند. این مدل با ارائه امکانات گسترده و کیفیت بالای ویدیوهای تولید شده، به یکی از ابزارهای قدرتمند در زمینه تولید محتوای ویدیویی تبدیل شده است. برای شروع کار با این مدل، کافی است یک کلید API از ای آی کار (AI-KAR) دریافت کرده و با استفاده از مستندات ارائه شده، درخواست‌های خود را به سرور ارسال کنید.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تولید ویدیو. مقدار این فیلد باید google/veo-3.1-reference-to-video باشد.
مقادیر مجاز (کلیک برای کپی):
prompt
stringRequired
توضیحات متنی صحنه، موضوع یا عملی که می‌خواهید در ویدیو تولید شود.
image_urls
string · uri[]Required
آدرس URL تصویر ورودی برای متحرک‌سازی. رزولوشن تصویر باید 720p یا بالاتر باشد.
aspect_ratio
string · enum
نسبت تصویر ویدیوی تولید شده.
مقادیر مجاز (کلیک برای کپی):
duration
integer · enum
طول ویدیوی خروجی بر حسب ثانیه.
مقادیر مجاز (کلیک برای کپی):
resolution
string · enum
رزولوشن ویدیوی خروجی. مقدار پیش‌فرض 1080p است.
مقادیر مجاز (کلیک برای کپی):
generate_audio
boolean
مشخص می‌کند که آیا صدا برای ویدیو تولید شود یا خیر. مقدار پیش‌فرض true است.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import time

# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
AI-KARapi_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"

# Creating and sending a video generation task to the server
def generate_video():
    url = f"{base_url}/video/generations"
    headers = {
        "Authorization": f"Bearer {AI-KARapi_key}",
    }
    data = {
        "model": "google/veo-3.1-reference-to-video",
        "prompt": "A graceful ballerina dancing outside a circus tent on green grass, with colorful wildflowers swaying around her as she twirls and poses in the meadow.",
        "image_urls": [
            "https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-1.png",
            "https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-2.png",
            "https://storage.googleapis.com/falserverless/example_inputs/veo31-r2v-input-3.png"
        ]
    }
    response = requests.post(url, json=data, headers=headers)
    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        return response_data

# Requesting the result of the task from the server using the generation_id
def get_video(gen_id):
    url = f"{base_url}/video/generations"
    params = {
        "generation_id": gen_id,
    }
    headers = {
        "Authorization": f"Bearer {AI-KARapi_key}",
        "Content-Type": "application/json"
    }
    response = requests.get(url, params=params, headers=headers)
    return response.json()

def main():
    # Running video generation and getting a task id
    gen_response = generate_video()
    gen_id = gen_response.get("id")
    print("Generation ID:  ", gen_id)

    # Trying to retrieve the video from the server every 10 sec
    if gen_id:
        start_time = time.time()
        timeout = 1000
        while time.time() - start_time < timeout:
            response_data = get_video(gen_id)
            if response_data is None:
                print("Error: No response from API")
                break
            status = response_data.get("status")
            print("Status:", status)
            if status == "waiting" or status == "active" or  status == "queued" or status == "generating":
                print("Still waiting... Checking again in 10 seconds.")
                time.sleep(10)
            else:
                print("Processing complete:/n", response_data)
                return response_data
        print("Timeout reached. Stopping.")
        return None

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
  "status": "completed",
  "video": {
    "url": "#",
    "duration": 8
  },
  "duration": 8,
  "error": null,
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}