Video Modelsgoogle

معرفی و مستندات مدل هوش مصنوعی veo3-text-to-video

مستندات مدل تولید ویدیو از متن veo3-text-to-video از گوگل، ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی در سطح متوسط پشتیبانی می‌کند. درک مفاهیم کلی را دارد اما در تشخیص ظرایف زبانی و اصطلاحات ممکن است با مشکل مواجه شود.

مدل veo3-text-to-video یک مدل هوش مصنوعی پیشرفته است که توسط گوگل توسعه یافته و برای تولید ویدیوهای کوتاه با کیفیت بالا از روی متن یا تصاویر ورودی طراحی شده است. این مدل، نسل جدیدی از مدل‌های تولید ویدیو محسوب می‌شود و نسبت به نسل قبلی خود، Veo2، پیشرفت‌های چشمگیری داشته است. این مدل قادر است با دریافت یک متن توصیفی، ویدیویی با محتوای مرتبط و با کیفیت بصری بالا تولید کند. همچنین، می‌تواند از تصاویر به عنوان ورودی استفاده کرده و ویدیوهایی بر اساس محتوای تصویر ایجاد کند. این قابلیت به کاربران اجازه می‌دهد تا ایده‌های خلاقانه خود را به سادگی به ویدیو تبدیل کنند.

یکی از ویژگی‌های برجسته veo3-text-to-video، توانایی آن در درک و تفسیر دقیق متن ورودی است. این مدل با استفاده از الگوریتم‌های پیشرفته پردازش زبان طبیعی (NLP)، قادر است مفاهیم و جزئیات موجود در متن را به خوبی درک کرده و ویدیویی متناسب با آن تولید کند. به عنوان مثال، اگر در متن ورودی به یک صحنه خاص با جزئیات دقیق اشاره شده باشد، مدل می‌تواند ویدیویی با همان جزئیات تولید کند. این دقت و تطابق بین متن و ویدیو، تجربه کاربری را بهبود می‌بخشد و امکان تولید ویدیوهای سفارشی و منحصر به فرد را فراهم می‌کند.

علاوه بر این، veo3-text-to-video از قابلیت‌های پیشرفته‌ای در زمینه تولید تصاویر و ویدیوهای با کیفیت بالا برخوردار است. این مدل با استفاده از تکنیک‌های نوین گرافیکی و پردازش تصویر، قادر است ویدیوهایی با رزولوشن بالا، رنگ‌های زنده و جزئیات دقیق تولید کند. همچنین، می‌تواند افکت‌های ویژه و جلوه‌های بصری متنوعی را به ویدیوها اضافه کند تا جذابیت و تاثیرگذاری آن‌ها را افزایش دهد. این ویژگی‌ها به کاربران امکان می‌دهند تا ویدیوهایی با کیفیت حرفه‌ای و با استفاده از ابزارهای ساده و در دسترس تولید کنند.

یکی دیگر از مزایای veo3-text-to-video، سرعت بالای تولید ویدیو است. این مدل با استفاده از سخت‌افزارهای قدرتمند و الگوریتم‌های بهینه‌سازی شده، قادر است ویدیوها را در مدت زمان کوتاهی تولید کند. این ویژگی به کاربران امکان می‌دهد تا به سرعت ایده‌های خود را به ویدیو تبدیل کرده و در پروژه‌های مختلف از آن‌ها استفاده کنند. همچنین، این سرعت بالا، امکان آزمایش و بررسی ایده‌های مختلف را فراهم می‌کند و به کاربران اجازه می‌دهد تا بهترین ویدیو را برای نیازهای خود انتخاب کنند.

در مجموع، veo3-text-to-video یک ابزار قدرتمند و کارآمد برای تولید ویدیوهای کوتاه با کیفیت بالا از روی متن یا تصاویر ورودی است. این مدل با استفاده از الگوریتم‌های پیشرفته هوش مصنوعی و تکنیک‌های نوین گرافیکی، قادر است ویدیوهایی با دقت، کیفیت و سرعت بالا تولید کند. این ویژگی‌ها، veo3-text-to-video را به یک انتخاب مناسب برای کاربران حرفه‌ای و غیرحرفه‌ای تبدیل می‌کند که به دنبال تولید ویدیوهای جذاب و تاثیرگذار هستند. این مدل در زمینه‌های مختلفی مانند تبلیغات، آموزش، سرگرمی و تولید محتوا کاربرد دارد و می‌تواند به کاربران کمک کند تا ایده‌های خود را به بهترین شکل ممکن به تصویر بکشند.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تولید ویدیو. مقدار ثابت `google/veo3` را بپذیرید. مقادیر مجاز (کلیک برای کپی):
prompt	stringRequired	توضیحات متنی صحنه، موضوع یا عملی که می‌خواهید در ویدیو تولید شود.
aspect_ratio	string	نسبت تصویر ویدیوی تولید شده. مقادیر مجاز (کلیک برای کپی):
resolution	string	رزولوشن ویدیوی تولید شده. مقدار پیش‌فرض `720P` است. مقادیر مجاز (کلیک برای کپی):
duration	integer	طول ویدیوی خروجی بر حسب ثانیه. مقادیر مجاز (کلیک برای کپی):
negative_prompt	string	توضیحات عناصری که باید در ویدیوی تولید شده از آن‌ها اجتناب شود.
seed	integer	یک عدد صحیح برای تولید نتایج متفاوت با پارامترهای مشابه. استفاده از یک مقدار یکسان برای درخواست‌های یکسان، نتایج مشابهی تولید می‌کند. اگر مشخص نشود، یک عدد تصادفی انتخاب می‌شود.
enhance_prompt	boolean	مشخص می‌کند که آیا تولید ویدیو بهبود یابد یا خیر. مقدار پیش‌فرض `true` است.
generate_audio	boolean	مشخص می‌کند که آیا صدا برای ویدیو تولید شود یا خیر. مقدار پیش‌فرض `true` است.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import time

base_url = "https://api.ai-kar.com/v1"
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
AI-KARapi_key = "<YOUR_AI-KARAPI_KEY>"

# Creating and sending a video generation task to the server
def generate_video():
    url = f"{base_url}/v2/generate/video/google/generation"
    headers = {
        "Authorization": f"Bearer {AI-KARapi_key}",
    }
    data = {
        "model": "google/veo3",
        "prompt": '''
A menacing evil dragon appears in a distance above the tallest mountain, then rushes toward the camera with its jaws open, revealing massive fangs. We see it's coming.
'''
    }
    response = requests.post(url, json=data, headers=headers)
    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        # print(response_data)
        return response_data

# Requesting the result of the task from the server using the generation_id
def get_video(gen_id):
    url = f"{base_url}/v2/generate/video/google/generation"
    params = {
        "generation_id": gen_id,
    }
    headers = {
        "Authorization": f"Bearer {AI-KARapi_key}",
        "Content-Type": "application/json"
    }
    response = requests.get(url, params=params, headers=headers)
    # print("Generation:", response.json())
    return response.json()

def main():
    # Running video generation and getting a task id
    gen_response = generate_video()
    gen_id = gen_response.get("id")
    print("Gen_ID:  ", gen_id)

    # Trying to retrieve the video from the server every 10 sec
    if gen_id:
        start_time = time.time()
        timeout = 1000
        while time.time() - start_time < timeout:
            response_data = get_video(gen_id)
            if response_data is None:
                print("Error: No response from API")
                break
            status = response_data.get("status")
            print("Status:", status)
            if status == "waiting" or status == "active" or status == "queued" or status == "generating":
                print("Still waiting... Checking again in 10 seconds.")
                time.sleep(10)
            else:
                print("Processing complete:/n", response_data)
                return response_data
        print("Timeout reached. Stopping.")
        return None

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
  "status": "completed",
  "video": {
    "url": "#",
    "duration": 8
  },
  "duration": 8,
  "error": null,
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}