Video Modelsopenai

معرفی و مستندات مدل هوش مصنوعی sora-2-i2v

مستندات مدل sora-2-i2v از OpenAI، ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک مفاهیم کلی را دارد اما در جزئیات ممکن است دچار مشکل شود.

معرفی مدل sora-2-i2v

مدل sora-2-i2v یک مدل تولید رسانه قدرتمند است که توسط OpenAI توسعه یافته و قادر به تولید ویدیوهای هماهنگ با صدا است. این مدل به کاربران اجازه می‌دهد تا با استفاده از یک تصویر مرجع و یک توضیح متنی (prompt)، ویدیوهای خلاقانه و با کیفیت بالا تولید کنند. ای آی کار (AI-KAR) با ارائه مستندات جامع و مثال‌های کاربردی، استفاده از این مدل را برای توسعه‌دهندگان و کاربران فارسی‌زبان تسهیل می‌کند.

نحوه کارکرد مدل

مدل sora-2-i2v با دریافت یک تصویر و یک متن توصیفی، ویدیویی را تولید می‌کند که محتوای تصویر اولیه را بر اساس توضیحات متنی گسترش می‌دهد. این فرآیند شامل مراحل زیر است:

  1. دریافت ورودی: مدل یک تصویر (image_url) و یک متن توصیفی (prompt) را به عنوان ورودی دریافت می‌کند. تصویر می‌تواند یک URL یا یک فایل Base64-encoded باشد.
  2. پردازش تصویر و متن: مدل تصویر و متن را به طور همزمان پردازش می‌کند تا ارتباط بین آنها را درک کند.
  3. تولید ویدیو: بر اساس پردازش انجام شده، مدل ویدیویی را تولید می‌کند که با تصویر اولیه و متن توصیفی هماهنگ است.
  4. ارائه خروجی: ویدیوی تولید شده به همراه فراداده‌های مربوطه (مانند مدت زمان ویدیو) به کاربر ارائه می‌شود.

کاربردهای مدل

مدل sora-2-i2v کاربردهای متنوعی دارد، از جمله:

  • تولید محتوای تبلیغاتی: ایجاد ویدیوهای تبلیغاتی جذاب و خلاقانه با استفاده از تصاویر محصولات و توضیحات متنی.
  • تولید محتوای آموزشی: ساخت ویدیوهای آموزشی با استفاده از تصاویر و توضیحات مربوط به موضوعات مختلف.
  • تولید محتوای سرگرمی: ایجاد ویدیوهای کوتاه و جذاب برای شبکه‌های اجتماعی و پلتفرم‌های اشتراک ویدیو.
  • تولید پیش‌نمایش فیلم و سریال: ساخت پیش‌نمایش‌های جذاب با استفاده از تصاویر و توضیحات مربوط به داستان فیلم یا سریال.
  • تولید محتوای هنری: ایجاد ویدیوهای هنری و تجربی با استفاده از تصاویر و توضیحات خلاقانه.

نکات مهم

  • ابعاد تصویر ورودی باید با رزولوشن و نسبت تصویر ویدیوی خروجی مطابقت داشته باشد.
  • متن توصیفی باید واضح و دقیق باشد تا مدل بتواند ویدیوی مناسبی تولید کند.
  • مدت زمان ویدیو (duration) و نسبت تصویر (aspect_ratio) قابل تنظیم هستند.

مثال‌ها

در زیر چند مثال از کاربردهای مدل sora-2-i2v آورده شده است:

  • تصویر: یک عکس از یک ساحل آفتابی. متن: یک موج آرام به سمت ساحل می‌آید و صدای مرغان دریایی شنیده می‌شود.
  • تصویر: یک عکس از یک جنگل انبوه. متن: نور خورشید از میان درختان می‌تابد و صدای پرندگان به گوش می‌رسد.
  • تصویر: یک عکس از یک شهر شلوغ. متن: ماشین‌ها در خیابان‌ها حرکت می‌کنند و صدای بوق‌ها شنیده می‌شود.

با استفاده از مدل sora-2-i2v، می‌توانید به راحتی ویدیوهای خلاقانه و جذابی تولید کنید. ای آی کار (AI-KAR) با ارائه مستندات کامل و پشتیبانی فنی، شما را در این مسیر همراهی می‌کند.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
نام مدلی که برای تولید ویدیو استفاده می‌شود.
مقادیر مجاز (کلیک برای کپی):
image_url
stringRequired
آدرس URL یا تصویر Base64-encoded که به عنوان فریم اولیه برای تولید ویدیو استفاده می‌شود. ابعاد تصویر باید با رزولوشن و نسبت تصویر انتخاب شده مطابقت داشته باشد. پیکربندی‌های پشتیبانی شده شامل: 720p با نسبت تصویر: 16:9 — 1280x720 9:16 — 720x1280 1080p با نسبت تصویر: 16:9 — 1792x1024 9:16 — 1024x1792
prompt
stringRequired
توضیحات متنی صحنه، موضوع یا عملی که باید در ویدیو تولید شود.
duration
integer
طول ویدیوی خروجی بر حسب ثانیه.
مقادیر مجاز (کلیک برای کپی):
aspect_ratio
string
نسبت تصویر ویدیوی تولید شده. مقدار پیش‌فرض 16:9 است.
مقادیر مجاز (کلیک برای کپی):
resolution
string
رزولوشن ویدیوی خروجی، که عدد به ضلع کوچک‌تر بر حسب پیکسل اشاره دارد. مقدار پیش‌فرض 720p است.
مقادیر مجاز (کلیک برای کپی):

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import time

# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"

# Creating and sending a video generation task to the server
def generate_video():
    url = "https://api.ai-kar.com/v1/video/generations"
    headers = {
        "Authorization": f"Bearer {api_key}",
    }
    data = {
        "model": "openai/sora-2-i2v",
        "prompt": "She turns around and smiles, then slowly walks out of the frame.",
        "image_url": "https://cdn.openai.com/API/docs/images/sora/woman_skyline_original_720p.jpeg",
        "resolution": "720p",
        "duration": 4
    }
    response = requests.post(url, json=data, headers=headers)
    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        print(response_data)
        return response_data

# Requesting the result of the task from the server using the generation_id
def get_video(gen_id):
    url = "https://api.ai-kar.com/v1/video/generations"
    params = {
        "generation_id": gen_id,
    }
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    }
    response = requests.get(url, params=params, headers=headers)
    return response.json()

def main():
    # Generate video
    gen_response = generate_video()
    gen_id = gen_response.get("id")
    print("Generation ID:  ", gen_id)

    # Try to retrieve the video from the server every 10 sec
    if gen_id:
        start_time = time.time()
        timeout = 600
        while time.time() - start_time < timeout:
            response_data = get_video(gen_id)
            if response_data is None:
                print("Error: No response from API")
                break
            status = response_data.get("status")
            print("Status:", status)
            if status == "waiting" or status == "active" or  status == "queued" or status == "generating":
                print("Still waiting... Checking again in 10 seconds.")
                time.sleep(10)
            else:
                print("Processing complete:/n", response_data)
                return response_data
        print("Timeout reached. Stopping.")
        return None

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
  "status": "completed",
  "video": {
    "url": "#",
    "duration": 8
  },
  "duration": 8,
  "error": null,
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}