معرفی و مستندات مدل هوش مصنوعی sora-2-i2v
مستندات مدل sora-2-i2v از OpenAI، ارائه شده توسط ای آی کار (AI-KAR).
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. درک مفاهیم کلی را دارد اما در جزئیات ممکن است دچار مشکل شود.
معرفی مدل sora-2-i2v
مدل sora-2-i2v یک مدل تولید رسانه قدرتمند است که توسط OpenAI توسعه یافته و قادر به تولید ویدیوهای هماهنگ با صدا است. این مدل به کاربران اجازه میدهد تا با استفاده از یک تصویر مرجع و یک توضیح متنی (prompt)، ویدیوهای خلاقانه و با کیفیت بالا تولید کنند. ای آی کار (AI-KAR) با ارائه مستندات جامع و مثالهای کاربردی، استفاده از این مدل را برای توسعهدهندگان و کاربران فارسیزبان تسهیل میکند.
نحوه کارکرد مدل
مدل sora-2-i2v با دریافت یک تصویر و یک متن توصیفی، ویدیویی را تولید میکند که محتوای تصویر اولیه را بر اساس توضیحات متنی گسترش میدهد. این فرآیند شامل مراحل زیر است:
- دریافت ورودی: مدل یک تصویر (image_url) و یک متن توصیفی (prompt) را به عنوان ورودی دریافت میکند. تصویر میتواند یک URL یا یک فایل Base64-encoded باشد.
- پردازش تصویر و متن: مدل تصویر و متن را به طور همزمان پردازش میکند تا ارتباط بین آنها را درک کند.
- تولید ویدیو: بر اساس پردازش انجام شده، مدل ویدیویی را تولید میکند که با تصویر اولیه و متن توصیفی هماهنگ است.
- ارائه خروجی: ویدیوی تولید شده به همراه فرادادههای مربوطه (مانند مدت زمان ویدیو) به کاربر ارائه میشود.
کاربردهای مدل
مدل sora-2-i2v کاربردهای متنوعی دارد، از جمله:
- تولید محتوای تبلیغاتی: ایجاد ویدیوهای تبلیغاتی جذاب و خلاقانه با استفاده از تصاویر محصولات و توضیحات متنی.
- تولید محتوای آموزشی: ساخت ویدیوهای آموزشی با استفاده از تصاویر و توضیحات مربوط به موضوعات مختلف.
- تولید محتوای سرگرمی: ایجاد ویدیوهای کوتاه و جذاب برای شبکههای اجتماعی و پلتفرمهای اشتراک ویدیو.
- تولید پیشنمایش فیلم و سریال: ساخت پیشنمایشهای جذاب با استفاده از تصاویر و توضیحات مربوط به داستان فیلم یا سریال.
- تولید محتوای هنری: ایجاد ویدیوهای هنری و تجربی با استفاده از تصاویر و توضیحات خلاقانه.
نکات مهم
- ابعاد تصویر ورودی باید با رزولوشن و نسبت تصویر ویدیوی خروجی مطابقت داشته باشد.
- متن توصیفی باید واضح و دقیق باشد تا مدل بتواند ویدیوی مناسبی تولید کند.
- مدت زمان ویدیو (duration) و نسبت تصویر (aspect_ratio) قابل تنظیم هستند.
مثالها
در زیر چند مثال از کاربردهای مدل sora-2-i2v آورده شده است:
- تصویر: یک عکس از یک ساحل آفتابی. متن: یک موج آرام به سمت ساحل میآید و صدای مرغان دریایی شنیده میشود.
- تصویر: یک عکس از یک جنگل انبوه. متن: نور خورشید از میان درختان میتابد و صدای پرندگان به گوش میرسد.
- تصویر: یک عکس از یک شهر شلوغ. متن: ماشینها در خیابانها حرکت میکنند و صدای بوقها شنیده میشود.
با استفاده از مدل sora-2-i2v، میتوانید به راحتی ویدیوهای خلاقانه و جذابی تولید کنید. ای آی کار (AI-KAR) با ارائه مستندات کامل و پشتیبانی فنی، شما را در این مسیر همراهی میکند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | نام مدلی که برای تولید ویدیو استفاده میشود. مقادیر مجاز (کلیک برای کپی): |
image_url | stringRequired | آدرس URL یا تصویر Base64-encoded که به عنوان فریم اولیه برای تولید ویدیو استفاده میشود. ابعاد تصویر باید با رزولوشن و نسبت تصویر انتخاب شده مطابقت داشته باشد. پیکربندیهای پشتیبانی شده شامل:
720p با نسبت تصویر:
16:9 — 1280x720
9:16 — 720x1280
1080p با نسبت تصویر:
16:9 — 1792x1024
9:16 — 1024x1792 |
prompt | stringRequired | توضیحات متنی صحنه، موضوع یا عملی که باید در ویدیو تولید شود. |
duration | integer | طول ویدیوی خروجی بر حسب ثانیه. مقادیر مجاز (کلیک برای کپی): |
aspect_ratio | string | نسبت تصویر ویدیوی تولید شده. مقدار پیشفرض 16:9 است. مقادیر مجاز (کلیک برای کپی): |
resolution | string | رزولوشن ویدیوی خروجی، که عدد به ضلع کوچکتر بر حسب پیکسل اشاره دارد. مقدار پیشفرض 720p است. مقادیر مجاز (کلیک برای کپی): |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
import time
# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"
# Creating and sending a video generation task to the server
def generate_video():
url = "https://api.ai-kar.com/v1/video/generations"
headers = {
"Authorization": f"Bearer {api_key}",
}
data = {
"model": "openai/sora-2-i2v",
"prompt": "She turns around and smiles, then slowly walks out of the frame.",
"image_url": "https://cdn.openai.com/API/docs/images/sora/woman_skyline_original_720p.jpeg",
"resolution": "720p",
"duration": 4
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
print(response_data)
return response_data
# Requesting the result of the task from the server using the generation_id
def get_video(gen_id):
url = "https://api.ai-kar.com/v1/video/generations"
params = {
"generation_id": gen_id,
}
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json"
}
response = requests.get(url, params=params, headers=headers)
return response.json()
def main():
# Generate video
gen_response = generate_video()
gen_id = gen_response.get("id")
print("Generation ID: ", gen_id)
# Try to retrieve the video from the server every 10 sec
if gen_id:
start_time = time.time()
timeout = 600
while time.time() - start_time < timeout:
response_data = get_video(gen_id)
if response_data is None:
print("Error: No response from API")
break
status = response_data.get("status")
print("Status:", status)
if status == "waiting" or status == "active" or status == "queued" or status == "generating":
print("Still waiting... Checking again in 10 seconds.")
time.sleep(10)
else:
print("Processing complete:/n", response_data)
return response_data
print("Timeout reached. Stopping.")
return None
if __name__ == "__main__":
main()نمونه پاسخ موفق (JSON)
{
"id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
"status": "completed",
"video": {
"url": "#",
"duration": 8
},
"duration": 8,
"error": null,
"meta": {
"usage": {
"tokens_used": 120000
}
}
}