Video Modelskling-ai

معرفی و مستندات مدل هوش مصنوعی v1.6-pro-image-to-video

مستندات مدل پیشرفته تولید ویدیو از تصویر، ارائه شده توسط ای ای کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک متون فارسی در حد ارائه توضیحات کلی قابل قبول است اما برای جزئیات دقیق ممکن است با مشکل مواجه شود.

مدل v1.6-pro-image-to-video یک مدل پیشرفته تولید ویدیو با هوش مصنوعی است که برای تولید ویدیوهای با کیفیت بالا از تصاویر طراحی شده است. این مدل، که توسط kling-ai توسعه یافته و در ای ای کار (AI-KAR) ارائه شده است، بهبودهای چشمگیری در کیفیت بصری و ارائه حرکات پویا نسبت به نسخه قبلی خود، Kling 1.5، دارد. کاربران می‌توانند با استفاده از این مدل، نتایج بصری جذاب‌تر و منسجم‌تری تولید کنند. این مدل حرکات طبیعی دوربین و انتقال‌های سینمایی را برای خروجی‌های جذاب‌تر ترکیب می‌کند. این مدل با دریافت یک تصویر به عنوان ورودی، قادر است یک ویدیوی کوتاه با محتوای مرتبط با تصویر ورودی تولید کند. این فرآیند شامل تحلیل تصویر، درک محتوای آن و سپس تولید فریم‌های ویدیویی است که به طور پیوسته تغییر می‌کنند تا یک ویدیوی منسجم ایجاد شود. این مدل می‌تواند برای تولید انواع مختلف ویدیوها مورد استفاده قرار گیرد، از جمله ویدیوهای تبلیغاتی، ویدیوهای آموزشی، ویدیوهای سرگرمی و غیره. یکی از ویژگی‌های برجسته این مدل، توانایی آن در ایجاد حرکات طبیعی دوربین و انتقال‌های سینمایی است. این ویژگی باعث می‌شود که ویدیوهای تولید شده توسط این مدل، بسیار جذاب‌تر و حرفه‌ای‌تر به نظر برسند. به عنوان مثال، مدل می‌تواند حرکاتی مانند زوم، پن و تیلت را به ویدیو اضافه کند تا حس پویایی و واقع‌گرایی بیشتری به آن ببخشد. علاوه بر این، مدل v1.6-pro-image-to-video از الگوریتم‌های پیشرفته‌ای برای کاهش نویز و افزایش وضوح تصویر استفاده می‌کند. این امر باعث می‌شود که ویدیوهای تولید شده توسط این مدل، حتی در شرایط نوری نامناسب نیز کیفیت بالایی داشته باشند. این مدل همچنین از قابلیت‌های پیشرفته‌ای برای تشخیص چهره و اشیاء برخوردار است. این قابلیت به مدل اجازه می‌دهد تا محتوای ویدیو را به طور دقیق‌تری درک کند و ویدیوهایی تولید کند که با محتوای تصویر ورودی همخوانی بیشتری داشته باشند. برای مثال، اگر تصویر ورودی شامل یک شخص باشد، مدل می‌تواند چهره شخص را تشخیص دهد و حرکات و حالات چهره او را در ویدیو بازسازی کند. در نهایت، مدل v1.6-pro-image-to-video یک ابزار قدرتمند برای تولید ویدیوهای با کیفیت بالا از تصاویر است. این مدل با ترکیب قابلیت‌های پیشرفته هوش مصنوعی و الگوریتم‌های پردازش تصویر، می‌تواند ویدیوهایی تولید کند که هم جذاب و هم حرفه‌ای باشند. این مدل برای طیف گسترده‌ای از کاربران، از جمله بازاریابان، تولیدکنندگان محتوا، و هنرمندان، مناسب است.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تولید ویدیو.
مقادیر مجاز (کلیک برای کپی):
image_url
stringRequired
یک لینک مستقیم به یک تصویر آنلاین یا یک تصویر محلی کدگذاری شده با Base64 که به عنوان پایه بصری یا اولین فریم برای ویدیو عمل می‌کند.
prompt
string
توضیحات متنی صحنه، موضوع یا عملی که باید در ویدیو تولید شود.
type
string
نوع تولید ویدیو.
مقادیر مجاز (کلیک برای کپی):
tail_image_url
string
یک لینک مستقیم به یک تصویر آنلاین یا یک تصویر محلی کدگذاری شده با Base64 که به عنوان آخرین فریم ویدیو استفاده می‌شود.
static_mask
string
آدرس اینترنتی تصویری برای ناحیه کاربرد برس استاتیک (تصویر ماسک ایجاد شده توسط کاربران با استفاده از برس حرکتی).
dynamic_masks
object[]
لیستی از ماسک‌های پویا. حداکثر 6 عدد.
camera_control
object
پارامترهای پیشرفته کنترل دوربین.
negative_prompt
string
توضیح عناصری که باید در ویدیوی تولید شده از آنها اجتناب شود.
duration
integer
طول ویدیوی خروجی بر حسب ثانیه.
مقادیر مجاز (کلیک برای کپی):
cfg_scale
number
مقیاس CFG (Classifier Free Guidance) معیاری است از اینکه چقدر می‌خواهید مدل به درخواست شما پایبند باشد.
external_task_id
string
شناسه وظیفه سفارشی.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json

url = "https://api.ai-kar.com/v1/v2/generate/video/kling/generation"

payload = json.dumps({
  "model": "kling-video/v1.6/pro/image-to-video",
  "prompt": "Mona Lisa nervously puts on glasses with her hands and asks her off-screen friend to the left: ‘Do they suit me?’ She then tilts her head slightly to one side and then the other, so the unseen friend can better judge.",
  "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg"
})
headers = {
  'Authorization': 'Bearer <YOUR_API_KEY>',
  'Content-Type': 'application/json'
}

response = requests.request("POST", url, headers=headers, data=payload)

print(response.text)

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
  "status": "completed",
  "video": {
    "url": "#",
    "duration": 8
  },
  "duration": 8,
  "error": null,
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}