Video Modelsbytedance
معرفی و مستندات مدل هوش مصنوعی omnihuman-1.5
مستندات مدل تولید انیمیشن از تصویر و صدا omnihuman-1.5، ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. درک نسبی از دستور زبان فارسی دارد اما ممکن است در تشخیص عبارات پیچیده و اصطلاحات محاورهای دچار مشکل شود.
مدل omnihuman-1.5 از Bytedance، یک مدل هوش مصنوعی پیشرفته است که قادر به تولید انیمیشنهای واقعگرایانه از شخصیتها با استفاده از یک تصویر و یک فایل صوتی است. این مدل با تحلیل ریتم، آهنگ و معنای گفتار، انیمیشنی تولید میکند که حرکات لب و حالات چهره شخصیت را به طور کامل با صدا هماهنگ میکند. این قابلیت، امکان ایجاد ویدیوهای جذاب و طبیعی را فراهم میسازد که در آنها شخصیتها به شکلی باورپذیر صحبت میکنند و احساسات خود را بروز میدهند.
یکی از ویژگیهای برجسته این مدل، توانایی آن در تولید حرکات طبیعی بدن و ژستهای مناسب با محتوای صوتی است. به این ترتیب، انیمیشن تولید شده نه تنها از نظر بصری جذاب است، بلکه از نظر معنایی نیز با پیام صوتی هماهنگ است. این امر باعث میشود که ویدیوهای تولید شده با این مدل، برای اهداف مختلفی از جمله آموزش، تبلیغات، سرگرمی و تولید محتوای رسانهای مناسب باشند.
برای استفاده از این مدل، ابتدا باید یک تصویر از شخصیت مورد نظر و یک فایل صوتی حاوی گفتار را به مدل ارائه دهید. مدل سپس با پردازش این اطلاعات، یک ویدیو تولید میکند که در آن شخصیت با حرکات لب و حالات چهره مناسب، گفتار موجود در فایل صوتی را بیان میکند. این فرایند به طور خودکار انجام میشود و نیازی به دخالت دستی در تنظیم حرکات لب و حالات چهره نیست.
مدل omnihuman-1.5 از الگوریتمهای پیشرفته یادگیری عمیق برای تحلیل صدا و تصویر استفاده میکند. این الگوریتمها به مدل امکان میدهند تا الگوهای پیچیده موجود در صدا و تصویر را شناسایی کرده و حرکات لب و حالات چهره مناسب را تولید کند. این مدل همچنین قادر است تا با تغییرات در صدا و تصویر، انیمیشن تولید شده را به طور خودکار تنظیم کند.
به طور خلاصه، مدل omnihuman-1.5 یک ابزار قدرتمند برای تولید انیمیشنهای واقعگرایانه از شخصیتها با استفاده از یک تصویر و یک فایل صوتی است. این مدل با تحلیل ریتم، آهنگ و معنای گفتار، انیمیشنی تولید میکند که حرکات لب و حالات چهره شخصیت را به طور کامل با صدا هماهنگ میکند. این قابلیت، امکان ایجاد ویدیوهای جذاب و طبیعی را فراهم میسازد که در آنها شخصیتها به شکلی باورپذیر صحبت میکنند و احساسات خود را بروز میدهند. این مدل برای اهداف مختلفی از جمله آموزش، تبلیغات، سرگرمی و تولید محتوای رسانهای مناسب است و میتواند به کاربران کمک کند تا ویدیوهای جذاب و موثری را به سادگی تولید کنند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | نام مدل مورد استفاده برای تولید ویدیو. مقدار این فیلد باید `bytedance/omnihuman/v1.5` باشد. مقادیر مجاز (کلیک برای کپی): |
image_url | stringRequired | آدرس مستقیم یک تصویر آنلاین یا یک تصویر محلی که به صورت Base64 کدگذاری شده است. این تصویر به عنوان پایه بصری یا اولین فریم برای ویدیو استفاده میشود. |
audio_url | stringRequired | آدرس مستقیم فایل صوتی که شخصیت در ویدیو آن را بیان میکند. این فایل صوتی باید حاوی گفتار باشد. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
import time
# replace <YOUR_AI-KARAPI_KEY> with your actual ای آی کار (AI-KAR) key
api_key = "<YOUR_AI-KARAPI_KEY>"
base_url = "https://api.ai-kar.com/v1"
# Creating and sending a video generation task to the server
def generate_video():
url = f"{base_url}/video/generations"
headers = {
"Authorization": f"Bearer {api_key}",
}
data = {
"model": "bytedance/omnihuman/v1.5",
"image_url": "https://cdn.AI-KARapi.com/assets/content/office_man.png",
"audio_url": "https://storage.googleapis.com/falserverless/example_inputs/omnihuman_audio.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
print(response_data)
return response_data
# Requesting the result of the task from the server using the generation_id
def get_video(gen_id):
url = f"{base_url}/video/generations"
params = {
"generation_id": gen_id,
}
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json"
}
response = requests.get(url, params=params, headers=headers)
return response.json()
def main():
# Running video generation and getting a task id
gen_response = generate_video()
gen_id = gen_response.get("id")
print("Generation ID: ", gen_id)
# Trying to retrieve the video from the server every 10 sec
if gen_id:
start_time = time.time()
timeout = 600
while time.time() - start_time < timeout:
response_data = get_video(gen_id)
if response_data is None:
print("Error: No response from API")
break
status = response_data.get("status")
print("Status:", status)
if status == "waiting" or status == "active" or status == "queued" or status == "generating":
print("Still waiting... Checking again in 10 seconds.")
time.sleep(10)
else:
print("Processing complete:/n", response_data)
return response_data
print("Timeout reached. Stopping.")
return None
if __name__ == "__main__":
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"id": "60ac7c34-3224-4b14-8e7d-0aa0db708325",
"status": "completed",
"video": {
"url": "#",
"duration": 8
},
"duration": 8,
"error": null,
"meta": {
"usage": {
"tokens_used": 120000
}
}
}