Image Modelsbytedance
معرفی و مستندات مدل هوش مصنوعی uso
مستندات مدل uso از Bytedance، ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. برای دریافت بهترین نتیجه، استفاده از توضیحات انگلیسی توصیه میشود، اما توضیحات فارسی نیز قابل قبول هستند.
مدل USO (Unified Style-Subject Optimized) یک مدل واحد است که به طور یکپارچه تولید تصویر مبتنی بر سبک و موضوع را ترکیب میکند. این مدل از Bytedance، توسط ای آی کار (AI-KAR) ارائه شده است. USO به کاربران اجازه میدهد تا با استفاده از یک یا چند تصویر و یک توضیح متنی، تصاویر جدیدی ایجاد کنند که هم ویژگیهای موضوعی تصاویر ورودی را حفظ کرده و هم سبک بصری مورد نظر را اعمال کنند. این قابلیت، USO را به ابزاری قدرتمند برای تولید محتوای بصری خلاقانه و متنوع تبدیل میکند.
عملکرد اصلی USO بر پایه درک عمیق از محتوای تصاویر ورودی و ارتباط آن با توضیح متنی است. مدل با تحلیل تصاویر، عناصر کلیدی مانند اشیاء، رنگها، بافتها و ترکیببندی را شناسایی میکند. سپس، با توجه به توضیح متنی ارائه شده، این عناصر را به گونهای تغییر میدهد که با سبک مورد نظر هماهنگ شوند. برای مثال، میتوان با ارائه یک عکس از یک شخص و یک توضیح متنی مانند "به سبک نقاشیهای ونگوگ"، تصویری جدید از آن شخص با سبک نقاشی ونگوگ ایجاد کرد.
یکی از ویژگیهای برجسته USO، توانایی آن در ترکیب چندین تصویر به عنوان مرجع سبک است. این امکان به کاربران اجازه میدهد تا سبکهای بصری مختلف را با هم ترکیب کرده و نتایج خلاقانهتری به دست آورند. برای مثال، میتوان با ارائه دو تصویر با سبکهای متفاوت، تصویری جدید ایجاد کرد که ترکیبی از این دو سبک باشد.
USO در زمینههای مختلفی کاربرد دارد، از جمله تولید محتوای تبلیغاتی، ایجاد تصاویر هنری، طراحی گرافیک و تولید بازیهای ویدیویی. با استفاده از این مدل، کاربران میتوانند به سرعت و به آسانی تصاویر با کیفیت بالا و سبکهای بصری متنوع ایجاد کنند. ای آی کار (AI-KAR) این مدل را به عنوان بخشی از خدمات خود ارائه میدهد تا کاربران بتوانند از آخرین دستاوردهای هوش مصنوعی در زمینه تولید تصویر بهرهمند شوند. این مدل با API ارائه شده، به راحتی در برنامهها و پروژههای مختلف قابل استفاده است.
عملکرد اصلی USO بر پایه درک عمیق از محتوای تصاویر ورودی و ارتباط آن با توضیح متنی است. مدل با تحلیل تصاویر، عناصر کلیدی مانند اشیاء، رنگها، بافتها و ترکیببندی را شناسایی میکند. سپس، با توجه به توضیح متنی ارائه شده، این عناصر را به گونهای تغییر میدهد که با سبک مورد نظر هماهنگ شوند. برای مثال، میتوان با ارائه یک عکس از یک شخص و یک توضیح متنی مانند "به سبک نقاشیهای ونگوگ"، تصویری جدید از آن شخص با سبک نقاشی ونگوگ ایجاد کرد.
یکی از ویژگیهای برجسته USO، توانایی آن در ترکیب چندین تصویر به عنوان مرجع سبک است. این امکان به کاربران اجازه میدهد تا سبکهای بصری مختلف را با هم ترکیب کرده و نتایج خلاقانهتری به دست آورند. برای مثال، میتوان با ارائه دو تصویر با سبکهای متفاوت، تصویری جدید ایجاد کرد که ترکیبی از این دو سبک باشد.
USO در زمینههای مختلفی کاربرد دارد، از جمله تولید محتوای تبلیغاتی، ایجاد تصاویر هنری، طراحی گرافیک و تولید بازیهای ویدیویی. با استفاده از این مدل، کاربران میتوانند به سرعت و به آسانی تصاویر با کیفیت بالا و سبکهای بصری متنوع ایجاد کنند. ای آی کار (AI-KAR) این مدل را به عنوان بخشی از خدمات خود ارائه میدهد تا کاربران بتوانند از آخرین دستاوردهای هوش مصنوعی در زمینه تولید تصویر بهرهمند شوند. این مدل با API ارائه شده، به راحتی در برنامهها و پروژههای مختلف قابل استفاده است.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | نام مدل. مقدار ثابت: bytedance/uso مقادیر مجاز (کلیک برای کپی): |
image_urls | string · uri[]Required | آرایهای از URLهای تصویر (حداکثر 3). اولین تصویر به عنوان ورودی اصلی برای تولید تصویر به تصویر در نظر گرفته میشود، در حالی که تصاویر باقیمانده (در صورت ارائه) به عنوان مراجع سبک بصری برای خروجی عمل میکنند. |
image_size | string · enum / object | اندازه تصویر تولید شده. مقادیر مجاز (کلیک برای کپی): |
negative_prompt | string | توضیح عناصری که باید در تصویر تولید شده از آنها اجتناب شود. |
num_inference_steps | integer | تعداد مراحل استنتاجی که باید انجام شود. |
guidance_scale | number | مقیاس CFG (Classifier Free Guidance) معیاری است برای اینکه مدل چقدر به درخواست شما پایبند باشد. |
keep_size | boolean | اگر درست تنظیم شود، اندازه تصویر اصلی حفظ خواهد شد. |
num_images | number | تعداد تصاویری که باید تولید شوند. |
seed | integer | همان seed و همان درخواست داده شده به همان نسخه از مدل، هر بار یک تصویر را خروجی میدهد. |
sync_mode | boolean | اگر روی true تنظیم شود، تابع منتظر میماند تا تصویر تولید و بارگذاری شود قبل از اینکه پاسخ را برگرداند. این باعث افزایش تأخیر تابع میشود اما به شما امکان میدهد تصویر را مستقیماً در پاسخ بدون عبور از CDN دریافت کنید. |
enable_safety_checker | boolean | اگر روی True تنظیم شود، بررسی کننده ایمنی فعال خواهد شد. |
output_format | string · enum | فرمت تصویر تولید شده. مقادیر مجاز (کلیک برای کپی): |
prompt | stringRequired | توضیح متنی که محتوا، سبک یا ترکیب تصویر را توصیف میکند. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
import json
url = "https://api.ai-kar.com/v1/images/generations"
payload = json.dumps({
"model": "bytedance/uso",
"prompt": "The T-Rex is wearing a business suit, sitting in a cozy small café, drinking from a mug. Blur the background slightly to create a bokeh effect.",
"image_urls": [
"https://raw.githubusercontent.com/AI-KARapi/api-docs/main/reference-files/t-rex.png"
]
})
headers = {
'Authorization': 'Bearer <YOUR_AI-KARAPI_KEY>',
'Content-Type': 'application/json'
}
response = requests.request("POST", url, headers=headers, data=payload)
print(response.text)نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"data": [
{
"url": "#",
"b64_json": null
}
],
"meta": {
"usage": {
"tokens_used": 120000
}
}
}