Image Modelsbytedance

معرفی و مستندات مدل هوش مصنوعی uso

مستندات مدل uso از Bytedance، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. برای دریافت بهترین نتیجه، استفاده از توضیحات انگلیسی توصیه می‌شود، اما توضیحات فارسی نیز قابل قبول هستند.

مدل USO (Unified Style-Subject Optimized) یک مدل واحد است که به طور یکپارچه تولید تصویر مبتنی بر سبک و موضوع را ترکیب می‌کند. این مدل از Bytedance، توسط ای آی کار (AI-KAR) ارائه شده است. USO به کاربران اجازه می‌دهد تا با استفاده از یک یا چند تصویر و یک توضیح متنی، تصاویر جدیدی ایجاد کنند که هم ویژگی‌های موضوعی تصاویر ورودی را حفظ کرده و هم سبک بصری مورد نظر را اعمال کنند. این قابلیت، USO را به ابزاری قدرتمند برای تولید محتوای بصری خلاقانه و متنوع تبدیل می‌کند.

عملکرد اصلی USO بر پایه درک عمیق از محتوای تصاویر ورودی و ارتباط آن با توضیح متنی است. مدل با تحلیل تصاویر، عناصر کلیدی مانند اشیاء، رنگ‌ها، بافت‌ها و ترکیب‌بندی را شناسایی می‌کند. سپس، با توجه به توضیح متنی ارائه شده، این عناصر را به گونه‌ای تغییر می‌دهد که با سبک مورد نظر هماهنگ شوند. برای مثال، می‌توان با ارائه یک عکس از یک شخص و یک توضیح متنی مانند "به سبک نقاشی‌های ونگوگ"، تصویری جدید از آن شخص با سبک نقاشی ونگوگ ایجاد کرد.

یکی از ویژگی‌های برجسته USO، توانایی آن در ترکیب چندین تصویر به عنوان مرجع سبک است. این امکان به کاربران اجازه می‌دهد تا سبک‌های بصری مختلف را با هم ترکیب کرده و نتایج خلاقانه‌تری به دست آورند. برای مثال، می‌توان با ارائه دو تصویر با سبک‌های متفاوت، تصویری جدید ایجاد کرد که ترکیبی از این دو سبک باشد.

USO در زمینه‌های مختلفی کاربرد دارد، از جمله تولید محتوای تبلیغاتی، ایجاد تصاویر هنری، طراحی گرافیک و تولید بازی‌های ویدیویی. با استفاده از این مدل، کاربران می‌توانند به سرعت و به آسانی تصاویر با کیفیت بالا و سبک‌های بصری متنوع ایجاد کنند. ای آی کار (AI-KAR) این مدل را به عنوان بخشی از خدمات خود ارائه می‌دهد تا کاربران بتوانند از آخرین دستاوردهای هوش مصنوعی در زمینه تولید تصویر بهره‌مند شوند. این مدل با API ارائه شده، به راحتی در برنامه‌ها و پروژه‌های مختلف قابل استفاده است.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	نام مدل. مقدار ثابت: bytedance/uso مقادیر مجاز (کلیک برای کپی):
image_urls	string · uri[]Required	آرایه‌ای از URLهای تصویر (حداکثر 3). اولین تصویر به عنوان ورودی اصلی برای تولید تصویر به تصویر در نظر گرفته می‌شود، در حالی که تصاویر باقی‌مانده (در صورت ارائه) به عنوان مراجع سبک بصری برای خروجی عمل می‌کنند.
image_size	string · enum / object	اندازه تصویر تولید شده. مقادیر مجاز (کلیک برای کپی):
negative_prompt	string	توضیح عناصری که باید در تصویر تولید شده از آنها اجتناب شود.
num_inference_steps	integer	تعداد مراحل استنتاجی که باید انجام شود.
guidance_scale	number	مقیاس CFG (Classifier Free Guidance) معیاری است برای اینکه مدل چقدر به درخواست شما پایبند باشد.
keep_size	boolean	اگر درست تنظیم شود، اندازه تصویر اصلی حفظ خواهد شد.
num_images	number	تعداد تصاویری که باید تولید شوند.
seed	integer	همان seed و همان درخواست داده شده به همان نسخه از مدل، هر بار یک تصویر را خروجی می‌دهد.
sync_mode	boolean	اگر روی true تنظیم شود، تابع منتظر می‌ماند تا تصویر تولید و بارگذاری شود قبل از اینکه پاسخ را برگرداند. این باعث افزایش تأخیر تابع می‌شود اما به شما امکان می‌دهد تصویر را مستقیماً در پاسخ بدون عبور از CDN دریافت کنید.
enable_safety_checker	boolean	اگر روی True تنظیم شود، بررسی کننده ایمنی فعال خواهد شد.
output_format	string · enum	فرمت تصویر تولید شده. مقادیر مجاز (کلیک برای کپی):
prompt	stringRequired	توضیح متنی که محتوا، سبک یا ترکیب تصویر را توصیف می‌کند.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json

url = "https://api.ai-kar.com/v1/images/generations"

payload = json.dumps({
  "model": "bytedance/uso",
  "prompt": "The T-Rex is wearing a business suit, sitting in a cozy small café, drinking from a mug. Blur the background slightly to create a bokeh effect.",
  "image_urls": [
    "https://raw.githubusercontent.com/AI-KARapi/api-docs/main/reference-files/t-rex.png"
  ]
})
headers = {
  'Authorization': 'Bearer <YOUR_AI-KARAPI_KEY>',
  'Content-Type': 'application/json'
}

response = requests.request("POST", url, headers=headers, data=payload)

print(response.text)

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "data": [
    {
      "url": "#",
      "b64_json": null
    }
  ],
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}