Image Modelsflux
معرفی و مستندات مدل هوش مصنوعی flux-srpo-image-to-image
مستندات مدل image-to-image با تکنیک SRPO از flux، ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت ضعیف پشتیبانی میکند. برای بهترین نتیجه، استفاده از دستورات متنی انگلیسی توصیه میشود.
مدل flux-srpo-image-to-image یک مدل تبدیل تصویر به تصویر است که توسط ای آی کار (AI-KAR) ارائه شده و از تکنیک SRPO (Super-Resolution Pre-trained Output) شرکت Tencent بهره میبرد. این مدل به شما امکان میدهد تا با ارائه یک تصویر مرجع و یک توضیح متنی (prompt)، تصویری جدید و مرتبط با تصویر مرجع ایجاد کنید. به عبارت دیگر، شما میتوانید با استفاده از این مدل، ویژگیهای یک تصویر را تغییر دهید، جزئیات جدیدی به آن اضافه کنید یا سبک آن را به کلی دگرگون کنید.
این مدل برای کاربردهای متنوعی مناسب است. به عنوان مثال، میتوانید از آن برای بهبود کیفیت تصاویر، تغییر پسزمینه تصاویر، افزودن اشیاء به تصاویر، یا حتی ایجاد تصاویر هنری با سبکهای مختلف استفاده کنید. قدرت این مدل در ترکیب تصویر مرجع با دستورات متنی است، که به شما امکان میدهد کنترل دقیقی بر نتیجه نهایی داشته باشید.
یکی از ویژگیهای کلیدی این مدل، استفاده از تکنیک SRPO است. این تکنیک به مدل کمک میکند تا تصاویر با کیفیت بالاتری تولید کند و جزئیات بیشتری را در تصاویر حفظ کند. همچنین، این مدل به شما امکان میدهد تا پارامترهای مختلفی را برای کنترل فرآیند تولید تصویر تنظیم کنید، از جمله تعداد مراحل استنتاج (num_inference_steps)، مقیاس راهنمایی (guidance_scale) و قدرت (strength).
با استفاده از پارامتر `num_inference_steps` میتوانید تعیین کنید که مدل چند مرحله استنتاج را برای تولید تصویر انجام دهد. هرچه تعداد مراحل بیشتر باشد، تصویر نهایی دقیقتر و با جزئیات بیشتری خواهد بود، اما زمان تولید نیز افزایش مییابد. پارامتر `guidance_scale` میزان نزدیکی مدل به دستور متنی شما را تعیین میکند. مقادیر بالاتر باعث میشوند که مدل بیشتر به دستور متنی پایبند باشد، در حالی که مقادیر پایینتر به مدل آزادی بیشتری برای خلاقیت میدهند. پارامتر `strength` تعیین میکند که دستور متنی چقدر بر تصویر نهایی تأثیر بگذارد. مقدار 1 به این معنی است که تصویر نهایی کاملاً بر اساس دستور متنی خواهد بود، در حالی که مقدار 0 به این معنی است که تصویر نهایی هیچ ارتباطی با دستور متنی نخواهد داشت و صرفاً بر اساس تصویر مرجع خواهد بود.
این مدل از فرمتهای JPEG و PNG برای تصاویر خروجی پشتیبانی میکند و اندازه تصویر خروجی با اندازه تصویر مرجع مطابقت دارد. همچنین، این مدل دارای یک بررسی کننده ایمنی (safety checker) است که به طور پیش فرض فعال است و از تولید تصاویر نامناسب جلوگیری میکند. شما میتوانید این بررسی کننده را غیرفعال کنید، اما توصیه میشود که آن را فعال نگه دارید.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تولید تصویر. مقادیر مجاز (کلیک برای کپی): |
num_inference_steps | integer | تعداد مراحل استنتاج برای انجام. حداقل مقدار 1 و حداکثر 50 است. |
guidance_scale | number | مقیاس CFG (Classifier Free Guidance) معیاری است برای اینکه مدل چقدر به دستور متنی شما پایبند باشد. |
sync_mode | boolean | اگر روی true تنظیم شود، تابع منتظر میماند تا تصویر تولید و بارگذاری شود قبل از بازگرداندن پاسخ. این کار باعث افزایش تأخیر تابع میشود، اما به شما امکان میدهد تصویر را مستقیماً در پاسخ بدون عبور از CDN دریافت کنید. |
enable_safety_checker | boolean | اگر روی True تنظیم شود، بررسی کننده ایمنی فعال خواهد شد. |
output_format | string | فرمت تصویر تولید شده. مقادیر مجاز (کلیک برای کپی): |
acceleration | string | سرعت تولید. هرچه سرعت بالاتر باشد، تولید سریعتر است. مقادیر مجاز (کلیک برای کپی): |
prompt | stringRequired | دستور متنی که محتوا، سبک یا ترکیب تصویر را توصیف میکند. |
num_images | number | تعداد تصاویری که باید تولید شوند. |
seed | integer | همان seed و همان prompt داده شده به همان نسخه از مدل، هر بار یک تصویر یکسان را خروجی میدهد. |
image_url | stringRequired | آدرس اینترنتی تصویر مرجع. |
strength | number | تعیین میکند که دستور متنی چقدر بر تصویر تولید شده تأثیر بگذارد. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
import json # for getting a structured output with indentation
def main():
response = requests.post(
"https://api.ai-kar.com/v1/images/generations",
headers={
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
"Content-Type": "application/json",
},
json={
"model": "flux/srpo/image-to-image",
"prompt": "Add a bird to the foreground of the photo.",
"image_url": "https://raw.githubusercontent.com/AI-KARapi/api-docs/main/reference-files/t-rex.png",
"strength": 0.9
}
)
data = response.json()
print(json.dumps(data, indent=2, ensure_ascii=False))
if __name__ == "__main__":
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"images": [
{
"url": "#",
"width": 1024,
"height": 768,
"content_type": "image/jpeg"
}
],
"timings": {
"inference": 0.947831045370549
},
"seed": 484902001,
"has_nsfw_concepts": [
false
],
"prompt": "Add a bird to the foreground of the photo.",
"data": [
{
"url": "#",
"width": 1024,
"height": 768,
"content_type": "image/jpeg"
}
],
"meta": {
"usage": {
"tokens_used": 52500
}
}
}