Image Modelsflux

معرفی و مستندات مدل هوش مصنوعی flux-srpo-image-to-image

مستندات مدل image-to-image با تکنیک SRPO از flux، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت ضعیف پشتیبانی می‌کند. برای بهترین نتیجه، استفاده از دستورات متنی انگلیسی توصیه می‌شود.

مدل flux-srpo-image-to-image یک مدل تبدیل تصویر به تصویر است که توسط ای آی کار (AI-KAR) ارائه شده و از تکنیک SRPO (Super-Resolution Pre-trained Output) شرکت Tencent بهره می‌برد. این مدل به شما امکان می‌دهد تا با ارائه یک تصویر مرجع و یک توضیح متنی (prompt)، تصویری جدید و مرتبط با تصویر مرجع ایجاد کنید. به عبارت دیگر، شما می‌توانید با استفاده از این مدل، ویژگی‌های یک تصویر را تغییر دهید، جزئیات جدیدی به آن اضافه کنید یا سبک آن را به کلی دگرگون کنید.

این مدل برای کاربردهای متنوعی مناسب است. به عنوان مثال، می‌توانید از آن برای بهبود کیفیت تصاویر، تغییر پس‌زمینه تصاویر، افزودن اشیاء به تصاویر، یا حتی ایجاد تصاویر هنری با سبک‌های مختلف استفاده کنید. قدرت این مدل در ترکیب تصویر مرجع با دستورات متنی است، که به شما امکان می‌دهد کنترل دقیقی بر نتیجه نهایی داشته باشید.

یکی از ویژگی‌های کلیدی این مدل، استفاده از تکنیک SRPO است. این تکنیک به مدل کمک می‌کند تا تصاویر با کیفیت بالاتری تولید کند و جزئیات بیشتری را در تصاویر حفظ کند. همچنین، این مدل به شما امکان می‌دهد تا پارامترهای مختلفی را برای کنترل فرآیند تولید تصویر تنظیم کنید، از جمله تعداد مراحل استنتاج (num_inference_steps)، مقیاس راهنمایی (guidance_scale) و قدرت (strength).

با استفاده از پارامتر `num_inference_steps` می‌توانید تعیین کنید که مدل چند مرحله استنتاج را برای تولید تصویر انجام دهد. هرچه تعداد مراحل بیشتر باشد، تصویر نهایی دقیق‌تر و با جزئیات بیشتری خواهد بود، اما زمان تولید نیز افزایش می‌یابد. پارامتر `guidance_scale` میزان نزدیکی مدل به دستور متنی شما را تعیین می‌کند. مقادیر بالاتر باعث می‌شوند که مدل بیشتر به دستور متنی پایبند باشد، در حالی که مقادیر پایین‌تر به مدل آزادی بیشتری برای خلاقیت می‌دهند. پارامتر `strength` تعیین می‌کند که دستور متنی چقدر بر تصویر نهایی تأثیر بگذارد. مقدار 1 به این معنی است که تصویر نهایی کاملاً بر اساس دستور متنی خواهد بود، در حالی که مقدار 0 به این معنی است که تصویر نهایی هیچ ارتباطی با دستور متنی نخواهد داشت و صرفاً بر اساس تصویر مرجع خواهد بود.

این مدل از فرمت‌های JPEG و PNG برای تصاویر خروجی پشتیبانی می‌کند و اندازه تصویر خروجی با اندازه تصویر مرجع مطابقت دارد. همچنین، این مدل دارای یک بررسی کننده ایمنی (safety checker) است که به طور پیش فرض فعال است و از تولید تصاویر نامناسب جلوگیری می‌کند. شما می‌توانید این بررسی کننده را غیرفعال کنید، اما توصیه می‌شود که آن را فعال نگه دارید.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تولید تصویر. مقادیر مجاز (کلیک برای کپی):
num_inference_steps	integer	تعداد مراحل استنتاج برای انجام. حداقل مقدار 1 و حداکثر 50 است.
guidance_scale	number	مقیاس CFG (Classifier Free Guidance) معیاری است برای اینکه مدل چقدر به دستور متنی شما پایبند باشد.
sync_mode	boolean	اگر روی true تنظیم شود، تابع منتظر می‌ماند تا تصویر تولید و بارگذاری شود قبل از بازگرداندن پاسخ. این کار باعث افزایش تأخیر تابع می‌شود، اما به شما امکان می‌دهد تصویر را مستقیماً در پاسخ بدون عبور از CDN دریافت کنید.
enable_safety_checker	boolean	اگر روی True تنظیم شود، بررسی کننده ایمنی فعال خواهد شد.
output_format	string	فرمت تصویر تولید شده. مقادیر مجاز (کلیک برای کپی):
acceleration	string	سرعت تولید. هرچه سرعت بالاتر باشد، تولید سریعتر است. مقادیر مجاز (کلیک برای کپی):
prompt	stringRequired	دستور متنی که محتوا، سبک یا ترکیب تصویر را توصیف می‌کند.
num_images	number	تعداد تصاویری که باید تولید شوند.
seed	integer	همان seed و همان prompt داده شده به همان نسخه از مدل، هر بار یک تصویر یکسان را خروجی می‌دهد.
image_url	stringRequired	آدرس اینترنتی تصویر مرجع.
strength	number	تعیین می‌کند که دستور متنی چقدر بر تصویر تولید شده تأثیر بگذارد.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json  # for getting a structured output with indentation

def main():
    response = requests.post(
        "https://api.ai-kar.com/v1/images/generations",
        headers={
            # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
            "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
            "Content-Type": "application/json",
        },
        json={
            "model": "flux/srpo/image-to-image",
            "prompt": "Add a bird to the foreground of the photo.",
            "image_url": "https://raw.githubusercontent.com/AI-KARapi/api-docs/main/reference-files/t-rex.png",
            "strength": 0.9
        }
    )
    data = response.json()
    print(json.dumps(data, indent=2, ensure_ascii=False))


if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "images": [
    {
      "url": "#",
      "width": 1024,
      "height": 768,
      "content_type": "image/jpeg"
    }
  ],
  "timings": {
    "inference": 0.947831045370549
  },
  "seed": 484902001,
  "has_nsfw_concepts": [
    false
  ],
  "prompt": "Add a bird to the foreground of the photo.",
  "data": [
    {
      "url": "#",
      "width": 1024,
      "height": 768,
      "content_type": "image/jpeg"
    }
  ],
  "meta": {
    "usage": {
      "tokens_used": 52500
    }
  }
}