Image Modelsflux

معرفی و مستندات مدل هوش مصنوعی flux-dev-image-to-image

مستندات مدل تولید تصویر به تصویر flux-dev-image-to-image ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل درک متوسطی از زبان فارسی دارد و در پردازش عبارات پیچیده ممکن است با مشکل مواجه شود.

مدل flux-dev-image-to-image یک مدل پیشرفته تولید تصویر است که از معماری ترانسفورمر جریان اصلاح‌شده با 12 میلیارد پارامتر بهره می‌برد. این مدل برای تولید تصاویر با کیفیت بالا از توضیحات متنی طراحی شده است و یک ابزار قدرتمند برای توسعه‌دهندگان و افراد خلاق به شمار می‌رود. این مدل قادر است با دریافت یک تصویر مرجع و یک توضیح متنی، تصویر جدیدی تولید کند که هم ویژگی‌های تصویر مرجع را حفظ کرده و هم محتوای توصیف‌شده در متن را در خود جای دهد. به عبارت دیگر، این مدل می‌تواند تصاویر موجود را بر اساس دستورالعمل‌های متنی تغییر دهد و یا تصاویر جدیدی را با الهام از تصاویر موجود ایجاد کند. این مدل در زمینه‌های مختلفی کاربرد دارد، از جمله:

تولید محتوای بصری برای شبکه‌های اجتماعی: کاربران می‌توانند با استفاده از این مدل، تصاویر جذاب و منحصربه‌فردی را برای پست‌های خود در شبکه‌های اجتماعی ایجاد کنند.
طراحی گرافیکی: طراحان گرافیک می‌توانند از این مدل برای تولید ایده‌های اولیه و یا ایجاد تغییرات سریع در طرح‌های خود استفاده کنند.
تولید تصاویر برای بازی‌های ویدیویی: توسعه‌دهندگان بازی‌های ویدیویی می‌توانند از این مدل برای تولید تصاویر با کیفیت بالا برای شخصیت‌ها، محیط‌ها و اشیاء موجود در بازی خود استفاده کنند.
تولید تصاویر برای تبلیغات: بازاریابان می‌توانند از این مدل برای تولید تصاویر جذاب و مرتبط با محصولات و خدمات خود استفاده کنند.
ایجاد آثار هنری: هنرمندان می‌توانند از این مدل به عنوان یک ابزار خلاقانه برای تولید آثار هنری جدید استفاده کنند.

این مدل از فرمت PNG برای تصاویر خروجی استفاده می‌کند و اندازه تصویر خروجی با ابعاد تصویر مرجع مطابقت دارد. برای استفاده از این مدل، ابتدا باید یک کلید API از ای آی کار (AI-KAR) دریافت کنید. سپس می‌توانید با استفاده از API این مدل، تصاویر مورد نظر خود را تولید کنید. این مدل پارامترهای مختلفی را برای کنترل فرایند تولید تصویر ارائه می‌دهد که در بخش مشخصات فنی به طور کامل توضیح داده شده‌اند. با استفاده از این پارامترها، می‌توانید کیفیت، تنوع و میزان انطباق تصویر خروجی با متن ورودی را تنظیم کنید. مدل flux-dev-image-to-image یک ابزار قدرتمند و انعطاف‌پذیر برای تولید تصاویر با کیفیت بالا است که می‌تواند در زمینه‌های مختلفی مورد استفاده قرار گیرد.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تولید تصویر. مقدار ثابت flux/dev/image-to-image را بپذیرید. مقادیر مجاز (کلیک برای کپی):
guidance_scale	number	مقیاس CFG (Classifier Free Guidance) معیاری است برای اینکه مدل چقدر به درخواست شما پایبند باشد. مقدار پیشنهادی بین 1 و 20 است.
num_inference_steps	integer	تعداد مراحل استنتاج برای انجام. مقدار پیشنهادی بین 1 و 50 است.
enable_safety_checker	boolean	اگر روی True تنظیم شود، بررسی کننده ایمنی فعال خواهد شد.
prompt	stringRequired	متن توصیفی محتوا، سبک یا ترکیب تصویر مورد نظر. حداکثر طول 4000 کاراکتر.
num_images	number	تعداد تصاویری که باید تولید شوند. مقدار پیشنهادی بین 1 و 4 است.
seed	integer	با استفاده از یک seed ثابت، با همان prompt و نسخه مدل، همیشه یک تصویر یکسان تولید می‌شود. مقدار پیشنهادی بزرگتر از 1 است.
image_url	stringRequired	آدرس URL تصویر مرجع.
strength	number	تعیین می‌کند که prompt چقدر روی تصویر تولید شده تأثیر بگذارد.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json

def main():
    response = requests.post(
        "https://api.ai-kar.com/v1/images/generations",
        headers={
            "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
            "Content-Type": "application/json",
        },
        json={
            "model": "flux/dev/image-to-image",
            "prompt": "Add a bird to the foreground of the photo.",
            "image_url": "https://raw.githubusercontent.com/AI-KARapi/api-docs/main/reference-files/t-rex.png",
            "strength": 0.8
        }
    )
    data = response.json()
    print(json.dumps(data, indent=2, ensure_ascii=False))

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "images": [
    {
      "url": "#",
      "width": 1472,
      "height": 512,
      "content_type": "image/jpeg"
    }
  ],
  "timings": {
    "inference": 4.4450759180035675
  },
  "seed": 3082066483,
  "has_nsfw_concepts": [
    false
  ],
  "prompt": "A T-Rex relaxing on a beach, lying on a sun lounger and wearing sunglasses."
}