Image Modelsflux

معرفی و مستندات مدل هوش مصنوعی flux-srpo-text-to-image

مستندات مدل تولید تصویر از متن flux-srpo-text-to-image، ارائه شده توسط ای ای کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. برای دریافت بهترین نتیجه، توصیه می‌شود از عبارات ساده و واضح استفاده کنید.

مدل flux-srpo-text-to-image یک مدل هوش مصنوعی پیشرفته است که توسط تیم flux توسعه داده شده و در ای ای کار (AI-KAR) ارائه شده است. این مدل با بهره‌گیری از تکنیک SRPO (ساختاردهی بازنمایی‌های پیش‌آموزشی) شرکت Tencent، قادر است تصاویر با کیفیت بالا و جزئیات دقیق را از روی توضیحات متنی تولید کند. این مدل برای تولید تصاویر متنوعی از مناظر طبیعی گرفته تا شخصیت‌های خیالی و اشیاء پیچیده طراحی شده است. یکی از ویژگی‌های برجسته این مدل، توانایی آن در درک و تفسیر دقیق دستورات متنی است که به کاربران امکان می‌دهد تا تصاویر دلخواه خود را با دقت و کنترل بیشتری ایجاد کنند. مدل flux-srpo-text-to-image از فرمت PNG برای تصاویر تولیدی استفاده می‌کند و ابعاد تصاویر می‌تواند بین 512x512 تا 1536x1536 پیکسل متغیر باشد. اندازه پیش‌فرض تصویر تولیدی 1024x768 پیکسل است. لازم به ذکر است که هر دو مقدار ارتفاع و عرض تصویر باید مضربی از 32 باشند. این مدل دارای پارامترهای مختلفی است که به کاربران امکان می‌دهد تا فرآیند تولید تصویر را بهینه سازی کنند. پارامترهایی مانند `num_inference_steps`، `guidance_scale` و `seed` به کاربران اجازه می‌دهند تا جزئیات و کیفیت تصاویر تولیدی را کنترل کنند. همچنین، با استفاده از پارامتر `sync_mode`، کاربران می‌توانند تعیین کنند که آیا تابع باید منتظر بماند تا تصویر تولید و بارگذاری شود یا خیر. این مدل از یک سیستم بررسی ایمنی (safety checker) نیز بهره می‌برد که به صورت پیش‌فرض فعال است و از تولید تصاویر نامناسب جلوگیری می‌کند. کاربران می‌توانند با تنظیم پارامتر `enable_safety_checker` این ویژگی را فعال یا غیرفعال کنند. فرمت خروجی تصاویر تولیدی می‌تواند JPEG یا PNG باشد و کاربران می‌توانند با استفاده از پارامتر `output_format` فرمت دلخواه خود را انتخاب کنند. همچنین، پارامتر `acceleration` به کاربران امکان می‌دهد تا سرعت تولید تصاویر را تنظیم کنند. این مدل با ارائه API ساده و کاربرپسند، به توسعه‌دهندگان امکان می‌دهد تا به راحتی از قابلیت‌های آن در برنامه‌های خود استفاده کنند. با استفاده از این مدل، کاربران می‌توانند به سرعت و به آسانی تصاویر با کیفیت بالا و منحصر به فرد را از روی توضیحات متنی ایجاد کنند و از آن در زمینه‌های مختلفی مانند طراحی گرافیک، تبلیغات، آموزش و سرگرمی استفاده کنند.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تولید تصویر. مقدار ثابت `flux/srpo` را بپذیرید.
مقادیر مجاز (کلیک برای کپی):
image_size
object | string
اندازه تصویر تولید شده. می‌تواند یک شیء شامل `width` و `height` باشد یا یکی از مقادیر از پیش تعیین شده.
مقادیر مجاز (کلیک برای کپی):
num_inference_steps
integer
تعداد مراحل استنتاج برای تولید تصویر. مقدار باید بین 1 و 50 باشد.
guidance_scale
number
مقیاس CFG (Classifier Free Guidance) نشان می‌دهد که مدل چقدر به دستورات متنی شما پایبند باشد. مقدار باید بین 1 و 20 باشد.
sync_mode
boolean
اگر مقدار `true` باشد، تابع منتظر می‌ماند تا تصویر تولید و بارگذاری شود و سپس پاسخ را برمی‌گرداند. این کار باعث افزایش تاخیر می‌شود، اما به شما امکان می‌دهد تا تصویر را مستقیماً در پاسخ دریافت کنید.
enable_safety_checker
boolean
اگر مقدار `true` باشد، سیستم بررسی ایمنی فعال می‌شود.
output_format
string
فرمت تصویر تولید شده.
مقادیر مجاز (کلیک برای کپی):
acceleration
string
سرعت تولید تصویر.
مقادیر مجاز (کلیک برای کپی):
prompt
stringRequired
توضیحات متنی محتوا، سبک یا ترکیب تصویر مورد نظر. حداکثر طول 4000 کاراکتر.
num_images
number
تعداد تصاویری که باید تولید شوند. مقدار باید بین 1 و 4 باشد.
seed
integer
مقدار seed برای تولید تصویر. با استفاده از یک seed ثابت، می‌توانید تصاویر مشابهی را با یک دستور متنی یکسان تولید کنید.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json  # for getting a structured output with indentation

def main():
    response = requests.post(
        "https://api.ai-kar.com/v1/images/generations",
        headers={
            # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
            "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
            "Content-Type": "application/json",
        },
        json={
            "model": "flux/srpo",
            "prompt": "A T-Rex relaxing on a beach, lying on a sun lounger and wearing sunglasses.",
            "image_size": {
                "width": 1440,
                "height": 512
            }
        }
    )
    data = response.json()
    print(json.dumps(data, indent=2, ensure_ascii=False))

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "images": [
    {
      "url": "#",
      "width": 1440,
      "height": 512,
      "content_type": "image/jpeg"
    }
  ],
  "timings": {
    "inference": 0.747110141441226
  },
  "seed": 490733907,
  "has_nsfw_concepts": [
    false
  ],
  "prompt": "A T-Rex relaxing on a beach, lying on a sun lounger and wearing sunglasses.",
  "data": [
    {
      "url": "#",
      "width": 1440,
      "height": 512,
      "content_type": "image/jpeg"
    }
  ],
  "meta": {
    "usage": {
      "tokens_used": 52500
    }
  }
}