Image Modelsgoogle

معرفی و مستندات مدل هوش مصنوعی imagen-4-generate

مستندات مدل تولید تصویر imagen-4-generate از گوگل، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. برای دریافت بهترین نتیجه، استفاده از عبارات ساده و واضح توصیه می‌شود.

مدل imagen-4-generate یک مدل پیشرفته تبدیل متن به تصویر است که توسط گوگل توسعه داده شده است. این مدل با هدف ایجاد تعادل بین سرعت و کیفیت تصویر طراحی شده است و به کاربران امکان می‌دهد تا تصاویر با کیفیت بالا را با سرعت مناسب تولید کنند. این مدل به ویژه برای کاربردهایی که نیاز به تولید سریع تصاویر با کیفیت قابل قبول دارند، مناسب است.

یکی از ویژگی‌های برجسته این مدل، توانایی آن در درک و تفسیر دقیق دستورات متنی است. کاربران می‌توانند با ارائه توضیحات دقیق و جزئی، تصاویری را تولید کنند که به طور کامل با خواسته‌های آن‌ها مطابقت داشته باشد. این مدل از الگوریتم‌های پیشرفته‌ای برای پردازش زبان طبیعی (NLP) استفاده می‌کند که به آن امکان می‌دهد تا مفاهیم پیچیده و ظریف را درک کند و آن‌ها را به تصاویر بصری تبدیل کند.

مدل imagen-4-generate از طریق یک API در دسترس است که به توسعه‌دهندگان امکان می‌دهد تا به راحتی آن را در برنامه‌ها و سرویس‌های خود ادغام کنند. این API شامل پارامترهای مختلفی است که به کاربران امکان می‌دهد تا جنبه‌های مختلف تصویر تولید شده را کنترل کنند، از جمله نسبت تصویر، تعداد تصاویر تولید شده، و سطح فیلتر ایمنی.

یکی از مزایای کلیدی این مدل، قابلیت کنترل سطح فیلتر ایمنی است. کاربران می‌توانند تعیین کنند که چه نوع محتوایی باید فیلتر شود، که این امر به آن‌ها امکان می‌دهد تا از تولید تصاویر نامناسب یا ناخواسته جلوگیری کنند. این ویژگی به ویژه برای کاربردهایی که نیاز به رعایت استانداردهای خاصی دارند، مهم است.

علاوه بر این، مدل imagen-4-generate از یک ویژگی بازنویسی اعلان مبتنی بر LLM (مدل زبانی بزرگ) برای بهبود کیفیت تصاویر استفاده می‌کند. این ویژگی به طور خودکار اعلان‌های ورودی را بازنویسی می‌کند تا تصاویر با کیفیت بالاتری تولید شوند که بهتر با اعلان اصلی مطابقت داشته باشند. با این حال، کاربران می‌توانند این ویژگی را غیرفعال کنند، اگر ترجیح می‌دهند که تصاویر دقیقاً مطابق با اعلان اصلی تولید شوند.

به طور خلاصه، مدل imagen-4-generate یک ابزار قدرتمند و انعطاف‌پذیر برای تولید تصاویر با کیفیت بالا از متن است. این مدل با ارائه تعادل بین سرعت و کیفیت، و همچنین قابلیت‌های کنترل دقیق، به کاربران امکان می‌دهد تا تصاویری را تولید کنند که به طور کامل با نیازهای آن‌ها مطابقت داشته باشد. این مدل برای کاربردهای مختلفی از جمله تولید محتوای رسانه‌های اجتماعی، طراحی گرافیک، و توسعه بازی‌های ویدیویی مناسب است.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تولید تصویر. مقدار این پارامتر باید 'google/imagen-4.0-generate-001' باشد. مقادیر مجاز (کلیک برای کپی):
prompt	stringRequired	متن ورودی که محتوا، سبک یا ترکیب تصویر تولیدی را توصیف می‌کند. حداکثر طول: 400 کاراکتر.
convert_base64_to_url	boolean	اگر مقدار True باشد، URL تصویر بازگردانده می‌شود. در غیر این صورت، فایل به صورت base64 ارائه می‌شود. مقدار پیش‌فرض: true.
num_images	integer	تعداد تصاویری که باید تولید شوند. حداکثر مقدار: 4. مقدار پیش‌فرض: 1.
seed	integer	با استفاده از یک seed یکسان و یک prompt یکسان، مدل در هر بار اجرا یک تصویر یکسان تولید می‌کند. حداکثر مقدار: 4294967295.
enhance_prompt	boolean	پارامتر اختیاری برای استفاده از ویژگی بازنویسی اعلان مبتنی بر LLM برای تصاویر با کیفیت بالاتر که بهتر با اعلان اصلی مطابقت دارند. غیرفعال کردن آن ممکن است بر کیفیت تصویر و همسویی اعلان تأثیر بگذارد. مقدار پیش‌فرض: true.
aspect_ratio	string	نسبت تصویر تولید شده. مقدار پیش‌فرض: 1:1. مقادیر مجاز (کلیک برای کپی):
person_generation	string	اجازه تولید تصاویر افراد. مقدار پیش‌فرض: allow_adult. مقادیر مجاز (کلیک برای کپی):
safety_setting	string	سطح فیلتر ایمنی را تعیین می‌کند. مقدار پیش‌فرض: block_medium_and_above. مقادیر مجاز (کلیک برای کپی):
add_watermark	boolean	اضافه کردن یک واترمارک نامرئی به تصاویر تولید شده. مقدار پیش‌فرض: false.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json   # for getting a structured output with indentation

def main():
    response = requests.post(
        "https://api.ai-kar.com/v1/images/generations",
        headers={
            # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
            "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
            "Content-Type": "application/json",
        },
        json={
            "prompt": "Racoon eating ice-cream",
            "model": "google/imagen-4.0-generate-001",
            "aspect_ratio": "16:9"
        }
    )
    data = response.json()
    print(json.dumps(data, indent=2, ensure_ascii=False))

if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "data": [
    {
      "mime_type": "image/png",
      "url": "#",
      "prompt": "A mischievous racoon, with beady eyes and a striped tail, is caught mid-lick, enjoying a stolen ice cream cone. Its small paws cradle the melting treat, and its face is smeared with the creamy sweetness, indicating a thorough and enthusiastic indulgence. The scene is set in a cluttered alleyway, with discarded boxes and old bricks forming a backdrop to the racoon's illicit feast."
    }
  ],
  "meta": {
    "usage": {
      "tokens_used": 84000
    }
  }
}