Image Modelsgoogle

معرفی و مستندات مدل هوش مصنوعی gemini-2.5-flash-image-edit

مستندات مدل gemini-2.5-flash-image-edit ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک دستورات فارسی ممکن است نیازمند عبارات ساده و واضح باشد.

مدل gemini-2.5-flash-image-edit از گوگل، یک مدل پیشرفته هوش مصنوعی است که برای ویرایش و ترکیب تصاویر طراحی شده است. این مدل با دریافت چندین تصویر به عنوان ورودی و یک دستور متنی (prompt)، قادر است تصاویر جدیدی را تولید کند که محتوای تصاویر ورودی را با توجه به دستور داده شده ترکیب می‌کند. به عبارت دیگر، شما می‌توانید با ارائه دو یا چند تصویر و یک توضیح متنی، از مدل بخواهید تا تصاویر را به گونه‌ای با هم ترکیب کند که تصویر نهایی، خواسته شما را برآورده سازد.

به عنوان مثال، می‌توانید تصویری از یک دایناسور T-Rex و یک فنجان قهوه را به مدل بدهید و از آن بخواهید تا دایناسور را در حالی که لباس رسمی پوشیده و در یک کافه دنج نشسته و از فنجان قهوه می‌نوشد، به تصویر بکشد. مدل با تحلیل تصاویر ورودی و درک دستور متنی، تصویری جدید تولید می‌کند که این خواسته را به واقعیت تبدیل می‌کند. این مدل برای تولید محتوای خلاقانه، ایجاد تصاویر مفهومی و ویرایش تصاویر به صورت هوشمندانه بسیار مناسب است.

یکی از ویژگی‌های برجسته این مدل، امکان تعیین نسبت تصویر (aspect ratio) است. شما می‌توانید نسبت تصویر خروجی را از بین گزینه‌های مختلفی مانند 1:1، 2:3، 3:2، 3:4، 4:3، 4:5، 5:4، 9:16، 16:9 و 21:9 انتخاب کنید. این امکان به شما اجازه می‌دهد تا تصویر خروجی را با ابعاد مورد نظر خود تنظیم کنید. همچنین، می‌توانید تعداد تصاویر تولیدی را نیز مشخص کنید. مدل می‌تواند بین 1 تا 4 تصویر را به صورت همزمان تولید کند.

این مدل با استفاده از API قابل دسترسی است و برای استفاده از آن نیاز به یک کلید API دارید. پس از دریافت کلید API، می‌توانید با ارسال درخواست‌های HTTP به سرور، تصاویر مورد نظر خود را تولید کنید. در این مستندات، نمونه کد‌هایی به زبان‌های مختلف برنامه‌نویسی مانند Python، JavaScript، cURL و HTTP ارائه شده است که به شما در استفاده از API کمک می‌کند.

مدل gemini-2.5-flash-image-edit یک ابزار قدرتمند برای تولید و ویرایش تصاویر است که می‌تواند در زمینه‌های مختلفی مانند تبلیغات، بازاریابی، هنر و سرگرمی مورد استفاده قرار گیرد. با استفاده از این مدل، می‌توانید به سرعت و به آسانی تصاویر خلاقانه و جذابی را تولید کنید که توجه مخاطبان را به خود جلب کند.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تولید تصویر. مقادیر مجاز (کلیک برای کپی):
prompt	stringRequired	دستور متنی که محتوا، سبک یا ترکیب تصویر تولیدی را توصیف می‌کند.
image_urls	string · uri[]Required	لیستی از آدرس‌های اینترنتی (URL) یا تصاویر Base64 رمزگذاری شده محلی برای ویرایش.
aspect_ratio	string · enum	نسبت تصویر تولید شده. مقادیر مجاز (کلیک برای کپی):
num_images	number	تعداد تصاویری که باید تولید شوند. مقدار پیش‌فرض 1 است.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json

def main():
    response = requests.post(
        "https://api.ai-kar.com/v1/images/generations",
        headers={
            # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
            "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
            "Content-Type": "application/json",
        },
        json={
            "model": "google/gemini-2.5-flash-image-edit",
            "image_urls": [
                "https://raw.githubusercontent.com/AI-KARapi/api-docs/main/reference-files/t-rex.png",
                "https://raw.githubusercontent.com/AI-KARapi/api-docs/main/reference-files/blue-mug.jpg"
            ],
            "prompt": "Combine the images so the T-Rex is wearing a business suit, sitting in a cozy small café, drinking from the mug. Blur the background slightly to create a bokeh effect.",
        }
    )
    data = response.json()
    print(json.dumps(data, indent=2, ensure_ascii=False))


if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "data": [
    {
      "url": "#",
      "b64_json": null
    }
  ],
  "meta": {
    "usage": {
      "tokens_used": 120000
    }
  }
}