Image Modelsgoogle
معرفی و مستندات مدل هوش مصنوعی gemini-2.5-flash-image-edit
مستندات مدل gemini-2.5-flash-image-edit ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. درک دستورات فارسی ممکن است نیازمند عبارات ساده و واضح باشد.
مدل gemini-2.5-flash-image-edit از گوگل، یک مدل پیشرفته هوش مصنوعی است که برای ویرایش و ترکیب تصاویر طراحی شده است. این مدل با دریافت چندین تصویر به عنوان ورودی و یک دستور متنی (prompt)، قادر است تصاویر جدیدی را تولید کند که محتوای تصاویر ورودی را با توجه به دستور داده شده ترکیب میکند. به عبارت دیگر، شما میتوانید با ارائه دو یا چند تصویر و یک توضیح متنی، از مدل بخواهید تا تصاویر را به گونهای با هم ترکیب کند که تصویر نهایی، خواسته شما را برآورده سازد.
به عنوان مثال، میتوانید تصویری از یک دایناسور T-Rex و یک فنجان قهوه را به مدل بدهید و از آن بخواهید تا دایناسور را در حالی که لباس رسمی پوشیده و در یک کافه دنج نشسته و از فنجان قهوه مینوشد، به تصویر بکشد. مدل با تحلیل تصاویر ورودی و درک دستور متنی، تصویری جدید تولید میکند که این خواسته را به واقعیت تبدیل میکند. این مدل برای تولید محتوای خلاقانه، ایجاد تصاویر مفهومی و ویرایش تصاویر به صورت هوشمندانه بسیار مناسب است.
یکی از ویژگیهای برجسته این مدل، امکان تعیین نسبت تصویر (aspect ratio) است. شما میتوانید نسبت تصویر خروجی را از بین گزینههای مختلفی مانند 1:1، 2:3، 3:2، 3:4، 4:3، 4:5، 5:4، 9:16، 16:9 و 21:9 انتخاب کنید. این امکان به شما اجازه میدهد تا تصویر خروجی را با ابعاد مورد نظر خود تنظیم کنید. همچنین، میتوانید تعداد تصاویر تولیدی را نیز مشخص کنید. مدل میتواند بین 1 تا 4 تصویر را به صورت همزمان تولید کند.
این مدل با استفاده از API قابل دسترسی است و برای استفاده از آن نیاز به یک کلید API دارید. پس از دریافت کلید API، میتوانید با ارسال درخواستهای HTTP به سرور، تصاویر مورد نظر خود را تولید کنید. در این مستندات، نمونه کدهایی به زبانهای مختلف برنامهنویسی مانند Python، JavaScript، cURL و HTTP ارائه شده است که به شما در استفاده از API کمک میکند.
مدل gemini-2.5-flash-image-edit یک ابزار قدرتمند برای تولید و ویرایش تصاویر است که میتواند در زمینههای مختلفی مانند تبلیغات، بازاریابی، هنر و سرگرمی مورد استفاده قرار گیرد. با استفاده از این مدل، میتوانید به سرعت و به آسانی تصاویر خلاقانه و جذابی را تولید کنید که توجه مخاطبان را به خود جلب کند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تولید تصویر. مقادیر مجاز (کلیک برای کپی): |
prompt | stringRequired | دستور متنی که محتوا، سبک یا ترکیب تصویر تولیدی را توصیف میکند. |
image_urls | string · uri[]Required | لیستی از آدرسهای اینترنتی (URL) یا تصاویر Base64 رمزگذاری شده محلی برای ویرایش. |
aspect_ratio | string · enum | نسبت تصویر تولید شده. مقادیر مجاز (کلیک برای کپی): |
num_images | number | تعداد تصاویری که باید تولید شوند. مقدار پیشفرض 1 است. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
import json
def main():
response = requests.post(
"https://api.ai-kar.com/v1/images/generations",
headers={
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
"Content-Type": "application/json",
},
json={
"model": "google/gemini-2.5-flash-image-edit",
"image_urls": [
"https://raw.githubusercontent.com/AI-KARapi/api-docs/main/reference-files/t-rex.png",
"https://raw.githubusercontent.com/AI-KARapi/api-docs/main/reference-files/blue-mug.jpg"
],
"prompt": "Combine the images so the T-Rex is wearing a business suit, sitting in a cozy small café, drinking from the mug. Blur the background slightly to create a bokeh effect.",
}
)
data = response.json()
print(json.dumps(data, indent=2, ensure_ascii=False))
if __name__ == "__main__":
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"data": [
{
"url": "#",
"b64_json": null
}
],
"meta": {
"usage": {
"tokens_used": 120000
}
}
}