Image Modelsgoogle
معرفی و مستندات مدل هوش مصنوعی imagen-4-generate
مستندات مدل تولید تصویر imagen-4-generate از گوگل، ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. برای دریافت بهترین نتیجه، استفاده از عبارات ساده و واضح توصیه میشود.
مدل imagen-4-generate یک مدل پیشرفته تبدیل متن به تصویر است که توسط گوگل توسعه داده شده است. این مدل با هدف ایجاد تعادل بین سرعت و کیفیت تصویر طراحی شده است و به کاربران امکان میدهد تا تصاویر با کیفیت بالا را با سرعت مناسب تولید کنند. این مدل به ویژه برای کاربردهایی که نیاز به تولید سریع تصاویر با کیفیت قابل قبول دارند، مناسب است.
یکی از ویژگیهای برجسته این مدل، توانایی آن در درک و تفسیر دقیق دستورات متنی است. کاربران میتوانند با ارائه توضیحات دقیق و جزئی، تصاویری را تولید کنند که به طور کامل با خواستههای آنها مطابقت داشته باشد. این مدل از الگوریتمهای پیشرفتهای برای پردازش زبان طبیعی (NLP) استفاده میکند که به آن امکان میدهد تا مفاهیم پیچیده و ظریف را درک کند و آنها را به تصاویر بصری تبدیل کند.
مدل imagen-4-generate از طریق یک API در دسترس است که به توسعهدهندگان امکان میدهد تا به راحتی آن را در برنامهها و سرویسهای خود ادغام کنند. این API شامل پارامترهای مختلفی است که به کاربران امکان میدهد تا جنبههای مختلف تصویر تولید شده را کنترل کنند، از جمله نسبت تصویر، تعداد تصاویر تولید شده، و سطح فیلتر ایمنی.
یکی از مزایای کلیدی این مدل، قابلیت کنترل سطح فیلتر ایمنی است. کاربران میتوانند تعیین کنند که چه نوع محتوایی باید فیلتر شود، که این امر به آنها امکان میدهد تا از تولید تصاویر نامناسب یا ناخواسته جلوگیری کنند. این ویژگی به ویژه برای کاربردهایی که نیاز به رعایت استانداردهای خاصی دارند، مهم است.
علاوه بر این، مدل imagen-4-generate از یک ویژگی بازنویسی اعلان مبتنی بر LLM (مدل زبانی بزرگ) برای بهبود کیفیت تصاویر استفاده میکند. این ویژگی به طور خودکار اعلانهای ورودی را بازنویسی میکند تا تصاویر با کیفیت بالاتری تولید شوند که بهتر با اعلان اصلی مطابقت داشته باشند. با این حال، کاربران میتوانند این ویژگی را غیرفعال کنند، اگر ترجیح میدهند که تصاویر دقیقاً مطابق با اعلان اصلی تولید شوند.
به طور خلاصه، مدل imagen-4-generate یک ابزار قدرتمند و انعطافپذیر برای تولید تصاویر با کیفیت بالا از متن است. این مدل با ارائه تعادل بین سرعت و کیفیت، و همچنین قابلیتهای کنترل دقیق، به کاربران امکان میدهد تا تصاویری را تولید کنند که به طور کامل با نیازهای آنها مطابقت داشته باشد. این مدل برای کاربردهای مختلفی از جمله تولید محتوای رسانههای اجتماعی، طراحی گرافیک، و توسعه بازیهای ویدیویی مناسب است.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تولید تصویر. مقدار این پارامتر باید 'google/imagen-4.0-generate-001' باشد. مقادیر مجاز (کلیک برای کپی): |
prompt | stringRequired | متن ورودی که محتوا، سبک یا ترکیب تصویر تولیدی را توصیف میکند. حداکثر طول: 400 کاراکتر. |
convert_base64_to_url | boolean | اگر مقدار True باشد، URL تصویر بازگردانده میشود. در غیر این صورت، فایل به صورت base64 ارائه میشود. مقدار پیشفرض: true. |
num_images | integer | تعداد تصاویری که باید تولید شوند. حداکثر مقدار: 4. مقدار پیشفرض: 1. |
seed | integer | با استفاده از یک seed یکسان و یک prompt یکسان، مدل در هر بار اجرا یک تصویر یکسان تولید میکند. حداکثر مقدار: 4294967295. |
enhance_prompt | boolean | پارامتر اختیاری برای استفاده از ویژگی بازنویسی اعلان مبتنی بر LLM برای تصاویر با کیفیت بالاتر که بهتر با اعلان اصلی مطابقت دارند. غیرفعال کردن آن ممکن است بر کیفیت تصویر و همسویی اعلان تأثیر بگذارد. مقدار پیشفرض: true. |
aspect_ratio | string | نسبت تصویر تولید شده. مقدار پیشفرض: 1:1. مقادیر مجاز (کلیک برای کپی): |
person_generation | string | اجازه تولید تصاویر افراد. مقدار پیشفرض: allow_adult. مقادیر مجاز (کلیک برای کپی): |
safety_setting | string | سطح فیلتر ایمنی را تعیین میکند. مقدار پیشفرض: block_medium_and_above. مقادیر مجاز (کلیک برای کپی): |
add_watermark | boolean | اضافه کردن یک واترمارک نامرئی به تصاویر تولید شده. مقدار پیشفرض: false. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
import json # for getting a structured output with indentation
def main():
response = requests.post(
"https://api.ai-kar.com/v1/images/generations",
headers={
# Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
"Content-Type": "application/json",
},
json={
"prompt": "Racoon eating ice-cream",
"model": "google/imagen-4.0-generate-001",
"aspect_ratio": "16:9"
}
)
data = response.json()
print(json.dumps(data, indent=2, ensure_ascii=False))
if __name__ == "__main__":
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"data": [
{
"mime_type": "image/png",
"url": "#",
"prompt": "A mischievous racoon, with beady eyes and a striped tail, is caught mid-lick, enjoying a stolen ice cream cone. Its small paws cradle the melting treat, and its face is smeared with the creamy sweetness, indicating a thorough and enthusiastic indulgence. The scene is set in a cluttered alleyway, with discarded boxes and old bricks forming a backdrop to the racoon's illicit feast."
}
],
"meta": {
"usage": {
"tokens_used": 84000
}
}
}