Embedding Modelsgoogle

معرفی و مستندات مدل هوش مصنوعی textembedding-gecko

مستندات مدل textembedding-gecko از گوگل، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. درک مفاهیم کلی را دارد اما در تشخیص ظرافت‌های زبانی و اصطلاحات تخصصی ممکن است با مشکل مواجه شود.

مدل textembedding-gecko یک مدل پیشرفته برای تبدیل داده‌های متنی به نمایش‌های برداری عددی است. این مدل با درک معنایی عمیق و روابط موجود در متن، امکان انجام وظایف مختلف پردازش زبان طبیعی (NLP) را فراهم می‌کند. این مدل قادر است تا متن را به گونه‌ای رمزگذاری کند که شباهت‌های معنایی بین متون مختلف در فضای برداری حفظ شود. به عبارت دیگر، متونی که از نظر معنایی به هم نزدیک هستند، بردارهای نزدیک‌تری نیز خواهند داشت. این ویژگی امکان انجام عملیاتی مانند جستجوی معنایی، خوشه‌بندی متون، و تشخیص شباهت بین متون را فراهم می‌کند. مدل textembedding-gecko از معماری شبکه‌های عصبی عمیق بهره می‌برد و با استفاده از حجم عظیمی از داده‌های متنی آموزش داده شده است. این آموزش گسترده باعث شده تا مدل قادر به درک ظرافت‌های زبانی و تفاوت‌های معنایی در متون مختلف باشد. یکی از ویژگی‌های برجسته این مدل، توانایی آن در مدیریت متون طولانی است. با استفاده از تکنیک‌های خاص، مدل می‌تواند متون طولانی را به بخش‌های کوچکتر تقسیم کرده و سپس هر بخش را به صورت جداگانه پردازش کند. این امر باعث می‌شود تا مدل بتواند اطلاعات موجود در متون طولانی را به طور کامل استخراج کرده و از دست دادن اطلاعات جلوگیری کند. علاوه بر این، مدل textembedding-gecko از قابلیت تنظیم ابعاد بردار خروجی برخوردار است. این امکان به کاربران اجازه می‌دهد تا با توجه به نیازهای خاص خود، ابعاد بردار خروجی را تنظیم کنند. به عنوان مثال، در برخی از کاربردها ممکن است نیاز به بردارهای با ابعاد بالا باشد تا اطلاعات بیشتری در بردار ذخیره شود، در حالی که در کاربردهای دیگر ممکن است بردارهای با ابعاد پایین‌تر کافی باشند. مدل textembedding-gecko در طیف گسترده‌ای از کاربردها قابل استفاده است. از جمله این کاربردها می‌توان به موارد زیر اشاره کرد: جستجوی معنایی: با استفاده از این مدل می‌توان متونی را پیدا کرد که از نظر معنایی به متن ورودی نزدیک هستند. خوشه‌بندی متون: این مدل می‌تواند متون مشابه را در یک گروه قرار دهد. تشخیص شباهت بین متون: با استفاده از این مدل می‌توان میزان شباهت بین دو متن را اندازه‌گیری کرد. خلاصه‌سازی متون: این مدل می‌تواند خلاصه‌ای از یک متن طولانی را تولید کند. پاسخ به سوال: این مدل می‌تواند به سوالات مطرح شده در مورد یک متن پاسخ دهد. به طور کلی، مدل textembedding-gecko یک ابزار قدرتمند برای پردازش زبان طبیعی است که می‌تواند در طیف گسترده‌ای از کاربردها مورد استفاده قرار گیرد. این مدل با درک عمیق معنایی و روابط موجود در متن، امکان انجام وظایف مختلف NLP را با دقت و کارایی بالا فراهم می‌کند.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدلی که برای تولید امبدینگ استفاده می‌شود.
مقادیر مجاز (کلیک برای کپی):
input
string | string[]Required
متن ورودی برای تولید امبدینگ. می‌تواند یک رشته یا آرایه‌ای از رشته‌ها باشد.
dimensions
number | nullable
تعداد ابعادی که امبدینگ خروجی باید داشته باشد.
auto_truncate
boolean
اگر فعال باشد، این پارامتر به طور خودکار متن ورودی را کوتاه می‌کند تا در محدودیت حداکثر توکن‌های مدل جای بگیرد. این کمک می‌کند تا متون طولانی‌تر بدون خطا پردازش شوند.
task_type
string
نوع وظیفه اختیاری که امبدینگ برای آن استفاده خواهد شد.
مقادیر مجاز (کلیک برای کپی):
title
string
یک عنوان اختیاری برای متن. فقط زمانی کاربرد دارد که task_type برابر با RETRIEVAL_DOCUMENT باشد. توجه: تعیین یک عنوان برای RETRIEVAL_DOCUMENT امبدینگ‌های با کیفیت بهتری برای بازیابی ارائه می‌دهد.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests

url = "https://api.ai-kar.com/v1/embeddings"
headers = {
    "Authorization": "Bearer YOUR_SECRET_TOKEN",
    "Content-Type": "application/json"
}
data = {
    "model": "textembedding-gecko-multilingual@001",
    "input": "text",
    "dimensions": 1,
    "auto_truncate": True,
    "task_type": "RETRIEVAL_QUERY",
    "title": "text"
}

response = requests.post(url, headers=headers, json=data)

print(response.status_code)
print(response.text)

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{}