Vision ModelsgoogleOcr-Optical-Character-Recognition
معرفی و مستندات مدل هوش مصنوعی google-ocr
مستندات مدل google-ocr، ارائه شده توسط ای ای کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. دقت در تشخیص متون فارسی به کیفیت تصویر و نوع فونت بستگی دارد.
مدل google-ocr یک راهکار قدرتمند تشخیص نوری کاراکتر (OCR) است که توسط گوگل توسعه داده شده و به منظور استخراج متن از تصاویر و اسناد طراحی شده است. این مدل با بهرهگیری از پیشرفتهترین تکنیکهای یادگیری عمیق، قادر است متون موجود در انواع مختلف تصاویر، از جمله اسناد اسکن شده، عکسها، و تصاویر با کیفیت پایین را با دقت بسیار بالا شناسایی و استخراج کند. google-ocr میتواند فرمتهای مختلفی از تصاویر مانند JPG، PNG، TIFF و PDF را پردازش کند و متن استخراج شده را در قالبهای مختلفی مانند متن ساده، JSON یا HTML ارائه دهد. این قابلیت، امکان ادغام آسان آن را با سیستمها و برنامههای مختلف فراهم میکند.
یکی از ویژگیهای برجسته google-ocr، توانایی آن در تشخیص و استخراج متن از اسناد پیچیده با طرحبندیهای متنوع است. این مدل میتواند جداول، نمودارها، و سایر عناصر بصری را شناسایی کرده و متن مربوط به هر یک را به درستی استخراج کند. همچنین، google-ocr از طیف گستردهای از زبانها پشتیبانی میکند و میتواند متون موجود در اسناد چند زبانه را نیز پردازش کند. این ویژگی، آن را به یک ابزار ایدهآل برای سازمانهایی تبدیل میکند که با اسناد بینالمللی سروکار دارند.
کاربردهای google-ocr بسیار گسترده است و شامل موارد زیر میشود:
* **خودکارسازی ورود دادهها:** استخراج خودکار اطلاعات از فاکتورها، رسیدها، و سایر اسناد تجاری، کاهش خطاهای انسانی و افزایش سرعت پردازش.
* **دیجیتالیسازی اسناد:** تبدیل اسناد کاغذی به فرمتهای دیجیتال، ایجاد آرشیوهای الکترونیکی و دسترسی آسان به اطلاعات.
* **پردازش تصویر:** استخراج متن از تصاویر موجود در وبسایتها، شبکههای اجتماعی، و سایر منابع آنلاین.
* **دسترسیپذیری:** تبدیل اسناد متنی به فرمتهای قابل دسترس برای افراد دارای معلولیت، مانند تبدیل متن به گفتار.
* **تحلیل متن:** استخراج اطلاعات کلیدی از اسناد متنی، مانند شناسایی موضوعات، استخراج نامها و مکانها، و تحلیل احساسات.
به طور خلاصه، google-ocr یک ابزار قدرتمند و انعطافپذیر است که میتواند به سازمانها در خودکارسازی فرآیندهای مبتنی بر متن، بهبود دقت دادهها، و افزایش بهرهوری کمک کند. این مدل با ارائه دقت بالا، پشتیبانی از زبانهای مختلف، و قابلیت ادغام آسان، یک راهکار ایدهآل برای طیف گستردهای از کاربردها است. ای ای کار (AI-KAR) با ارائه این مستندات، قصد دارد تا کاربران را در استفاده بهینه از این مدل یاری رساند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | string | مدل مورد استفاده برای OCR. در حال حاضر فقط google/gc-document-ai پشتیبانی میشود. مقادیر مجاز (کلیک برای کپی): |
document | stringRequired | فایل سند برای پردازش توسط مدل OCR. میتواند یک URI یا یک رشته باشد. |
mimeType | string | نوع MIME سند. مقادیر مجاز (کلیک برای کپی): |
pages | object | صفحات خاصی که میخواهید پردازش کنید. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
import json
url = "https://api.ai-kar.com/v1/ocr"
headers = {
"Authorization": "Bearer YOUR_SECRET_TOKEN",
"Content-Type": "application/json"
}
data = {
"model": "google/gc-document-ai",
"document": "https://example.com",
"mimeType": "application/pdf",
"pages": {
"type": "start",
"start": 1
}
}
response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json())نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"pages": [
{
"index": 1,
"markdown": "text",
"images": [
{
"id": "text",
"top_left_x": 1,
"top_left_y": 1,
"bottom_right_x": 1,
"bottom_right_y": 1,
"image_base64": "https://example.com"
}
],
"dimensions": {
"dpi": 1,
"height": 1,
"width": 1
}
}
],
"model": "mistral-ocr-latest",
"usage_info": {
"pages_processed": 1,
"doc_size_bytes": 1
}
}