Vision ModelsgoogleOcr-Optical-Character-Recognition

معرفی و مستندات مدل هوش مصنوعی google-ocr

مستندات مدل google-ocr، ارائه شده توسط ای ای کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. دقت در تشخیص متون فارسی به کیفیت تصویر و نوع فونت بستگی دارد.

مدل google-ocr یک راهکار قدرتمند تشخیص نوری کاراکتر (OCR) است که توسط گوگل توسعه داده شده و به منظور استخراج متن از تصاویر و اسناد طراحی شده است. این مدل با بهره‌گیری از پیشرفته‌ترین تکنیک‌های یادگیری عمیق، قادر است متون موجود در انواع مختلف تصاویر، از جمله اسناد اسکن شده، عکس‌ها، و تصاویر با کیفیت پایین را با دقت بسیار بالا شناسایی و استخراج کند. google-ocr می‌تواند فرمت‌های مختلفی از تصاویر مانند JPG، PNG، TIFF و PDF را پردازش کند و متن استخراج شده را در قالب‌های مختلفی مانند متن ساده، JSON یا HTML ارائه دهد. این قابلیت، امکان ادغام آسان آن را با سیستم‌ها و برنامه‌های مختلف فراهم می‌کند. یکی از ویژگی‌های برجسته google-ocr، توانایی آن در تشخیص و استخراج متن از اسناد پیچیده با طرح‌بندی‌های متنوع است. این مدل می‌تواند جداول، نمودارها، و سایر عناصر بصری را شناسایی کرده و متن مربوط به هر یک را به درستی استخراج کند. همچنین، google-ocr از طیف گسترده‌ای از زبان‌ها پشتیبانی می‌کند و می‌تواند متون موجود در اسناد چند زبانه را نیز پردازش کند. این ویژگی، آن را به یک ابزار ایده‌آل برای سازمان‌هایی تبدیل می‌کند که با اسناد بین‌المللی سروکار دارند. کاربردهای google-ocr بسیار گسترده است و شامل موارد زیر می‌شود: * **خودکارسازی ورود داده‌ها:** استخراج خودکار اطلاعات از فاکتورها، رسیدها، و سایر اسناد تجاری، کاهش خطاهای انسانی و افزایش سرعت پردازش. * **دیجیتالی‌سازی اسناد:** تبدیل اسناد کاغذی به فرمت‌های دیجیتال، ایجاد آرشیوهای الکترونیکی و دسترسی آسان به اطلاعات. * **پردازش تصویر:** استخراج متن از تصاویر موجود در وب‌سایت‌ها، شبکه‌های اجتماعی، و سایر منابع آنلاین. * **دسترسی‌پذیری:** تبدیل اسناد متنی به فرمت‌های قابل دسترس برای افراد دارای معلولیت، مانند تبدیل متن به گفتار. * **تحلیل متن:** استخراج اطلاعات کلیدی از اسناد متنی، مانند شناسایی موضوعات، استخراج نام‌ها و مکان‌ها، و تحلیل احساسات. به طور خلاصه، google-ocr یک ابزار قدرتمند و انعطاف‌پذیر است که می‌تواند به سازمان‌ها در خودکارسازی فرآیندهای مبتنی بر متن، بهبود دقت داده‌ها، و افزایش بهره‌وری کمک کند. این مدل با ارائه دقت بالا، پشتیبانی از زبان‌های مختلف، و قابلیت ادغام آسان، یک راهکار ایده‌آل برای طیف گسترده‌ای از کاربردها است. ای ای کار (AI-KAR) با ارائه این مستندات، قصد دارد تا کاربران را در استفاده بهینه از این مدل یاری رساند.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	string	مدل مورد استفاده برای OCR. در حال حاضر فقط google/gc-document-ai پشتیبانی می‌شود. مقادیر مجاز (کلیک برای کپی):
document	stringRequired	فایل سند برای پردازش توسط مدل OCR. می‌تواند یک URI یا یک رشته باشد.
mimeType	string	نوع MIME سند. مقادیر مجاز (کلیک برای کپی):
pages	object	صفحات خاصی که می‌خواهید پردازش کنید.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json

url = "https://api.ai-kar.com/v1/ocr"
headers = {
    "Authorization": "Bearer YOUR_SECRET_TOKEN",
    "Content-Type": "application/json"
}
data = {
    "model": "google/gc-document-ai",
    "document": "https://example.com",
    "mimeType": "application/pdf",
    "pages": {
        "type": "start",
        "start": 1
    }
}

response = requests.post(url, headers=headers, data=json.dumps(data))

print(response.json())

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "pages": [
    {
      "index": 1,
      "markdown": "text",
      "images": [
        {
          "id": "text",
          "top_left_x": 1,
          "top_left_y": 1,
          "bottom_right_x": 1,
          "bottom_right_y": 1,
          "image_base64": "https://example.com"
        }
      ],
      "dimensions": {
        "dpi": 1,
        "height": 1,
        "width": 1
      }
    }
  ],
  "model": "mistral-ocr-latest",
  "usage_info": {
    "pages_processed": 1,
    "doc_size_bytes": 1
  }
}