Vision Modelsmistral-aiOcr-Optical-Character-Recognition

معرفی و مستندات مدل هوش مصنوعی mistral-ocr-latest

مستندات مدل mistral-ocr-latest ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. دقت در تشخیص متون فارسی ممکن است بسته به نوع فونت و کیفیت تصویر متفاوت باشد.

مدل mistral-ocr-latest یک API تشخیص نوری کاراکتر (OCR) است که توسط Mistral AI توسعه داده شده و در ای آی کار (AI-KAR) ارائه شده است. این مدل، استاندارد جدیدی را در درک اسناد تعریف می‌کند. برخلاف سایر مدل‌ها، Mistral OCR هر عنصر از اسناد—رسانه، متن، جداول، معادلات—را با دقت و شناخت بی‌سابقه‌ای درک می‌کند. این مدل تصاویر و فایل‌های PDF را به عنوان ورودی می‌گیرد و محتوا را به صورت متن و تصاویر درهم‌تنیده و مرتب استخراج می‌کند. حداکثر اندازه فایل ورودی 50 مگابایت و حداکثر تعداد صفحات 1000 صفحه است. این مدل قادر است متون داخل تصاویر و اسناد را با دقت بالایی تشخیص داده و استخراج کند. با استفاده از این API، کاربران می‌توانند به راحتی متن موجود در تصاویر و اسناد PDF را به متن قابل ویرایش تبدیل کنند. این قابلیت امکان پردازش خودکار اسناد، استخراج داده‌ها و تجزیه و تحلیل متنی را فراهم می‌کند. این مدل از الگوریتم‌های پیشرفته‌ای برای تشخیص کاراکترها استفاده می‌کند و قادر است با انواع مختلف فونت‌ها و سبک‌های نوشتاری سازگار شود. همچنین، این مدل می‌تواند تصاویر با کیفیت پایین و اسناد اسکن شده را با دقت قابل قبولی پردازش کند. لازم به ذکر است که این OCR قالب‌بندی کاراکترها مانند bold، underline، italics، monospace text و غیره را حفظ نمی‌کند. با این حال، پاورقی‌ها (متن بالانویس) را حفظ می‌کند. این مدل برای کاربردهایی مانند بایگانی دیجیتال اسناد، استخراج اطلاعات از فاکتورها و رسیدها، و تبدیل تصاویر حاوی متن به متن قابل جستجو بسیار مناسب است. با استفاده از API ارائه شده توسط ای آی کار، توسعه‌دهندگان می‌توانند به سادگی این قابلیت‌ها را در برنامه‌های خود ادغام کنند و از مزایای آن بهره‌مند شوند. این مدل با ارائه دقت بالا و سرعت مناسب، به کاربران کمک می‌کند تا فرآیندهای خود را بهینه‌سازی کرده و بهره‌وری را افزایش دهند. همچنین، ای آی کار پشتیبانی فنی کاملی را برای این مدل ارائه می‌دهد تا کاربران بتوانند در صورت بروز هرگونه مشکل، به راحتی آن را حل کنند.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
string
مدلی که برای OCR استفاده می‌شود. مقدار پیش‌فرض `mistral/mistral-ocr-latest` است.
مقادیر مجاز (کلیک برای کپی):
document
objectRequired
سندی که باید OCR روی آن انجام شود. می‌تواند یک URL به یک فایل یا خود فایل باشد.
pages
string | integer[] | any
صفحات خاصی که می‌خواهید پردازش شوند. مثال: "3" یا "0-2" یا [0, 3, 4]
include_image_base64
boolean | nullable
آیا تصاویر base64 در پاسخ گنجانده شوند؟
image_limit
integer | nullable
حداکثر تعداد تصاویری که باید استخراج شوند.
image_min_size
integer | nullable
حداقل ارتفاع و عرض تصویر برای استخراج.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests

def main():
    response = requests.post(
        "https://api.ai-kar.com/v1/ocr",
        headers={
            "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
            "Content-Type": "application/json",
        },
        json={
            "document": {
                "type": "image_url",
                "image_url": "https://i.redd.it/hx0v4fj979k51.jpg"
            },
            "model": "mistral/mistral-ocr-latest",
        },
    )
    # response.raise_for_status()
    data = response.json()
    # print(data)
    return data


main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "pages": [
    {
      "index": 0,
      "markdown": "This is a handwriting test to see how it looks on lined paper. For the past two weeks I have been trying to improve my writing along with learning hows to write with maintain pens. If you have any suggestions, tips or free resources I would love to check it out. Hope everyone is having a good day.",
      "images": [],
      "dimensions": {
        "dpi": 200,
        "height": 2789,
        "width": 3024
      }
    }
  ],
  "model": "mistral-ocr-2503-completion",
  "usage_info": {
    "pages_processed": 1,
    "doc_size_bytes": 573156
  }
}