Vision Modelsmistral-aiOcr-Optical-Character-Recognition
معرفی و مستندات مدل هوش مصنوعی mistral-ocr-latest
مستندات مدل mistral-ocr-latest ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. دقت در تشخیص متون فارسی ممکن است بسته به نوع فونت و کیفیت تصویر متفاوت باشد.
مدل mistral-ocr-latest یک API تشخیص نوری کاراکتر (OCR) است که توسط Mistral AI توسعه داده شده و در ای آی کار (AI-KAR) ارائه شده است. این مدل، استاندارد جدیدی را در درک اسناد تعریف میکند. برخلاف سایر مدلها، Mistral OCR هر عنصر از اسناد—رسانه، متن، جداول، معادلات—را با دقت و شناخت بیسابقهای درک میکند. این مدل تصاویر و فایلهای PDF را به عنوان ورودی میگیرد و محتوا را به صورت متن و تصاویر درهمتنیده و مرتب استخراج میکند. حداکثر اندازه فایل ورودی 50 مگابایت و حداکثر تعداد صفحات 1000 صفحه است. این مدل قادر است متون داخل تصاویر و اسناد را با دقت بالایی تشخیص داده و استخراج کند. با استفاده از این API، کاربران میتوانند به راحتی متن موجود در تصاویر و اسناد PDF را به متن قابل ویرایش تبدیل کنند. این قابلیت امکان پردازش خودکار اسناد، استخراج دادهها و تجزیه و تحلیل متنی را فراهم میکند. این مدل از الگوریتمهای پیشرفتهای برای تشخیص کاراکترها استفاده میکند و قادر است با انواع مختلف فونتها و سبکهای نوشتاری سازگار شود. همچنین، این مدل میتواند تصاویر با کیفیت پایین و اسناد اسکن شده را با دقت قابل قبولی پردازش کند. لازم به ذکر است که این OCR قالببندی کاراکترها مانند bold، underline، italics، monospace text و غیره را حفظ نمیکند. با این حال، پاورقیها (متن بالانویس) را حفظ میکند. این مدل برای کاربردهایی مانند بایگانی دیجیتال اسناد، استخراج اطلاعات از فاکتورها و رسیدها، و تبدیل تصاویر حاوی متن به متن قابل جستجو بسیار مناسب است. با استفاده از API ارائه شده توسط ای آی کار، توسعهدهندگان میتوانند به سادگی این قابلیتها را در برنامههای خود ادغام کنند و از مزایای آن بهرهمند شوند. این مدل با ارائه دقت بالا و سرعت مناسب، به کاربران کمک میکند تا فرآیندهای خود را بهینهسازی کرده و بهرهوری را افزایش دهند. همچنین، ای آی کار پشتیبانی فنی کاملی را برای این مدل ارائه میدهد تا کاربران بتوانند در صورت بروز هرگونه مشکل، به راحتی آن را حل کنند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | string | مدلی که برای OCR استفاده میشود. مقدار پیشفرض `mistral/mistral-ocr-latest` است. مقادیر مجاز (کلیک برای کپی): |
document | objectRequired | سندی که باید OCR روی آن انجام شود. میتواند یک URL به یک فایل یا خود فایل باشد. |
pages | string | integer[] | any | صفحات خاصی که میخواهید پردازش شوند. مثال: "3" یا "0-2" یا [0, 3, 4] |
include_image_base64 | boolean | nullable | آیا تصاویر base64 در پاسخ گنجانده شوند؟ |
image_limit | integer | nullable | حداکثر تعداد تصاویری که باید استخراج شوند. |
image_min_size | integer | nullable | حداقل ارتفاع و عرض تصویر برای استخراج. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import requests
def main():
response = requests.post(
"https://api.ai-kar.com/v1/ocr",
headers={
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
"Content-Type": "application/json",
},
json={
"document": {
"type": "image_url",
"image_url": "https://i.redd.it/hx0v4fj979k51.jpg"
},
"model": "mistral/mistral-ocr-latest",
},
)
# response.raise_for_status()
data = response.json()
# print(data)
return data
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"pages": [
{
"index": 0,
"markdown": "This is a handwriting test to see how it looks on lined paper. For the past two weeks I have been trying to improve my writing along with learning hows to write with maintain pens. If you have any suggestions, tips or free resources I would love to check it out. Hope everyone is having a good day.",
"images": [],
"dimensions": {
"dpi": 200,
"height": 2789,
"width": 3024
}
}
],
"model": "mistral-ocr-2503-completion",
"usage_info": {
"pages_processed": 1,
"doc_size_bytes": 573156
}
}