شرح كيفيه استخراج النص من الصورة وpdf
ما هو التعرف الضوئي على الحروف؟
يرمز OCR إلى التعرف الضوئي على الأحرف ، وهي تقنية للتعرف على النص في صور المستندات والصور الممسوحة ضوئيًا. باستخدام OCR ، يمكنك تحويل النص المرسوم في الصور إلى مستند قابل للتحرير والبحث والفهرسة والتخزين. تتضمن تطبيقات التعرف الضوئي على الحروف إدخال البيانات لمستندات الأعمال مثل الفواتير ، وكشوف الحسابات المصرفية ، والفواتير ، وبطاقات العمل ، والإيصالات ، والبريد ، وجواز السفر والمعرفات ، والتعرف التلقائي على لوحة الترخيص ، وتحويل الكتب الممسوحة ضوئيًا إلى مستندات قابلة للبحث ، وتحويل النص إلى كلام للمكفوفين وضعاف البصر المستخدمين ، وأكثر من ذلك بكثير.
شرح كيفيه استخراج النص من الصورة وpdf
التعرف الضوئي على الحروف بتنسيق PDF
يرمز OCR إلى التعرف الضوئي على الأحرف ، وهي تقنية للتعرف على النص من صور المستندات والصور الممسوحة ضوئيًا. يرمز PDF إلى (تنسيق المستند المحمول) ، حيث يبدو تخطيط المستند كما هو على الرغم من نظام التشغيل الأساسي أو الأجهزة المستخدمة لعرض المستند. يمكن أن يحتوي مستند PDF على نصوص وصور وارتباطات تشعبية وخطوط مضمنة ومقاطع فيديو ونماذج وغير ذلك الكثير. هناك ثلاثة أنواع من مستندات PDF:PDF قابل للتحرير : يتم إنشاء ملف PDF رقميًا بواسطة أي برنامج مثل MSWord ويتكون من نصوص وصور ، حيث يمكنك البحث عن المستند وتحديده وتحريره بسهولة باستخدام أي قارئ PDF
.ملف PDF الممسوح ضوئيًا : يتكون ملف PDF من صور تم إنشاؤها إما عن طريق المسح الضوئي لمستند صلب باستخدام جهاز مسح ضوئي أو صورة (jpg ، png ، tiff) تم التقاطها بواسطة جهاز تصوير مثل كاميرا محمولة أو كاميرا رقمية. لا يمكنك البحث عن نص المستند أو تحديده أو تحريره إلا إذا كنت تستخدم خدمة التعرف الضوئي على الحروف مثل i2OCR.
ملف PDF القابل للبحث : يتكون ملف PDF من طبقة صورة لمستند ممسوح ضوئيًا وطبقة نص تحتها كنتيجة لخدمة التعرف الضوئي على الحروف (مثل i2OCR) المطبقة على طبقة الصورة. يمكنك البحث عن الوثيقة وتحديدها وتحريرها. هذا النوع من PDF يسمى عادةً PDF / A ، حيث يرمز الحرف “A” إلى الأرشفة.يقوم i2OCR بتحويل PDF إلى نص في خطوتين: أولاً ، يقوم بتحويل PDF إلى صور ، ثم يتعرف على نص الصورة المحددة.