Over Elveo b.v.Uw partner bij het in de praktijk brengen van document
automatisering;Meer dan 20 jaar ervaring in scanning en herkenning;Gespecialiseerd in optimaliseren van werkprocessen met
behulp van digitalisering.
Al vanaf 1989 een van de grootste producenten op OCR gebied
Over Abbyy
1. Abbyy Finereader2. Flexicapture3. Recognition Server
OCR (Optical Character Recognition)ICR (handprint recognition)OMR (checkmark recognition)Barcodes recognitionDocument conversion with accurate layout retrievalPDF conversion (in and out) with advanced security &
accessibility supportFixed and semi-structured forms and documents captureDocuments classification
4
ABBYY FineReader Engine: een breed scala aan toepassingseigenschappen
Stap 1. Scanning, Image Laden, Pre-Processing en aanpassenCompenseren van imagefouten en het beter leesbaar maken van het
document geschikt voor automatische OCRStap 2. Document Layout Analysis
Detectie van documentsecties, analyze layout en het vinden van barcodes
Stap 3. Character RecognitionAutomatische herkenning van karakters, toepassen van geselecteerde
taalherkenning , bibliotheken en andere settingsStap 4. Verificatie door Operators (optioneel)
Handmatige validatie van mogelijk fout herkende karakters en woordenStap 5. Document Synthese en Export
Generen van het output document in gewenst formaat
5
ABBYY OCR Processing
Stap 1. Image Laden, Pre-Processing en aanpassen
Intelligente filtering van de achtergrond
‘Adaptive’ Binarisatie
6
OCR Processing Steps
Algemene binarisatie op image niveau leidt niet tot een optimaal OCR resultaat
Stap 1. Image Laden, Pre-Processing en aanpassen Compensatie van scanfouten
Automatisch rechtzetten naar correcte positionering
Corrigeren teksregels Gecontroleerde “de-speckle”
(wegpoetsen vervuilende pixels)
7
ABBYY OCR Processing Steps
Stap 2. Document Layout Analyse
8
Document Layout Analyse
Stap 3. Karakter herkenningNa de lijn detectie volgt de herkenning van karakters met verschillende
`classifiers´
9
OCR Processing Steps
Raster classifier Contour classifier
10
Document Analyse (DA) maakt het verschilABBYY FlexiCapture Engine
DA met behoud van de Layout (FineReader)
“Eigen factuur DA Logic” (FlexiLayout)
12
ABBYY Terminologie & Document Types
Vaste structuren:Vragenlijsten, enquetes, multiple choice testen, vaak handgeschreven Identieke layout
Semi-gestructureerd:Facturen, prijslijsten, paspoorten,vrachtbrieven, inkoop orders Gelijke data maar andere layouts
Ongestructureerd:Contracten, brieven, artikelenOngestrucureerde inhoud en verschillende layouts
OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift
De standaard mogelijkhedenVolledige tekst herkenningVolledige tekst herkenningClassificerenClassificerenIndex velden en/of vaste data gegevens uitlichten, Index velden en/of vaste data gegevens uitlichten, Redactioneel (b.v. anonimiseren van correspondentie)Redactioneel (b.v. anonimiseren van correspondentie)Routeren van poststukkenRouteren van poststukkenAutomatisch archiverenAutomatisch archiverenHergebruik van tekstenHergebruik van tekstenImage RotatieImage Rotatie
Volledige tekst herkenningALLE text op de paginaInclusief:
Image Pre-processingDocument Analyse/Zone herkenningData extractieExport naar PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel,
PowerPoint and DBF
ClassificerenDe Software herkent de dokument soortenScan batches van gemengde documenten
Ondersteuning Image processingGebruik van OCR techniek om archiefstructuren vast te
leggenBijvoorbeeld door barcodes, zone herkenning of combinatie
van factoren.
Vaste Formulier Verwerking
Semi gestructureerde formulieren
Ongestructureerde documenten
Vastleggen:•Datum•Afzender•Contactpersoon
Techniek: Hoe accuraatOf liever, hoe bepaal je de accuratesse
Dokumentsoort accuratesseVeld/Zone locatie accuratesseDatasoort accuratesseWoord accuratesseKarakter/cijfer accuratesse
Bedenk dat fouten niet altijd zichtbaar zijn en bepaal daarom van tevoren de invloed van mogelijke herkenningsfouten.
26
OCRModerne OCR technologie behaalt:
98-99% accuratesse bij machinefonts
90-95% accuratesse bij handschriften
Nut van OCR wordt bepaald door het percentage herkende karakters alsmede het percentage fouten daarin
Controleren en corrigeren van OCR-fouten kost 10 keer zo veel tijd als data entry van niet herkende karakters.
27
Waarderingsformule OCRDe waardebepaling van OCR op een schaal van 1 – 100.
Volgens de formule: P-(10*fout) = waarderingscijfer
Bijvoorbeeld: het cijfer voor een systeem dat 90% van de karakters herkend maar daarvan 4% foutief komt neer op 90-(10*4) = 50.
Het verhogen van de herkenningsgraad met 5% tot 95% leidt tot een cijfer van 55. (95-(10*4)=55.
Het verlagen van het foutpercentage met 2% echter leidt tot een waardering van 70. (90-(10*2)=70.
Pas op, bespreek het totaalScanner / InputIndex gegevensOpslagZorg van tevoren voor een lijst met prioriteiten.