Entwicklungen zur Objekterkennung, Schrifterkennung - HSH
Schrifterkennung, Barcodeerkennung, Objekterkennung, Erkennung handgeschriebener Ziffern, Handschrifterkennung
Contents
OCR-Software
Optische Schriftzeichenerkennung (Optical Character Recognition) oder verallgemeinert auch die Erkennung von Symbolen und Objekten ist einer der wesentlichsten Anwendungsbereiche der Mustererkennung. Die OCR hat in den letzten Jahren erhebliche Fortschritte gemacht, ist aber noch immer Gegenstand intensiver Forschung. Die heutigen, für normale Nutzer verfügbaren Programme sind in der Lage, hochqualitative Texte weitestgehend korrekt zu erkennen. Allerdings gibt es noch erhebliche Defizite, komplexe Dokumente mit aufwändigen Strukturierungen und Formatierungen, wie z.B. eingebetteten Bilddaten oder mit Tabellen, korrekt zu verarbeiten. Die vorliegenden Herbarien stellen eine komplexe Umgebung für die verschiedenen Texte (Druck- und Handschriften) dar, außerdem sind zusätzliche Objekte vorhanden wie Stempel, Barcode, Maßstäbe, Farbtafeln, Tüten usw. Ziel dieser Untersuchung ist es, die aktuelle Software im Bereich der automatischen Erkennung von Text zu sichten und auf Tauglichkeit zu testen. Die vorliegende Untersuchung prüft den möglichen Einsatz kommerzieller Software im Projekt. Dabei werden zwei Kategorien unterschieden: OCR-Software und Barcodesoftware. Von der ersten Kategorie gibt es eine Vielzahl käuflicher Programme auf dem Markt sowie auch einige kostenlose Freewareprogramme. Die Qualität ist jedoch sehr unterschiedlich, insbesondere fallen die Freewareprogramme stark ab. Es kristallisieren sich vier hochqualitative Programme heraus, die genau untersucht werden. Von diesen eignen sich einige für das Projekt, wobei Omnipage Ultimate der Vorzug gegeben wird.
Alle kommerziellen Programme haben eine übersichtliche Bedienoberfläche. FineReader, Omni-Page und TextBridge bieten die Möglichkeit der Nachbearbeitung der Erkennung in einem Texteditor. ReadIris bietet diese Möglichkeit nicht. Bei der Stapelverarbeitung werden mehrere Bilder dateiweise eingelesen, erkannt und mit Bezug auf den ursprünglichen Dateinamen gespeichert. FineReader bietet ebenso wie OmniPage die Möglichkeit zur Stapelverarbeitung. ReadIris bietet auch die Möglichkeit der Stapelbearbeitung, allerdings werden die Erkennungsergebnisse der eingelesenen Dateien in einer Datei zusammengefasst. Mit TextBridge ist eine Stapelverarbeitung nicht möglich. OmniPage Ultimate bietet ebenfalls die Möglichkeit des Batchbetriebs. Hierbei können Arbeitsaufträge an das Programm erteilt werden, welche dann automatisch abgearbeitet werden. Es können auch alle Bilder in einem überwachten Ordner automatisch abgearbeitet werden.
Entwicklungsumgebungen (Software Development Kits) sind sowohl bei OmniPage als auch bei FineReader erhältlich. Somit lässt sich die Erkennungsmethode dieser Programme in selbst entwickelte Software einbinden. Die Kosten der SDK's sind allerdings erheblich, so kostet z.B. die Omnipage SDK 5000 Euro.
Einleseformat
FineReader kann die vorliegenden Original-Bilder im TIF-Dateiformat problemlos einlesen. OmniPage, ReadIris und TextBridge sind nicht in der Lage, Bildgrößen von ca. 10.300 x 6.400 Pixel (Dateigröße ca. 200 Mbyte) zu verarbeiten. Deswegen werden diese Dateien auf ein Viertel der Bildgröße ins BMP-Format umgerechnet. Die Bildbreite und Bildhöhe werden halbiert, sodass sich die Dateigröße auf ungefähr 50 MByte reduziert. Die Auflösung wird von ca. 600 DPI auf ca. 300 DPI reduziert. Bei dieser Dateikonvertierung gehen natürlich Bildinformationen verloren. Allerdings ist die Auflösung von 300 DPI für jede OCR ausreichend gut. Mit diesen reduzierten Bilddateien werden alle Programme für den Ergebnisvergleich konfrontiert.
Omnipage Ultimate
OmniPage® – Version Ultimate
Benutzerfreundlichkeit
Kurzanleitungen für die wichtigsten Schritte mit OmniPage
OmniPage Launchpad
Bilderfassung – Scanner und Multifunktionsgeräte
Unterstützte Scanner-Treiber WIA/TWAIN/ISIS WIA/TWAIN/ISIS
Automatischer Empfang von Bildern “Scannen-in-Email”-Funktion
OmniPage-Arbeitsprozesse über Scantasten am Gerät abrufbar
Bilderfassung – Digitalkameras, Smartphones und Tablets
3DC-Digitalkamera-Technologie Hervorragend
25 % höhere Genauigkeit
Automatische Erkennung von Digitalfotos
Automatischer Empfang von Bildern “Scannen-in-Email”-Funktion
Automatischer Empfang von Scans aus Cloud-Speicherdiensten Evernote, Dropbox, Box,
Microsoft Live SkyDrive,Google Drive und mehr
Evernote, Dropbox, Box,
Bilderfassung – Vernetzte Multifunktionsdrucker (MFP)
Unterstützt Windows 2008 und 2012 Server Neu: DocuDirect
Verbessert: automatischer Neustart und Wiederherstellung fehlgeschlagener Aufträge Neu: DocuDirect
64-Bit-Unterstützung für eine verbesserte Speichernutzung Neu: DocuDirect
Automatischer Empfang von Bildern “Scannen-in-Email”-Funktion Batch Manager Neu: DocuDirect
Automatischer Empfang von Scans aus vernetzten MFPs über Scannen in Ordner Neu: DocuDirect
Konvertierte Ausgabe – Reader, Smartphones und Tablets (Unterstützung variiert je nach Modell)
Assistent für Textausgabe per E-Mail auf Kindle-Reader
Normales PDF, ePub, RTF, HTML
Dokumentenmanagement (PaperPort erforderlich)
PaperPort mit PDF Viewer Plus kostenlos enthalten (129 € Warenwert) PaperPort Professional 14
PDF Create mit PDF Create-Assistent kostenlos enthalten (49 € Warenwert) PDF Create 8
Anpassbare Dialogfelder für das Öffnen in PaperPort-Ordnern
Anpassbare Dialogfelder für das Speichern in PaperPort-Ordnern
Öffnen und Anzeigen in PaperPort
Erkennungsgenauigkeit
Erkennung von Zeichenattributen/Schriftartzuordnung
Bessere Erkennungsgenauigkeit von in Fachwörterbüchern für Recht/Medizin/Finanzen enthaltenen Wörtern
IntelliTrain™ Prüffunktion lernt aus vorgenommenen Korrekturen
Layoutgenauigkeit – Formatierung
Verbesserte Fließseitenausgabe – einfachere Bearbeitung durch Verbindung von
Textspalten mit Verbesserung
Abgleichtechnologie PDF Overlay Matching für e textbasierte PDF-Konvertierung
TruePageTM-Ausgabe
ExactWord-Ausgabe für verbesserte Nachbearbeitung
Linienerkennung
Verbesserte Tabellenkonvertierung mit Verbesserung
Bessere Verarbeitung ähnlicher Seiten (Wiedererkennung von Layoutstrukturen)
Erkennung und Beibehaltung von Farbe
Beibehaltung von Kopf- und Fußzeilen
Erkennung von Überschriften/großen Schriften
Verarbeitung von Rechtsdokumenten (mit Zeilennummerierung)
Erkennung von vertikalem Text
Erkennung chinesischer, japanischer und koreanischer Schriftzeichen mit verbesserter
Genauigkeit für Japanisch
Automatische Erkennung von asiatischen Zeichen in westeuropäischen Texten
Dokumenteingabe
Bitmap (*.bmp), DCX (*.dcx), GIF (*.gif), JB2 (*.jbg), JP2 (*.jp2), JPEG (*.jpg), MAX (*.max),
PCX (*.pcx), PDF (*.pdf), PNG (*.png), TIFF (*.tif), XIFF (TIFF FX) (*.xif), XPS (*.xps)
Bildverarbeitung
Automatische Erkennung von Digitalfotos
Automatische Seitenausrichtung
Begradigen
Beibehaltung der Originalauflösung
Vordefinierte Bearbeitungsvorlagen (Profil)
Bereinigen/Normal
Bereinigen/Rasterbild
Automatisches Abschneiden
Entfernen von Lochstellen
Ränder bereinigen
Bessere Erkennung zu entfernender Leerseiten
SET™-Werkzeuge (Scanner Enhancement Technology)
Helligkeit und Kontrast
Farbton/Sättigung/Helligkeit
Beschneiden
Drehen
OCR-Helligkeit
Farbe ausschließen
Anpassbare Auflösung
Ausfüllen
Begradigen
3D-Begradigung (Digitalkamerabilder)
Anpassbares Bereinigen/Normal
Anpassbares Bereinigen/Rasterbild
Anpassbares Bereinigen/helle und dunkle Flecken
Anpassbares Bereinigen/Bereinigung umkehren
Automatisches Abschneiden
Entfernen von Lochstellen
Ränder bereinigen
Whiteboard-Foto-Verbesserung
Formularkonvertierung und -verarbeitung
Konvertierung von Papier- oder Bilddatei-Formularen
Werkzeuge für Formularelemente
Datenerfassung aus PDF- oder Papierformularen
PDF-Arbeitsprozesse und Ausgabe
eDiscovery-Assistent für durchsuchbares PDF erzeugt durchsuchbare originaltextgetreue
Dateien
Intelligenter Arbeitsprozess für durchsuchbares PDF in DocuDirect
PDF-Formate – Bild, durchsuchbares Bild, normal und bearbeitet
PDF/A Verbessert: PDF/A-2b, -2u
Linearisiertes PDF
Automatisches Formatieren von Kopf- und Fußzeilen
MRC für maximale Dateikomprimierung gescannter Dokumente
Beibehaltung von Anmerkungen (bei Einsatz von eDiscovery-Assistent)
Erzeugen und Übertragen von Hyperlinks
Lesezeichen auf Miniaturansichten
Lesezeichen durch Suchen und Markieren
Lesezeichen durch Arbeitsprozesse für Textmarkierung
Anhängen von PDF-Inhalt an vorhandene PDF-Dateien
PDF-Dateien mit Digitalsignatur
Passwortgeschütztes PDF
Verschlüsselte PDF-Dateien 256-Bit-Verschlüsselung
PDF-Dateien mit Tags
(Text)ausgabe
Microsoft Word (.rtf)
Microsoft® Excel (.xls)
Microsoft® WordML (.xml)
Microsoft® Word 2007/2010/2013 (.docx)
Microsoft® Excel 2007/2010/2013 (.xlsx)
Microsoft® PowerPoint 2007/2010/2013 (.pptx)
XPS – Bild, durchsuchbares Bild und normal
Text, Corel® WordPerfect® (.wpd), Ausfüllbare Formulare – WordML, InfoPath® und PDF, HTML, XML
Audiodateiausgabe – Text in Sprache Verbessert: natürlich klingende Stimme und MP3-Ausgabe
Daten aus Formularen (.csv)
Dokumentenweiterleitung und -ausgabe
Batch Manager zur Verwaltung und Überwachung von Aufgaben Neu: DocuDirect
Sofortige Stapelverarbeitung mit neuen oder vorhandenen Arbeitsprozessen Neu: DocuDirect
Stapelverarbeitung im Hintergrund ohne Eingabeaufforderung Neu: DocuDirect
Stapelverarbeitung in Cloud-Speichern (Nuance Cloud Connector, Evernote® und Dropbox) Neu: DocuDirect
Stapelverarbeitung eingehender E-Mail-Anhänge Neu: DocuDirect
Stapelverarbeitung für Textmarkierung (Schwärzen, Hervorheben, Durchstreichen) Neu: DocuDirect
Geplante Stapelverarbeitung mit neuen oder vorhandenen Arbeitsprozessen Neu: DocuDirect
Stapelverarbeitung von Dateien bei Eingang in überwachtem Ordner Neu: DocuDirect
Stapelverarbeitung von Barcode-Aufträgen bei Eingang in überwachtem Ordner Neu: DocuDirect
Zugriff (lokal oder Netzwerk) auf exportierte Arbeitsprozesse Neu: DocuDirect
E-Mail-Benachrichtigung zu abgeschlossenen Batch-Manager-Aufgaben Neu: DocuDirect
Benutzeroberflächen und Funktionsfenster
Launchpad
Klassische Ansicht für OmniPage-Kenner
Schnellkonvertierungsansicht – ein Fenster mit den wichtigsten Funktionen
Flexible Ansicht – mehrere Fenster in Registerkartenansicht
Verschieb- und verankerbare Funktionsfenster
Speicherbare benutzerdefinierte Ansichten
Texteditor zur Bearbeitung von erkanntem Text
Ladetool für schnelles Öffnen von Dateien
Dokumentmanager zum Anzeigen von Verarbeitungsstatistiken
Kontinuierliche Überwachung mit Arbeitsprozess-Status
Erweiterte OCR-Tools
Arbeitsprozess-Assistent und Manager
Bereichsvorlagen
Anwenderwörterbücher
Trainingsdateien
Benutzerdefinierte Speichereinstellungen (Ausgabeformatprofile)
Amazon® Kindle®-Assistent
Archivierungs-Assistent (Arbeitsprozesse mit Barcode-Deckblatt)
Dokumentsteuerung
Zügige manuelle Bereichseinteilung
Auswählbarer Bildeditor
Auswählbare Bildauflösung
Bereichseinteilung während Bearbeitung
Bereichseinteilung bei vertikalem Text
Prüfung und Training
Korrektur mit Kontext
Training einzelner Zeichen
Dynamische Prüfung
Korrekturvorschläge
(mit Tastaturkürzeln)
Windows-Integration
Anpassbare Arbeitsprozesse im Kontextmenü von Windows Explorer
Assistent für Sofortkonvertierung im Kontextmenü von Windows Explorer
Arbeitsprozesse in Sprungliste in Windows 7 und 8 erstellen
Erweiterte Produktivitätsfunktionen
Schnelle OCR-Engines
Multi-Threading
Parallele Multi-Core-Verarbeitung (Intel und AMD)
Parallele Mehrdokumenten-Stapelverarbeitung bei Multi-Core-Prozessoren
Konvertierung zwischen Dokumenten (Text)
Automatische Sprachenerkennung
Hinzufügen und Übertragen von Hyperlinks
Gleichzeitiges Öffnen mehrerer Dokumente mit Parallelverarbeitung
Gleichzeitiges Speichern von Dateien
Direct OCR in Microsoft Office Verbessert: Office2013-Unterstützung
Automatisches Schwärzen, Hervorheben und Durchstreichen über Stichwörter
Import und Export von Arbeitsprozessen
Drucken und Speichern von Arbeitsprozess „Barcodeseiten“
Nuance Cloud Connector, Nuance Cloud Connector mit Windows-Netzwerklaufwerk
AT &T Synaptic Storage, Caringo CAStor, EMC Atmos Online, Amazon S, Google Text & Tabellen,
Nirvanix, Mezeo, Windows/Azure, OpenStack, Peer1 CloudOne, Rackspace CloudFiles,
WebDav, Dateiserver , FTP ,
OmniPage-Konnektoren
Evernote, Dropbox
Integration mit SharePoint 2003 / 2007 / 2013
Integration mit Open Text eDOCS 5.3
Integration mit Autonomy-Interwoven iManage Worksite 8.2 / 8.5 / 9.0
ODMA
FTP
Tesseract 3
Tesseract ist eine freie Software zur Texterkennung. Es ist ein reines Zeichenerkennungsprogramm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet.
Es wird in der Programmiersprache C++ entwickelt.
Für eine Vielzahl von Sprachen sind bereits Texterkennungsdaten in Zusatzmodulen vorhanden. Mit einem entsprechenden Modul ist teilweise auch die Erkennung deutscher Fraktur-Schrift möglich. Ursprünglich wurde die Software zwischen 1985 und 1995 von Hewlett-Packard entwickelt. Aus einem Test der University of Nevada, Las Vegas (UNLV) ging sie 1995 als einer der drei präzisesten Testkandidaten hervor. Nach dem Ausstieg von HP aus dem OCR-Markt lag die Entwicklung weitgehend brach, bis der Code 2005 an das Information Science Research Institute der UNLV übergeben wurde. Hier wurde festgestellt, dass der ehemalige Entwickler Ray Smith mittlerweile bei Google arbeitete. Nach einer Nachfrage bei Google, ob Interesse an dem Code bestünde, nahm sich Google des Quelltextes an, brachte ihn auf einen aktuellen Stand und gab ihn noch im gleichen Jahr unter der Apache-Lizenz über SourceForge frei.
Dies bedeutete in der Welt der freien Software einen großen Qualitätssprung im Bereich der Texterkennung. Das Projekt migrierte von SourceForge auf Googles eigene Software-Entwickler-Plattform Google Code, wo es unter Betreuung von Google weiterentwickelt wird.
Seit 2006 wird das Programm als Grundlage von Google Bücher weiterentwickelt. Seit Version 3.0 vom September 2010 können Ergebnisse direkt in das hOCR-Format ausgegeben werden und es wurde ein neues Modul zur Analyse der Seitengestaltung eingeführt.
ABBYY FineReader
ABBYY FineReader® 12 Professional ist eine Texterkennungssoftware (OCR), die eine exakte Umwandlung von Scans, Papier- und Bilddokumenten in editierbare Formate, wie Microsoft Office, und durchsuchbare PDF-Dateien ermöglicht. Auf diese Weise können Sie den Inhalt der Dokumente wiederverwenden, effizienter archivieren und schneller wiederfinden. FineReader macht das Abtippen von Dokumenten überflüssig, wichtige Informationen stehen sofort zur Verfügung. Das Programm ermöglicht einen schnellen Zugriff auf den Inhalt des gesamten Dokuments und unterstützt 190 Erkennungssprachen in jeder beliebigen Kombination
Systemanforderungen
• Microsoft® Windows® 8.1/8/7/Vista/XP, Microsoft Windows Server® 2012/2012
R2/2008/2008 R2/2003. Für die Arbeit mit lokalisierten Benutzeroberflächen ist die Unterstützung der entsprechenden Sprache erforderlich.
• Prozessor mit 1 GHz oder mehr. 1024 MB RAM; in einem Mehrprozessorsystem werden zusätzlich 512 MB RAM für jeden weiteren Prozessorkern benötigt.
• 850 MB Festplattenspeicher für die Programminstallation und 850 MB freier Festplattenspeicher für eine optimale Programmausführung.
• TWAIN- oder WIA-kompatible Scanner, Multifunktions-Peripheriegeräte (MFPs) oder All-in-one-Geräte.
• Internetverbindung für die Produktaktivierung. Für die Benutzung des Internets können Gebühren anfallen.
Speicherformate für Dokumente
DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, PDF/A, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2
Speicherformate für Bilder
BMP, TIFF, PCX, DCX, JPEG, JPEG 2000, JBIG 2, PNG
Eingabeformate
PDF, BMP, PCX, DCX, JPEG, JPEG 2000, JBIG 2, PNG, TIFF, XPS (Microsoft .NET Framework 3.0 oder 3.5 erforderlich), DjVu, GIF
Omnipage 18
Herausragende OCR-Genauigkeit
Leistungsfähigere OCR-Engines: herausragende Erkennungsgenauigkeit – ideal für die Archivierung wichtiger Dokumente.
Originalgetreues Layout
Originalgetreue Konvertierung und einfachste Bearbeitung der Dokumente – einschließlich aller Spalten, Tabellen, Nummerierungen und Grafiken.
Ausgezeichnete Benutzerfreundlichkeit
Dokumente aus und in Cloud-Diensten konvertieren
Sie können Dokumente direkt aus Windows Live SkyDrive, GoogleDocs, Evernote, Dropbox und vielen anderen Diensten abrufen und konvertieren. Mit Nuance Cloud Connector, unterstützt von Gladinet.
PDF-Inhalte erschließen
Umwandlung nahezu jeder PDF-Datei in ein gängiges Programmformat zur weiteren Bearbeitung. Sie können auch direkt in entsprechende Formate scannen und sie für Desktopsuchprogramme durchsuchbar machen.
Funktioniert mit fast jedem Scanner
Wenn Ihr Gerät scannen kann, funktioniert es auch mit OmniPage. Mobile Scanner, Desktop-Scanner, All-in-One- und Multifunktionsgeräte arbeiten produktiver und mit höherer Genauigkeit, wenn Sie OmniPage verwenden.
Text mit der Digitalkamera oder dem iPhone® erfassen. Verwandeln Sie mit der erkennungsgenauen 3D-Korrekturtechnologie von Nuance Bilddateien in Text.
An Amazon® Kindle® senden
Scannen Sie ein Dokument, lassen Sie es automatisch in ein lesbares Format konvertieren und senden Sie es in einem einfachen Arbeitsschritt an den elektronischen Kindle®-Reader.
Unterstützt alle gängigen PC-Anwendungen
Unterstützung vieler Ausgabeformate: PDF, HTML, Corel® WordPerfect®, Microsoft® Word, Excel®, PowerPoint® (pptx) u. v. m. Insbesondere eignet sich die XML-Datei zur Weiterverarbeitung in selbstentwickelter Software, da neben den erkannten Textfragmenten auch Ortskoordinaten angegeben werden.
Erkennung von über 120 Sprachen
Dokumente aus aller Welt konvertieren, bearbeiten und archivieren: OmniPage erkennt auf dem lateinischen, griechischen und kyrillischen Alphabet basierende Sprachen sowie Chinesisch, Japanisch und Koreanisch.
Systemanforderungen
•Windows 8 32- oder 64-Bit-Edition, Windows 7 32- oder 64-Bit-Edition, Windows Vista 32- oder 64-Bit-Edition mit Service Pack 2, Windows XP 32-Bit-Edition mit Service Pack 3.
•Computer mit einem Intel®-Pentium®-Prozessor 1 GHz bzw. gleichwertiger oder höherer Prozessor. Für noch bessere Leistung wird ein Multi-Core-Prozessor empfohlen.
•512 MB Arbeitsspeicher, für noch bessere Leistung 1 GB empfohlen.
•250 MB freier Festplattenspeicher für Anwendungs- und Beispielbilddateien, plus 100 MB temporärer Festplattenspeicher während der Installation. Weitere 230 MB für die RealSpeak™ Solo-Sprachmodule. 30 MB für den Nuance Cloud Connector.
•Farbmonitor mit 1024 x 768 Pixel Auflösung und 16 Bit Farbtiefe oder höher.
•CD-ROM-Laufwerk für die Installation.
•WIA-, TWAIN- oder ISIS-Scannertreiber.
•Digitalkamera mit Autofokus und mindestens 2 Megapixel Auflösung, wenn Text erfasst werden soll.
•Für die Online-Produktaktivierung und -registrierung, die automatische Aktualisierung und Nuance Cloud Connectors muss eine Verbindung zum Internet bestehen.
Ein Vergleich mit dem Herbis-System des „Museum of Natural History“ New Haven und New York Botanical Garden zeigt, dass die Erkennungsergebnisse von OmniPage und Herbis vergleichbar sind.
Readiris™ Pro 14 für Windows
Funktionen der Software :
•Wandelt Papierdokumente in bearbeitbaren, digitalen Text um (Word, Excel, OpenOffice usw.) •Erstellen Sie dank iHQC™ PDF-Dateien, die bis zu 5-mal kleiner sind als die ursprünglichen Bilder •Globale OCR-Lösung – 137 erkannte Sprachen (einschl. asiatische Sprachen und Arabisch!) •Neues OCR-Modul für schnellere Verarbeitung und höhere Genauigkeit •Optimierte Unterstützung von Multi-Core-CPUs und besseres Multitasking •Neue benutzerfreundliche Oberfläche (ähnlich Office 2010) •Leistungsstarke Tabellenerkennung – erkannte Tabelle gleicht dem Original! •Ausgabekonnektoren für die Cloud : Hochladen zu Dropbox, Box.net, Google Docs™ und Evernote™ •Sprachen der Benutzeroberfläche : Arabisch, Brasilianisches Portugiesisch, Bulgarisch, Chinesisch (vereinfacht), Chinesisch (traditionell),Deutsch, Katalanisch, Englisch, Finnisch, Französisch, Griechisch, Hebräisch, Italienisch, Japanisch, Koreanisch,Niederländisch, Norwegisch, Polnisch, Portugiesisch (Brasilien) Rumänisch, Russisch, Tschechisch,Türkisch, Ukrainisch und Ungarisch. •Sprachen auf der Verpackung : Arabisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Portugiesisch, Russisch, Spanisch •Preis: 99 Euro
Funktionen der Software im Detail :
•Benutzerfreundliche Lösung für die Texterkennung & Archivierung von Dokumenten
•Revolutionäre High-Quality Compression Technology (iHQC™) Erstellen von PDF- und XPS-Farbdateien, die bis zu 5-mal kleiner sind als die ursprüngliche Bildgröße.
•Erweiterte Unterstützung portabler Dateiformate
Wandelt Dokumente in durchsuchbare PDF- und XPS-Dateien um. Konvertieren von beliebigen PDF-Dateien in bearbeitbare Text.
•Mehrsprachige Lösung
Von dem OCR-Modul werden 137 Sprachen erkannt (einschließlich asiatische Sprachen, Russisch und Arabisch) und die Benutzeroberfläche ist in 28 Sprachen lokalisiert.
•Ausgabekonnektoren für die Cloud Einfache Integration mit Ihren bevorzugten Cloud-Diensten. Hochladen zu Dropbox, Box.net, Google Docs™ und Evernote™.
•Erweiterte Tabellenerkennung Unterstützung des Formats Spreadsheet ML von Microsoft® für eine perfekte Reproduktion von Tabellen.
•Scannen für E-Mail
TextBridge Pro 11
TextBridge Pro 11 konvertiert gedruckte Seiten in ein digitales Windows-Dokument Ihrer Wahl. Erstklassige Erkennungsgenauigkeit und Formatbeibehaltung machen Abtipparbeiten überflüssig! Die neue Benutzeroberfläche und die neuen OCR-Engines garantieren eine schnelle und einfache Durchführung aller OCR-Aufgaben.
Merkmale
Gesteigerte Genauigkeit durch verbesserte Erkennungsengines; spart Zeit bei der Prüfung und erhöht die Produktivität der Beteiligten. •Neues Seitenformatierungswerkzeug Eine optimierte Formatbeibehaltung, speziell bei Seiten mit kombiniertem Text- und Grafikinhalt,ermöglicht eine originalgetreue OCR-Ausgabe. •Erkennung von Arbeitsblättern und Tabellen mit oder ohne Gitternetzlinien Die Ausgabe in Excel oder ein anderes Tabellenkalkulationsprogramm wird noch einfacher und genauer. Tabellen können in ein beliebiges Ausgabeformat übernommen werden. •Verbesserte Farbtexterkennung Farbtext und Hintergrundfarben werden jetzt erkannt und im Digitaldokument originalgetreu beibehalten. •Direct OCR Wie bisher kann mit der Funktion Direct OCR Text direkt in Word oder andere Anwendungen gezogen werden. Tabellen und Grafiken werden jetzt allerdings genau wie bei der Bearbeitung in Omnipage Pro beibehalten. •Neuer Texteditor •Neue Schaltflächen
Herstellung und Vertrieb dieser OCR-Software wurden jetzt von Nuance eingestellt. Als Nachfolger wird die marktführende OCR-Software OmniPage empfohlen, die eine Weiterentwicklung der OCR-Engine von TextBridge enthält.
Ergebnisse
Alle kommerziellen OCR-Programme bewegen sich im Preissegment zwischen 80 Euro und 100 Euro.
OmniPage Ultimate bearbeitet 465 Bilder in einer Zeit unter einer Stunde. Das ist deutlich schneller als bei den anderen Programmen. Auch die Erkennungsgenauigkeit ist etwas besser als bei der Konkurrenz und deutlich besser als bei Freewareprogrammen. Es muss noch untersucht werden, ob durch Anlernen von Zeichensätzen die Erkennungsrate von Tesseract 3 verbessert werden kann. OmniPage Ultimate bietet die Möglichkeit des Batchbetriebs, wobei Bilder automatisch abgearbeitet werden. Insbesondere können auch alle Bilder in einem überwachten Ordner automatisch abgearbeitet werden. Das ist der Hauptgrund warum OmniPage Ultimate der Vorzug gegeben wird.
Barcode-Software
Allgemeines Format des BGBM Barcodes
In der ersten Zeile steht in Klarschrift Mus. Bot. Berol., damit die Bögen nicht mehr damit gestempelt werden müssen. Eine Einbeziehung des Akzessionsjahrs in das Barcodeetikett (erste Zeile) würde auch den Akzessionsstempel vermeiden, ist aller-dings nur dann möglich, wenn die Etiketten +/- gleichzeitig mit der Benutzung erstellt werden. Die zweite Zeile enthält den Barcode selbst, der in der 3. Zeile in Klarschrift dargestellt wird (ggf. unter Formatierung, z.B. mit Bindestrichen bei der Akzessions-nummer des Botanischen Gartens).
Für den BGBM werden Codes mit einer Gesamtlänge von 12 Zeichen, für Gartenakzessionen und beim Herbarium Willdenow mit 16 Zeichen festgelegt. Der Code beginnt grundsätzlich mit dem Buchstaben B gefolgt von einem Leerzeichen. Um größtmögliche Konsistenz mit vorhandenen Veröffentlichungen und Datensammlungen zu erreichen, soll die bestehende Nummerierung erhalten bleiben, was das Vor-anstellen eines die Teilsammlung kennzeichnenden Codes notwendig macht. Bei den 12-Zeichen Codes folgt daher eine zweistellige Zahl, die einer Teil- oder Sondersammlung entspricht, gefolgt von einem Leerzeichen und einer 7-stelligen Zeichenfolge, die normalerweise nur aus Ziffern besteht.
Bei Dateinamen werden Leerzeichen durch Unterstriche ersetzt, außerdem steht, wie gewöhnlich, die Dateinamenserweiterung nach einem Punkt (zum Beispiel ".jpg" für JPEG Dateien).
Codierungsformate in Teilsammlungen
Phanerogamenherbar B1##########
Holzsammlung B17#######
Frucht- und Samen B18#######
Samenbank B19#######
Farnherbar B2########22
Moosherbar B3######/8##
Algenherbar B4########
Wassermischproben B5########
Flechtenherbar B6########
Pilzherbar B7########
Nasspräparate B81#######
Schaumuseum B89#######
Botanischer Garten BBG############
Willdenow-Herbar B-W99999x-887
Gewebeproben (trocken) BGT#######
QS-Barcode
Die QS-Barcode Erkennung Version: 4.0 (Barcode Erkennung aus Bild-Dateien) ist eine leistungsfähige Software zur schnellen, automatischen Erkennung von ein- und zweidimensionalen (2D-) Barcodes aus digitalisierten Bildern, die mit Dokumentenscannern, durch Fax und mit Kamerasystemen erzeugt werden. Barcodes sind sehr viel schneller und fehlerfreier zu orten und zu erkennen als Schrift. Für die Barcode-Erkennung werden keine speziellen Barcode-Scanner benötigt. Die QS-Barcode SDK Erkennungssoftware interpretiert das Bild und sucht Barcodes und gibt die Barcode-Inhalte zurück. Es werden zahlreiche Bilddatei-Formate unterstützt. Mit der Software kann die Erkennung der Barcodes in eigene Programme integriert werden. Es werden die üblichen linearen Barcodetypen (Strichcodes) erkannt: � Code 39 / erweitert � Codabar � Code 93 / Code 32 � Code 2/5 (interleaved, Industrie, etc) � EAN 8, EAN 13, UPC A / UPC E Über Parameter wie Größe, Drehung, Anzahl, Länge des Inhalts, Prüfsummen, Größe, Ruhezone, etc. wird die Erkennung gesteuert. Bei sehr schlecht gedruckten Barcodes kann "Verdacht" gemeldet werden. Es können beliebig viele Barcodes pro Bild erkannt werden.
Die Software QS-Barcode SDK wird als Entwickler-Library (C-Lib, DLL und OCX) für Windows Betriebssysteme geliefert. Die DLLS und LIBs liegen jeweils in einer 32-Bit und 64-Bit Version vor. Kunden sind Entwickler, die die Barcodeerkennung in eigene Programme einbinden wollen. Die Integration der Funktion ist sehr einfach und mit geringem Aufwand zu realisieren. Es werden einige Parameter gesetzt (Typ, Lage des Barcodes), das Bild wird übergeben und die Erkennungsfunktion aufgerufen. In einer Ergebnisstruktur werden die erkannten Ergebnisse und weitere Informationen zu den Barcodes zurückgegeben. Viele Beispiel-Programme (unter anderem C/C++, VisualBasic, Java, Delphi, C# und .NET) demonstrieren die Einbindung in unterschiedlichste Umgebungen. Mit einem Freeware Testprogramm bcTester kann die Barcode-Lesung geprüft werden.
Spire.BarCode
Spire.BarCode for .NET is a professional and reliable barcode generation and recognition component. It enables developers to quickly and easily add barcode generation and recognition functionality to their Microsoft .NET applications (ASP.NET, WinForms and Web Service) and it supports in C#, VB.NET.
Supports rich Barcode types, more than 38 different barcodes. Aztec Barcode Code bar Barcode Code 1 of 1 Barcode Standard 2 of 5 Barcode Code 3 of 9 Barcode Extended Code 3 of 9 Barcode Code 9 of 3 Barcode Extended Code 9 of 3 Barcode Code 128 Barcode EAN-8 Barcode EAN-13 Barcode EAN-128 Barcode EAN-14 Barcode SCC14 Barcode SSCC18 Barcode ITF14 Barcode ITF-6 Barcode UPCA Barcode UPCE Barcode Postnet Barcode Planet Barcode MSI Barcode 2D Barcode DataMatrix QR Code Barcode Pdf417 Barcode Pdf417 Macro Barcode RSS14 Barcode RSS-14 Truncated Barcode RSS Limited Barcode RSS Expanded Barcode USPS OneCode Barcode Swiss Post Parcel Barcode PZN Barcode OPC(Optical Product Code) Barcode Deutschen Post Barcode Deutsche Post Leitcode Barcode Royal Mail 4-state Customer Code Barcode Singapore Post Barcode
DTK Barcode Reader SDK
Barcode recognition SDK is a highly accurate and powerful developer library which recognizes 1-D and 2-D barcodes from digital images and bitmaps. Using this SDK you can integrate barcode recognition functionality to your document processing systems, Windows applications, embedded systems (Windows CE, Pocket PC, Smartphone) and Web services. The following image formats are supported: BMP, TIF, JPG, PNG and multipage TIF and PDF (Portable Document Format). The unique and fast barcode recognition algorithm searches for barcodes in any position and orientation from your images. Barcode Reader returns the number of barcodes found and for each barcode: ##Barcode string
- Barcode type
- Barcode orientation
- Barcode location (start/stop bars coordinates)
- Page number (for mulipage TIFF)
Supported barcode types
1-D barcodes:
- Code 11
- Code 39
- Code 39 Extended
- Code 93
- Code 128
- UCC 128
- 2of5 Interleaved
- Codabar
- Patch Code
- Pharmacode
- EAN 8
- EAN 13
- UPC A
- UPC E
- Add 2
- Add 5
- GS1 Databar/RSS-14
- GS1 Databar/RSS Limited
- GS1 Databar/RSS Expanded
- GS1 Databar/RSS Expanded Stacked
- Some Postal and 2D Barcodes
BarcodeLib.NET
•Support Multiple 1D and 2D Barcode Symbologies •High Recognition Rate •Fast Reading Speed •Recognise multiple barcode images in one image file •Support multi-page TIFF barcode images reading in .NET applications •Free to download trial, easy to install, and Simple to use it •Supported source image types: GIF, BMP, JPEG, TIFF, PNG •Written 100% in C# 2005, providing free Visual C#, VB.NET code for barcode recognition
ClearImage Barcode SDK
ClearImage Barcode SDK provides an API to integrate with the application to read and decode most 1D barcodes (Code39, Code128, Intelligent Mail, and more) and 2D barcodes (PDF417, DataMatrix, and QR)
Download Barcode SDK at no charge to see how easy it is to integrate, and to test it with your images on your own servers.
Use our Online Barcode Reader to quickly submit your images, and have them read by the ClearImage barcode recognition engines. See the results in the browser, or get them by email.
Barcode Reading Features Support for all the most commonly used 1D and 2D barcodes. •Read 1D barcodes: Code39, Code128, Interleaved 2 of 5, UPC, EAN, and over 20 other widely used symbologies.•Read 2D barcodes: PDF417, DataMatrix, and QR.•Read postal barcodes: Postnet, Intelligent Mail, Royal Mail, 4-state, and more.•Recognize 2D and 1D barcodes on Driver's Licenses and ID Cards to extract the name, address, and other fields.•See our list of all ClearImage supported barcode types and details about each. Read barcodes of any quality, in any orientation on the most common document imaging formats. •Read barcodes in any orientation: Horizontal, Vertical, and Diagonal. Any number of barcodes on a page or image file. Works with black and white, grayscale, and color images.•Read poor quality and damaged barcodes on images that come from scanners, fax, cameras, and PDF generators.•Read multi-page TIFF, PDF, JPEG, PNG and other widely used image file formats. Support for virtually any language running on a Windows System through .Net and COM API. •C# and VB.Net development is supported through our .Net API. VB6, C++, Java, PHP, and other languages are supported through our COM (ActiveX) API.•Run your application on Windows XP, Vista, Windows7, Windows Server 2003, Windows Server 2008, and VMWare in 32 bit or 64 bit mode. The application can run in the foreground, as a Windows Service, or under a Web Server (IIS Web Site deployment with ASP, ASP.Net, PHP, or Java).High Accuracy & Reliability in Production Recognize and decode barcodes with the highest recognition rate in the industry. When processing documents in volume or large batches, every barcode failure incurs significant costs to you. Having processed millions of customer images with impaired barcodes, ClearImage algorithms have been continuously updated over 15 years to provide the highest recognition rate of 99.999% for your business process. Our software handles all types of barcode errors and damage, so we can assure your production success.
Robust, high speed processing of many document types with many barcode formats. Our barcode recognition engine processes documents in as low as 30 ms while still retaining stability and accuracy. We support all the most commonly used document types and barcode types.
Affordable per-server pricing for your automated system. ClearImage software is available for development at no charge. Inlite licenses are perpetual, do not limit your performance, do not require per click or per image charges, and do not require additional fees for unattended Windows Service or Web Server installations.
Highly available support from our development staff. Customer satisfaction is our top priority, so we offer direct access to our developers rather than uninformed support staff. Rapid response of our support assures success during all phases of your project: development, testing, deployment and production, while our software assurance programs give you access to the latest software updates. Rapid Development and Deployment Try the demo included in our SDK on your most challenging barcodes before writing a line of code. The ClearImage Barcode SDK includes a demo application to evaluate and test your own images. Instantly confirm that ClearImage will read your barcodes.
Integrate ClearImage products into your application in less than a day. Using the concise ClearImage Barcode API, thorough documentation, and sample code, you will have your barcode-based application running in less than a day. The very intuitive API does not require you to specify obscure parameters, and is designed for software professionals without special imaging expertise. The SDK includes complete sample projects in C#, VB.NET, C++, Visual Basic 6 as well as code samples in Java, Delphi, PHP, and VBScript.
Ergebnisse
Datensatz 1 465 BGBM-Bilder. Die Originalbilder wurden in der Auflösung halbiert. Dateigröße ca. 50 MBytes
Datensatz 2 10500 Herbarbelege der Duke University . Dateigröße ca. 0,2-1 MByte
Die Software QS-DocumentAssembler wurde im Stapelbetrieb über Nacht auf 465 Originalherbarproben angewendet. Von den 465 Barcodes wurden 415 richtig erkannt. 35 Barcodes wurden nicht gefunden und 15 Barcodes wurden falsch gelesen. Die Erkennungsrate von weniger als 90 % ist natürlich nicht akzeptabel. In Gesprächen mit der Herstellerfirma wurde klar, dass vor der eigentlichen Barcodeerkennung eine Binarisierung durchgeführt wird. Deshalb wurde beschlossen, eigene Verfahren zur Bildvorverarbeitung zu programmieren.
In der Kategorie der Barcodesoftware fiel die Wahl zunächst auf QS-Barcode. Die anfängliche Erkennungsrate von 90% konnte durch eigene Verfahren zur Bildvorverarbeitung auf 100% gesteigert werden. Die Rechenzeiten sind jedoch extrem hoch (18 Stunden für 465 Proben)
Die Freie Softwarelösung Spire BarCode hat von den vorliegenden 465 Herbarbelege den Barcode fehlerfrei von 463 lesen können, die Erkennungsrate beträgt ca. 95,57%. Untereinbeziehung weiterer 10500 Herbarbelege, steigt die Erkennungsrate leicht auf 97,35%. Ein großes Problem ist aber die Arbeitszeit dieser Softwarelösung. Für die 465 Bilder des BGBM wird pro Bild etwa eine bis 1,5 Minuten benötigt, zum erkennen eines Barcodes. Bei den 10500 Herbarbelege der Duke University sinkt die Arbeitszeit zwar auf ca. 45 Sekunden aber die Belege bestehen größtenteils nur aus einem Label und einem Barcode-Aufkleber und haben eine deutlich geringere Auflösung.
Erkennungsrate Datensatz 1 | Erkennungsrate Datensatz 2 | Bearbeitungszeit Datensatz 1 | Bearbeitungszeit Datensatz 2 | ca. Preis SDK | ca. Preis Runtime | |
---|---|---|---|---|---|---|
QS-Barcode | 90% | --- | 18 Stunden | --- | 550€ | 168€ |
Spire BarCode | 95,57% | 97,35% | ca. 1 Tag | ca. 5 Tage | OpenSource | OpenSource |
DTK Barcode Reader | 99,78% | 99,73% | 7 Stunden | dummy | 390€ | 5incl. 4190€ Server |
BarcodeLib | 42,80% | 33,36% | 14,5 Stunden | ca. 2 Tage | 1599$ | incl. |
ClearImage SDK | 100 % | 99,9% | 4 Stunden | 17,5 Stunden | incl. ? | 637,5-1516€ |
Objekterkennung
Template matching
Template matching is a technique in digital image processing for finding small parts of an image which match a template image. It can be used in manufacturing as a part of quality control, a way to navigate a mobile robot, or as a way to detect edges in images. For templates without strong features, or for when the bulk of the template image constitutes the matching image, a template-based approach may be effective. As aforementioned, since template-based template matching may potentially require sampling of a large number of points, it is possible to reduce the number of sampling points by reducing the resolution of the search and template images by the same factor and performing the operation on the resultant downsized images (multiresolution, or pyramid, image processing), providing a search window of data points within the search image so that the template does not have to search every viable data point, or a combination of both.
SURF
SURF: Speeded Up Robust Features" is a performant scale- and rotation-invariant interest point detector and descriptor.
It approximates or even outperforms previously proposed schemes with respect to repeatability, distinctiveness, and robustness, yet can be computed and compared much faster.
This is achieved by relying on integral images for image convolutions building on the strengths of the leading existing detectors and descriptors (using a Hessian matrix-based measure for the detector, and a distribution-based descriptor) simplifying these methods to the essential.
This leads to a combination of novel detection, description, and matching steps.
Ergebnisse
Vergleich zwischen Template Matching und SURF
Der Vorteil des SURF Algorithmus ist, dass er skalierungs- und rotationsinvariant ist. So wird im Gegensatz zum Template Matching, wo evtl. vier Orientierungen geprüft werden müssen, nur ein Template gebraucht. Weil das Template Matching eine kürzere Bearbeitungszeit als SURF hat, sind beide Methoden von der Bearbeitungszeit her vergleichbar. Die Erkennungsqualität von SURF und Template Matching werden in der u.a. Tabelle verglichen. Sieben Gegenstände wurden in 465 Bildern geprüft und die Erkennungsrate wird in Prozent angezeigt. Mit Gegenstand 1.2 und 6 (Barcode, Lineal, langes Farbediagramm) sind die Erkennungsraten hoch und sehr ähnlich. Bei Gegenstand 3, enem Farbdiagramm mit niedrigem Kontrast versagt SURF. Bei Gegenstand 4, ein Stempel, ist Template Matching etwas besser. Der einzige Gegenstand, in dem SURF einen Vorteil gegenüber dem Template Matching hat, ist Nr. 5, eine lange Überschrift eines Aufklebers der manchmal geneigt ist. In den meisten Fällen ist die Fähigkeit des Findens von Gegenständen der beiden Verfahren vergleichbar. Das Resultat hängt von der Objekt-Klasse ab. Kontrastreiche Gegenstände liefern mit beiden Methoden eine ähnliche hohe Erkennungsrate. Wenn der Kontrast niedrig ist, ist Template Matching vorteilhaft.
Tabelle [[1]]
Die optimale Methode bei der Objekterkennung in Herbariumsbelegen hängt von der Objektklasse ab. Das bedeutet, wenn das Objekt immer die gleiche Größe und Ausrichtung hat, ist Template Matching die beste Methode. Wenn mehr als eine Orientierung möglich ist (z.B. 0°, 90°, 180°, 270°) bleibt die Methode am besten aber die Computerzeit steigt. Praktische Experimente zeigen, variiert der Winkel nur wenig (-6°<d<+6°) ist ein 3-Templatesatz mit -4°, 0°, +4° Orientierungswinkel geeignet. Wenn die Orientierung nur um ein paar Grad variiert (-3°<d<+3°) reicht ein Template aus, evtl. berechnet als Mittelwertbild aus Templates mit Orientierungswinkeln zwischen -3° und +3° . Wenn das Objekt nicht immer dieselbe Größe aber dieselbe Orientierung hat, ist das verbesserte Template Matching mit Templatetransformation auf die aktuelle Auflösung die beste Wahl. Das geht jedoch nur wenn die Auflösung bekannt ist, bzw. berechnet werden kann. Wenn Orientierung und Größe des Objekts beliebig ist, sollte SURF gewählt werden.
Erkennung handgeschriebener Ziffern
Die Herbarbelege enthalten handschriftlich notierte Jahreszahlen, Kennziffern und sonstige wichtige Zahlen. Diese stehen oftmals in Zusammenhang mit gedruckten Etiketten, die handschriftlich ausgefüllt wurden. Auf einem Teil der Herbarbelege befinden sich Aufkleber mit Filmnummern einer Mikroverfilmung. Diese Aufkleber enthalten einen gedruckten Teil und eine handschriftliche Nummer. Text und Position des gedruckten Teils können mittels OCR-Software bestimmt werden. Die Position der handgeschriebenen Ziffern können über die Position des gedruckten Teils ermittelt werden. Diese werden aus den Belegen ausgeschnitten und als Graubild weiter verarbeitet.
Separierung der Ziffern
Die erste Aufgabe ist die Trennung der kompletten Zahl in einzelne Ziffern. Meistens lassen sich die Ziffern durch einen vertikale Trennung gut separieren. Manchmal überlagern sich die Ziffern durch schräge oder enge Schreibweise. Durch eine Slope-Korrektur können die Ziffern senkrecht gestellt werden und sind sowohl besser trennbar als auch klassifizierbar. Für die Separierung wird zunächst aus dem Grauwertbild ein Binärbild erzeugt. Hierzu wird ein Schwellwert benutzt, z.B. der mittlere Grauwert. Bei den zum Teil vergilbten Vorlagen kann aber auch ein adaptives Schwellwertverfahren oft bessere Ergebnisse liefern. Oft sind neben den Ziffern auch noch vereinzelte weiße Pixel vorhanden. Um diese zu eliminieren werden im nächsten Schritt Blobs, die eine zu kleine Fläche besitzen, herausgefiltert. Die großen Blobs in der Reihenfolge von links stellen dann die einzelnen Ziffern dar.
Merkmalsextraktion
Ziel ist es nun, die handgeschriebene Zahl zu erkennen. Im folgenden wird die mögliche Merkmalsextraktion beschrieben.
Bild-Momente
In der digitalen Bildverarbeitung kommen geometrische Momente zur Gewinnung von Formmerkmalen zum Einsatz. Um Objekte zu beschreiben existieren 4 Arten von Momenten:
- Diskrete geometrische Momente
- Diskrete zentrale Momente
- Normierte zentrale Momente
- Hu Momente
Die diskreten geometrischen Momente, oder auch Spat-Momente genannt, sind durch eine mathematische Formel definiert. Die sogenannten Hu-Momente sind translations-, skalierungs- und rotationsinvariant. Aus den Momenten bis z.B. 4. Ordnung lassen sich die Merkmale zusammenstellen.
Sonden
Als Merkmale zur Erkennung handgeschriebener Ziffern kann man Fühler verwenden, die vom äußeren Rand soweit eindringen, bis sie auf die Ziffer stoßen. Hierbei wird an mehreren Stellen vom Rand bis zum ersten weißen Pixel gemessen. Verwendet werden hier 12 Sonden. Sonden 0-7 gehen im Uhrzeigersinn von oben jeweils senkrecht zur Bildkante ins Bild. Sonden 8-11 gehen im Uhrzeigersinn von oben rechts jeweils diagonal von den Bildecken aus ins Bild. Die Weglängen der Sonden werden nach einer Normierung als Merkmale benutzt. Die Sonden sind so ausgewählt, dass sie möglichst gut die 10 Ziffern unterscheiden können.
Fourier Transformation
Nach Anwendung der zweidimensionalen Fouriertransformation bietet sich an, alle Koeffizienten oder eine Untermenge als Merkmale für die Ziffern zu verwenden. Da die Fouriertransformation translationsinvariant ist, braucht die Lage der Ziffern vorher nicht normiert zu werden.
Projektionen
Eine einfache aber wirkungsvolle Methode um Merkmale aus den handgeschriebenen Ziffern zu extrahieren ist das Bestimmen der weißen Pixel in jeder Zeile und Spalte. Normiert man die Bilder auf eine Einheitsgröße von 16*16 Bildpunkte, so erhält man durch horizontale und vertikale Projektion jeweils 16 Zahlen. Die 16 Zahlen werden normiert, so dass die Summe 1 beträgt und können jetzt einem Klassifikator zugeführt werden.
neuronale Netze
Ein neuronales Netz ist die abstrakte Struktur eines Nervensystems oder ein Modell mit einer solchen Informationsarchitektur. In Wissenschaft und Technik werden neuronale Netze künstlich nachgebaut beziehungsweise simuliert. Ein vielschichtiges neuronales Netz repräsentiert Merkmale in verschiedenen Abstraktionsebenen. Die Verbindungen zwischen den Schichten können erregend oder hemmend sein und unterscheiden sich durch ihr synaptisches Gewicht. Die Grundlage neuronaler Netze ist fast gänzlich empirisch. Hinter dem tiefen Lernen steckt wenig tiefgründige Theorie. Zur Zeit kann lediglich durch Ausprobieren die Anzahl der Schichten, Anfangsgewichte usw. bestimmt werden.
Ergebnisse
Zur Ziffernerkennung wurde auch das freie Texterkennungsprogramm Tesseract getestet. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet. Durch Anlernen von handgeschriebenen Ziffern kann Tesseract in die Lage versetzt werden auch handgeschriebene Ziffern zu erkennen. Tesseract wurde mit Datenproben verschiedener Personen angelernt. Die Erkennungsrate wurde mit zwei verschiedenen Datensätzen geprüft. Der erste Datensatz stammt von schon bekannten Schreibern und der zweite von bisher unbekannten Schreibern. Die Gesamterkennungsgenauigkeit beträgt im ersten Fall 92.1% und im zweiten Fall 86.59%. Für den Einsatz im vorliegenden Forschungsprojekt sind die Erkennungsraten jedoch deutlich zu gering. Deshalb wird hier versucht mit eigenen Merkmalen bessere Ergebnisse zu erzielen. Die Merkmale Momente und Fourierkoeffizienten erweisen sich als schlecht bis mittelmäßig wie auch neuronale Netze. Gute Ergebnisse liefern Sonden und horizontale und vertikale Projektionen. Eine Kombination aus den letzten beiden ergibt eine hohe Trefferrate. Bei 2000 handgeschriebenen Ziffern kann sowohl mit einem nearest neighbor Klassifikator als auch mit der support vector machine eine Erkennungsrate von über 98% erreicht werden.
Handschrifterkennung
Die Handschriftenerkennung ist ein noch weitgehend ungelöstes Problem. Es gibt einige prototypartige Systeme, aber bei allen ist die Erkennungsrate noch bescheiden. Neben dem HMM (Hidden Markow Model) -System Esmeralda der Uni Dortmund, und dem DTW (Dynamic Time Warping)-System der Hochschule Hannover wurde auch das System tranScriptorium und die Transkribus Plattform der Uni Wien in Betracht gezogen. Hier ist die Möglichkeit der manuellen Nachbearbeitung gegeben und es wird außerdem an Verbesserungen der Webplattform gearbeitet. Deshalb wollen wir uns zunächst auf Transkribus konzentrieren auch wenn noch keine konkreten Erkennungsraten vorliegen.
Comparison of SALIX and PLIES - Plant Label Information Extraction System
The program SALIX -Semi-Automatic Label Information eXtraction System, by Daryl Lafferty, is an application for collecting plants dates. It’s a semi-automatic system. It works with another program ABBYY FineReader 5.0 Sprint. Coping the text from ABBYY and click “Paste from Clipboard”, the text will fill in the upper left window, and parts of the text are recognized and go to other field windows. In this case SALIX does a fairly good job of recognizing portions of the text. The pull down menus for family, genus, and specific epithet have numerous names in them that are correct. In this case the family, genus and epithet were guessed correctly. If this does not happen, one can use the pull down menus to find the right name. If the name is not in the menus, the operator should write by hand. If some windows should be filled but still blank, it will become the yellow or red blocks for warning. To correct the text in these fields, from the copy in the upper left window can be added before or after existing text with the right-clicking choosing. And exact text can be added to the vocabulary words. Additionally, some of the parameters of SALIX are allowed to change. The labels vary in quality, so OCR results will also vary. ABBYY and SALIX will be more useful when labels are rich. Finally, after several labels (20 or 30, typically) the data file is uploaded to the database. Obviously, this system should work with the ABBYY program together. The independence and flexibility are not enough. It can only operate the text files, though it can export other formats. We can’t see the original text from the corresponding image. That’s not convenient for operator to make sure or correct the dates precisely. Therefore compared with our program PLIES, we improve the disadvantages above and add some special functions as following. One of the windows show the original images corresponding to the text, making it more intuitive. It can deal with both the XML and text files independently. Moreover, it can load the text automatically, and it’s possible to reach the last text file or the next one. Parts of the text windows with the defective text, can be corrected with its list vocabulary. This program will draw on the experience of the SALIX essential functions, to be more functional.
Literatur
- Handwriting Recognition and Recurrent Neuronal Networks: http://www.idsia.ch/~juergen/handwriting.html
- Automatic Metadata Extraction from Museum Specimen Labels https://www.ideals.illinois.edu/bitstream/handle/2142/9138/HeidornDC2008.pdf?sequence=2
Tests
colortest
roter Text green Text blue Text yellow Text magenta Text cyan Text unterstrichen fett kursiv fett und kursiv
Text versetzt in a box
linktest
--KarlHeinzSteinke (talk) 16:20, 21 August 2014 (CEST)Insert non-formatted text here Media:Example.ogg File:Example.jpg link title Link title
tooltest
Liste von möglichen „kleinen“ Tools.
händisches Datenerfassungssystem
OCR-Text mit Levenshtein korrigieren
Begriffe (z.B. det. oder leg.) mit regular expressions suchen
konvertieren nach ABCD Standard
Grauwerthistogramm
Farbwerthistogramm
Mittlere Helligkeit
Kontrast
Auflösung dot/inch
Helligkeit im BGBM-Symbol
Kontrast im BGBM-Symbol
Bereich ausschneiden
Ocr als Textfile
Ocr als XMLfile
Kalibrierungsbild erzeugen
Kalibrierungsbild anwenden
Barcode suchen
Grauwertschablone auswerten
Farbwertschablone auswerten
Label definieren
Label suchen
Objekt (z.B.Stempel) suchen
Objekt (z.B.Stempel) definieren
Drehwinkel feststellen
Drehwinkel korrigieren