Entwicklungen zur Objekterkennung, Schrifterkennung - HSH

From StandAPHerb
Jump to: navigation, search

Schrifterkennung, Barcodeerkennung, Objekterkennung, Erkennung handgeschriebener Ziffern, Handschrifterkennung



OCR-Software

Optische Schriftzeichenerkennung (Optical Character Recognition) oder verallgemeinert auch die Erkennung von Symbolen und Objekten ist einer der wesentlichsten Anwendungsbereiche der Mustererkennung. Die OCR hat in den letzten Jahren erhebliche Fortschritte gemacht, ist aber noch immer Gegenstand intensiver Forschung. Die heutigen, für normale Nutzer verfügbaren Programme sind in der Lage, hochqualitative Texte weitestgehend korrekt zu erkennen. Allerdings gibt es noch erhebliche Defizite, komplexe Dokumente mit aufwändigen Strukturierungen und Formatierungen, wie z.B. eingebetteten Bilddaten oder mit Tabellen, korrekt zu verarbeiten. Die vorliegenden Herbarien stellen eine komplexe Umgebung für die verschiedenen Texte (Druck- und Handschriften) dar, außerdem sind zusätzliche Objekte vorhanden wie Stempel, Barcode, Maßstäbe, Farbtafeln, Tüten usw. Ziel dieser Untersuchung ist es, die aktuelle Software im Bereich der automatischen Erkennung von Text zu sichten und auf Tauglichkeit zu testen. Die vorliegende Untersuchung prüft den möglichen Einsatz kommerzieller Software im Projekt. Dabei werden zwei Kategorien unterschieden: OCR-Software und Barcodesoftware. Von der ersten Kategorie gibt es eine Vielzahl käuflicher Programme auf dem Markt sowie auch einige kostenlose Freewareprogramme. Die Qualität ist jedoch sehr unterschiedlich, insbesondere fallen die Freewareprogramme stark ab. Es kristallisieren sich vier hochqualitative Programme heraus, die genau untersucht werden. Von diesen eignen sich einige für das Projekt, wobei Omnipage Ultimate der Vorzug gegeben wird.

Alle kommerziellen Programme haben eine übersichtliche Bedienoberfläche. FineReader, Omni-Page und TextBridge bieten die Möglichkeit der Nachbearbeitung der Erkennung in einem Texteditor. ReadIris bietet diese Möglichkeit nicht. Bei der Stapelverarbeitung werden mehrere Bilder dateiweise eingelesen, erkannt und mit Bezug auf den ursprünglichen Dateinamen gespeichert. FineReader bietet ebenso wie OmniPage die Möglichkeit zur Stapelverarbeitung. ReadIris bietet auch die Möglichkeit der Stapelbearbeitung, allerdings werden die Erkennungsergebnisse der eingelesenen Dateien in einer Datei zusammengefasst. Mit TextBridge ist eine Stapelverarbeitung nicht möglich. OmniPage Ultimate bietet ebenfalls die Möglichkeit des Batchbetriebs. Hierbei können Arbeitsaufträge an das Programm erteilt werden, welche dann automatisch abgearbeitet werden. Es können auch alle Bilder in einem überwachten Ordner automatisch abgearbeitet werden.

Entwicklungsumgebungen (Software Development Kits) sind sowohl bei OmniPage als auch bei FineReader erhältlich. Somit lässt sich die Erkennungsmethode dieser Programme in selbst entwickelte Software einbinden. Die Kosten der SDK's sind allerdings erheblich, so kostet z.B. die Omnipage SDK 5000 Euro.

Einleseformat

FineReader kann die vorliegenden Original-Bilder im TIF-Dateiformat problemlos einlesen. OmniPage, ReadIris und TextBridge sind nicht in der Lage, Bildgrößen von ca. 10.300 x 6.400 Pixel (Dateigröße ca. 200 Mbyte) zu verarbeiten. Deswegen werden diese Dateien auf ein Viertel der Bildgröße ins BMP-Format umgerechnet. Die Bildbreite und Bildhöhe werden halbiert, sodass sich die Dateigröße auf ungefähr 50 MByte reduziert. Die Auflösung wird von ca. 600 DPI auf ca. 300 DPI reduziert. Bei dieser Dateikonvertierung gehen natürlich Bildinformationen verloren. Allerdings ist die Auflösung von 300 DPI für jede OCR ausreichend gut. Mit diesen reduzierten Bilddateien werden alle Programme für den Ergebnisvergleich konfrontiert.

Omnipage Ultimate

OmniPage® – Version Ultimate

Benutzerfreundlichkeit

Kurzanleitungen für die wichtigsten Schritte mit OmniPage

OmniPage Launchpad

Bilderfassung – Scanner und Multifunktionsgeräte

Unterstützte Scanner-Treiber WIA/TWAIN/ISIS WIA/TWAIN/ISIS

Automatischer Empfang von Bildern “Scannen-in-Email”-Funktion

OmniPage-Arbeitsprozesse über Scantasten am Gerät abrufbar

Bilderfassung – Digitalkameras, Smartphones und Tablets

3DC-Digitalkamera-Technologie Hervorragend

25 % höhere Genauigkeit

Automatische Erkennung von Digitalfotos

Automatischer Empfang von Bildern “Scannen-in-Email”-Funktion

Automatischer Empfang von Scans aus Cloud-Speicherdiensten Evernote, Dropbox, Box,

Microsoft Live SkyDrive,Google Drive und mehr

Evernote, Dropbox, Box,

Bilderfassung – Vernetzte Multifunktionsdrucker (MFP)

Unterstützt Windows 2008 und 2012 Server Neu: DocuDirect

Verbessert: automatischer Neustart und Wiederherstellung fehlgeschlagener Aufträge Neu: DocuDirect

64-Bit-Unterstützung für eine verbesserte Speichernutzung Neu: DocuDirect

Automatischer Empfang von Bildern “Scannen-in-Email”-Funktion Batch Manager Neu: DocuDirect

Automatischer Empfang von Scans aus vernetzten MFPs über Scannen in Ordner Neu: DocuDirect

Konvertierte Ausgabe – Reader, Smartphones und Tablets (Unterstützung variiert je nach Modell)

Assistent für Textausgabe per E-Mail auf Kindle-Reader

Normales PDF, ePub, RTF, HTML

Dokumentenmanagement (PaperPort erforderlich)

PaperPort mit PDF Viewer Plus kostenlos enthalten (129 € Warenwert) PaperPort Professional 14

PDF Create mit PDF Create-Assistent kostenlos enthalten (49 € Warenwert) PDF Create 8

Anpassbare Dialogfelder für das Öffnen in PaperPort-Ordnern

Anpassbare Dialogfelder für das Speichern in PaperPort-Ordnern

Öffnen und Anzeigen in PaperPort

Erkennungsgenauigkeit

Erkennung von Zeichenattributen/Schriftartzuordnung

Bessere Erkennungsgenauigkeit von in Fachwörterbüchern für Recht/Medizin/Finanzen enthaltenen Wörtern

IntelliTrain™ Prüffunktion lernt aus vorgenommenen Korrekturen

Layoutgenauigkeit – Formatierung

Verbesserte Fließseitenausgabe – einfachere Bearbeitung durch Verbindung von

Textspalten mit Verbesserung

Abgleichtechnologie PDF Overlay Matching für e textbasierte PDF-Konvertierung

TruePageTM-Ausgabe

ExactWord-Ausgabe für verbesserte Nachbearbeitung

Linienerkennung

Verbesserte Tabellenkonvertierung mit Verbesserung

Bessere Verarbeitung ähnlicher Seiten (Wiedererkennung von Layoutstrukturen)

Erkennung und Beibehaltung von Farbe

Beibehaltung von Kopf- und Fußzeilen

Erkennung von Überschriften/großen Schriften

Verarbeitung von Rechtsdokumenten (mit Zeilennummerierung)

Erkennung von vertikalem Text

Erkennung chinesischer, japanischer und koreanischer Schriftzeichen mit verbesserter

Genauigkeit für Japanisch

Automatische Erkennung von asiatischen Zeichen in westeuropäischen Texten

Dokumenteingabe

Bitmap (*.bmp), DCX (*.dcx), GIF (*.gif), JB2 (*.jbg), JP2 (*.jp2), JPEG (*.jpg), MAX (*.max),

PCX (*.pcx), PDF (*.pdf), PNG (*.png), TIFF (*.tif), XIFF (TIFF FX) (*.xif), XPS (*.xps)

Bildverarbeitung

Automatische Erkennung von Digitalfotos

Automatische Seitenausrichtung

Begradigen

Beibehaltung der Originalauflösung

Vordefinierte Bearbeitungsvorlagen (Profil)

Bereinigen/Normal

Bereinigen/Rasterbild

Automatisches Abschneiden

Entfernen von Lochstellen

Ränder bereinigen

Bessere Erkennung zu entfernender Leerseiten

SET™-Werkzeuge (Scanner Enhancement Technology)

Helligkeit und Kontrast

Farbton/Sättigung/Helligkeit

Beschneiden

Drehen

OCR-Helligkeit

Farbe ausschließen

Anpassbare Auflösung

Ausfüllen

Begradigen

3D-Begradigung (Digitalkamerabilder)

Anpassbares Bereinigen/Normal

Anpassbares Bereinigen/Rasterbild

Anpassbares Bereinigen/helle und dunkle Flecken

Anpassbares Bereinigen/Bereinigung umkehren

Automatisches Abschneiden

Entfernen von Lochstellen

Ränder bereinigen

Whiteboard-Foto-Verbesserung

Formularkonvertierung und -verarbeitung

Konvertierung von Papier- oder Bilddatei-Formularen

Werkzeuge für Formularelemente

Datenerfassung aus PDF- oder Papierformularen

PDF-Arbeitsprozesse und Ausgabe

eDiscovery-Assistent für durchsuchbares PDF erzeugt durchsuchbare originaltextgetreue

Dateien

Intelligenter Arbeitsprozess für durchsuchbares PDF in DocuDirect

PDF-Formate – Bild, durchsuchbares Bild, normal und bearbeitet

PDF/A Verbessert: PDF/A-2b, -2u

Linearisiertes PDF

Automatisches Formatieren von Kopf- und Fußzeilen

MRC für maximale Dateikomprimierung gescannter Dokumente

Beibehaltung von Anmerkungen (bei Einsatz von eDiscovery-Assistent)

Erzeugen und Übertragen von Hyperlinks

Lesezeichen auf Miniaturansichten

Lesezeichen durch Suchen und Markieren

Lesezeichen durch Arbeitsprozesse für Textmarkierung

Anhängen von PDF-Inhalt an vorhandene PDF-Dateien

PDF-Dateien mit Digitalsignatur

Passwortgeschütztes PDF

Verschlüsselte PDF-Dateien 256-Bit-Verschlüsselung

PDF-Dateien mit Tags

(Text)ausgabe

Microsoft Word (.rtf)

Microsoft® Excel (.xls)

Microsoft® WordML (.xml)

Microsoft® Word 2007/2010/2013 (.docx)

Microsoft® Excel 2007/2010/2013 (.xlsx)

Microsoft® PowerPoint 2007/2010/2013 (.pptx)

XPS – Bild, durchsuchbares Bild und normal

Text, Corel® WordPerfect® (.wpd), Ausfüllbare Formulare – WordML, InfoPath® und PDF, HTML, XML

Audiodateiausgabe – Text in Sprache Verbessert: natürlich klingende Stimme und MP3-Ausgabe

Daten aus Formularen (.csv)

Dokumentenweiterleitung und -ausgabe

Batch Manager zur Verwaltung und Überwachung von Aufgaben Neu: DocuDirect

Sofortige Stapelverarbeitung mit neuen oder vorhandenen Arbeitsprozessen Neu: DocuDirect

Stapelverarbeitung im Hintergrund ohne Eingabeaufforderung Neu: DocuDirect

Stapelverarbeitung in Cloud-Speichern (Nuance Cloud Connector, Evernote® und Dropbox) Neu: DocuDirect

Stapelverarbeitung eingehender E-Mail-Anhänge Neu: DocuDirect

Stapelverarbeitung für Textmarkierung (Schwärzen, Hervorheben, Durchstreichen) Neu: DocuDirect

Geplante Stapelverarbeitung mit neuen oder vorhandenen Arbeitsprozessen Neu: DocuDirect

Stapelverarbeitung von Dateien bei Eingang in überwachtem Ordner Neu: DocuDirect

Stapelverarbeitung von Barcode-Aufträgen bei Eingang in überwachtem Ordner Neu: DocuDirect

Zugriff (lokal oder Netzwerk) auf exportierte Arbeitsprozesse Neu: DocuDirect

E-Mail-Benachrichtigung zu abgeschlossenen Batch-Manager-Aufgaben Neu: DocuDirect

Benutzeroberflächen und Funktionsfenster

Launchpad

Klassische Ansicht für OmniPage-Kenner

Schnellkonvertierungsansicht – ein Fenster mit den wichtigsten Funktionen

Flexible Ansicht – mehrere Fenster in Registerkartenansicht

Verschieb- und verankerbare Funktionsfenster

Speicherbare benutzerdefinierte Ansichten

Texteditor zur Bearbeitung von erkanntem Text

Ladetool für schnelles Öffnen von Dateien

Dokumentmanager zum Anzeigen von Verarbeitungsstatistiken

Kontinuierliche Überwachung mit Arbeitsprozess-Status

Erweiterte OCR-Tools

Arbeitsprozess-Assistent und Manager

Bereichsvorlagen

Anwenderwörterbücher

Trainingsdateien

Benutzerdefinierte Speichereinstellungen (Ausgabeformatprofile)

Amazon® Kindle®-Assistent

Archivierungs-Assistent (Arbeitsprozesse mit Barcode-Deckblatt)

Dokumentsteuerung

Zügige manuelle Bereichseinteilung

Auswählbarer Bildeditor

Auswählbare Bildauflösung

Bereichseinteilung während Bearbeitung

Bereichseinteilung bei vertikalem Text

Prüfung und Training

Korrektur mit Kontext

Training einzelner Zeichen

Dynamische Prüfung

Korrekturvorschläge

(mit Tastaturkürzeln)

Windows-Integration

Anpassbare Arbeitsprozesse im Kontextmenü von Windows Explorer

Assistent für Sofortkonvertierung im Kontextmenü von Windows Explorer

Arbeitsprozesse in Sprungliste in Windows 7 und 8 erstellen

Erweiterte Produktivitätsfunktionen

Schnelle OCR-Engines

Multi-Threading

Parallele Multi-Core-Verarbeitung (Intel und AMD)

Parallele Mehrdokumenten-Stapelverarbeitung bei Multi-Core-Prozessoren

Konvertierung zwischen Dokumenten (Text)

Automatische Sprachenerkennung

Hinzufügen und Übertragen von Hyperlinks

Gleichzeitiges Öffnen mehrerer Dokumente mit Parallelverarbeitung

Gleichzeitiges Speichern von Dateien

Direct OCR in Microsoft Office Verbessert: Office2013-Unterstützung

Automatisches Schwärzen, Hervorheben und Durchstreichen über Stichwörter

Import und Export von Arbeitsprozessen

Drucken und Speichern von Arbeitsprozess „Barcodeseiten“

Nuance Cloud Connector, Nuance Cloud Connector mit Windows-Netzwerklaufwerk

AT &T Synaptic Storage, Caringo CAStor, EMC Atmos Online, Amazon S, Google Text & Tabellen,

Nirvanix, Mezeo, Windows/Azure, OpenStack, Peer1 CloudOne, Rackspace CloudFiles,

WebDav, Dateiserver , FTP ,

OmniPage-Konnektoren

Evernote, Dropbox

Integration mit SharePoint 2003 / 2007 / 2013

Integration mit Open Text eDOCS 5.3

Integration mit Autonomy-Interwoven iManage Worksite 8.2 / 8.5 / 9.0

ODMA

FTP

Tesseract 3

Tesseract ist eine freie Software zur Texterkennung. Es ist ein reines Zeichenerkennungsprogramm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet.

Es wird in der Programmiersprache C++ entwickelt.

Für eine Vielzahl von Sprachen sind bereits Texterkennungsdaten in Zusatzmodulen vorhanden. Mit einem entsprechenden Modul ist teilweise auch die Erkennung deutscher Fraktur-Schrift möglich. Ursprünglich wurde die Software zwischen 1985 und 1995 von Hewlett-Packard entwickelt. Aus einem Test der University of Nevada, Las Vegas (UNLV) ging sie 1995 als einer der drei präzisesten Testkandidaten hervor. Nach dem Ausstieg von HP aus dem OCR-Markt lag die Entwicklung weitgehend brach, bis der Code 2005 an das Information Science Research Institute der UNLV übergeben wurde. Hier wurde festgestellt, dass der ehemalige Entwickler Ray Smith mittlerweile bei Google arbeitete. Nach einer Nachfrage bei Google, ob Interesse an dem Code bestünde, nahm sich Google des Quelltextes an, brachte ihn auf einen aktuellen Stand und gab ihn noch im gleichen Jahr unter der Apache-Lizenz über SourceForge frei.

Dies bedeutete in der Welt der freien Software einen großen Qualitätssprung im Bereich der Texterkennung. Das Projekt migrierte von SourceForge auf Googles eigene Software-Entwickler-Plattform Google Code, wo es unter Betreuung von Google weiterentwickelt wird.

Seit 2006 wird das Programm als Grundlage von Google Bücher weiterentwickelt. Seit Version 3.0 vom September 2010 können Ergebnisse direkt in das hOCR-Format ausgegeben werden und es wurde ein neues Modul zur Analyse der Seitengestaltung eingeführt.

ABBYY FineReader

ABBYY FineReader® 12 Professional ist eine Texterkennungssoftware (OCR), die eine exakte Umwandlung von Scans, Papier- und Bilddokumenten in editierbare Formate, wie Microsoft Office, und durchsuchbare PDF-Dateien ermöglicht. Auf diese Weise können Sie den Inhalt der Dokumente wiederverwenden, effizienter archivieren und schneller wiederfinden. FineReader macht das Abtippen von Dokumenten überflüssig, wichtige Informationen stehen sofort zur Verfügung. Das Programm ermöglicht einen schnellen Zugriff auf den Inhalt des gesamten Dokuments und unterstützt 190 Erkennungssprachen in jeder beliebigen Kombination

Systemanforderungen

• Microsoft® Windows® 8.1/8/7/Vista/XP, Microsoft Windows Server® 2012/2012

R2/2008/2008 R2/2003. Für die Arbeit mit lokalisierten Benutzeroberflächen ist die Unterstützung der entsprechenden Sprache erforderlich.

• Prozessor mit 1 GHz oder mehr. 1024 MB RAM; in einem Mehrprozessorsystem werden zusätzlich 512 MB RAM für jeden weiteren Prozessorkern benötigt.

• 850 MB Festplattenspeicher für die Programminstallation und 850 MB freier Festplattenspeicher für eine optimale Programmausführung.

• TWAIN- oder WIA-kompatible Scanner, Multifunktions-Peripheriegeräte (MFPs) oder All-in-one-Geräte.

• Internetverbindung für die Produktaktivierung. Für die Benutzung des Internets können Gebühren anfallen.

Speicherformate für Dokumente

DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, PDF/A, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2

Speicherformate für Bilder

BMP, TIFF, PCX, DCX, JPEG, JPEG 2000, JBIG 2, PNG

Eingabeformate

PDF, BMP, PCX, DCX, JPEG, JPEG 2000, JBIG 2, PNG, TIFF, XPS (Microsoft .NET Framework 3.0 oder 3.5 erforderlich), DjVu, GIF

Omnipage 18

Herausragende OCR-Genauigkeit

Leistungsfähigere OCR-Engines: herausragende Erkennungsgenauigkeit – ideal für die Archivierung wichtiger Dokumente.

Originalgetreues Layout

Originalgetreue Konvertierung und einfachste Bearbeitung der Dokumente – einschließlich aller Spalten, Tabellen, Nummerierungen und Grafiken.

Ausgezeichnete Benutzerfreundlichkeit

Dokumente aus und in Cloud-Diensten konvertieren

Sie können Dokumente direkt aus Windows Live SkyDrive, GoogleDocs, Evernote, Dropbox und vielen anderen Diensten abrufen und konvertieren. Mit Nuance Cloud Connector, unterstützt von Gladinet.

PDF-Inhalte erschließen

Umwandlung nahezu jeder PDF-Datei in ein gängiges Programmformat zur weiteren Bearbeitung. Sie können auch direkt in entsprechende Formate scannen und sie für Desktopsuchprogramme durchsuchbar machen.

Funktioniert mit fast jedem Scanner

Wenn Ihr Gerät scannen kann, funktioniert es auch mit OmniPage. Mobile Scanner, Desktop-Scanner, All-in-One- und Multifunktionsgeräte arbeiten produktiver und mit höherer Genauigkeit, wenn Sie OmniPage verwenden.

Text mit der Digitalkamera oder dem iPhone® erfassen. Verwandeln Sie mit der erkennungsgenauen 3D-Korrekturtechnologie von Nuance Bilddateien in Text.

An Amazon® Kindle® senden

Scannen Sie ein Dokument, lassen Sie es automatisch in ein lesbares Format konvertieren und senden Sie es in einem einfachen Arbeitsschritt an den elektronischen Kindle®-Reader.

Unterstützt alle gängigen PC-Anwendungen

Unterstützung vieler Ausgabeformate: PDF, HTML, Corel® WordPerfect®, Microsoft® Word, Excel®, PowerPoint® (pptx) u. v. m. Insbesondere eignet sich die XML-Datei zur Weiterverarbeitung in selbstentwickelter Software, da neben den erkannten Textfragmenten auch Ortskoordinaten angegeben werden.

Erkennung von über 120 Sprachen

Dokumente aus aller Welt konvertieren, bearbeiten und archivieren: OmniPage erkennt auf dem lateinischen, griechischen und kyrillischen Alphabet basierende Sprachen sowie Chinesisch, Japanisch und Koreanisch.

Systemanforderungen

•Windows 8 32- oder 64-Bit-Edition, Windows 7 32- oder 64-Bit-Edition, Windows Vista 32- oder 64-Bit-Edition mit Service Pack 2, Windows XP 32-Bit-Edition mit Service Pack 3.

•Computer mit einem Intel®-Pentium®-Prozessor 1 GHz bzw. gleichwertiger oder höherer Prozessor. Für noch bessere Leistung wird ein Multi-Core-Prozessor empfohlen.

•512 MB Arbeitsspeicher, für noch bessere Leistung 1 GB empfohlen.

•250 MB freier Festplattenspeicher für Anwendungs- und Beispielbilddateien, plus 100 MB temporärer Festplattenspeicher während der Installation. Weitere 230 MB für die RealSpeak™ Solo-Sprachmodule. 30 MB für den Nuance Cloud Connector.

•Farbmonitor mit 1024 x 768 Pixel Auflösung und 16 Bit Farbtiefe oder höher.

•CD-ROM-Laufwerk für die Installation.

•WIA-, TWAIN- oder ISIS-Scannertreiber.

•Digitalkamera mit Autofokus und mindestens 2 Megapixel Auflösung, wenn Text erfasst werden soll.

•Für die Online-Produktaktivierung und -registrierung, die automatische Aktualisierung und Nuance Cloud Connectors muss eine Verbindung zum Internet bestehen.

Ein Vergleich mit dem Herbis-System des „Museum of Natural History“ New Haven und New York Botanical Garden zeigt, 
dass die Erkennungsergebnisse von OmniPage und Herbis vergleichbar sind.

Readiris™ Pro 14 für Windows

Funktionen der Software :

•Wandelt Papierdokumente in bearbeitbaren, digitalen Text um (Word, Excel, OpenOffice usw.) •Erstellen Sie dank iHQC™ PDF-Dateien, die bis zu 5-mal kleiner sind als die ursprünglichen Bilder •Globale OCR-Lösung – 137 erkannte Sprachen (einschl. asiatische Sprachen und Arabisch!) •Neues OCR-Modul für schnellere Verarbeitung und höhere Genauigkeit •Optimierte Unterstützung von Multi-Core-CPUs und besseres Multitasking •Neue benutzerfreundliche Oberfläche (ähnlich Office 2010) •Leistungsstarke Tabellenerkennung – erkannte Tabelle gleicht dem Original! •Ausgabekonnektoren für die Cloud : Hochladen zu Dropbox, Box.net, Google Docs™ und Evernote™ •Sprachen der Benutzeroberfläche : Arabisch, Brasilianisches Portugiesisch, Bulgarisch, Chinesisch (vereinfacht), Chinesisch (traditionell),Deutsch, Katalanisch, Englisch, Finnisch, Französisch, Griechisch, Hebräisch, Italienisch, Japanisch, Koreanisch,Niederländisch, Norwegisch, Polnisch, Portugiesisch (Brasilien) Rumänisch, Russisch, Tschechisch,Türkisch, Ukrainisch und Ungarisch. •Sprachen auf der Verpackung : Arabisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Portugiesisch, Russisch, Spanisch •Preis: 99 Euro

Funktionen der Software im Detail :

•Benutzerfreundliche Lösung für die Texterkennung & Archivierung von Dokumenten

•Revolutionäre High-Quality Compression Technology (iHQC™) Erstellen von PDF- und XPS-Farbdateien, die bis zu 5-mal kleiner sind als die ursprüngliche Bildgröße.

•Erweiterte Unterstützung portabler Dateiformate

Wandelt Dokumente in durchsuchbare PDF- und XPS-Dateien um. Konvertieren von beliebigen PDF-Dateien in bearbeitbare Text.

•Mehrsprachige Lösung

Von dem OCR-Modul werden 137 Sprachen erkannt (einschließlich asiatische Sprachen, Russisch und Arabisch) und die Benutzeroberfläche ist in 28 Sprachen lokalisiert.

•Ausgabekonnektoren für die Cloud Einfache Integration mit Ihren bevorzugten Cloud-Diensten. Hochladen zu Dropbox, Box.net, Google Docs™ und Evernote™.

•Erweiterte Tabellenerkennung Unterstützung des Formats Spreadsheet ML von Microsoft® für eine perfekte Reproduktion von Tabellen.

•Scannen für E-Mail

TextBridge Pro 11

TextBridge Pro 11 konvertiert gedruckte Seiten in ein digitales Windows-Dokument Ihrer Wahl. Erstklassige Erkennungsgenauigkeit und Formatbeibehaltung machen Abtipparbeiten überflüssig! Die neue Benutzeroberfläche und die neuen OCR-Engines garantieren eine schnelle und einfache Durchführung aller OCR-Aufgaben.

Merkmale

Gesteigerte Genauigkeit durch verbesserte Erkennungsengines; spart Zeit bei der Prüfung und erhöht die Produktivität der Beteiligten. •Neues Seitenformatierungswerkzeug Eine optimierte Formatbeibehaltung, speziell bei Seiten mit kombiniertem Text- und Grafikinhalt,ermöglicht eine originalgetreue OCR-Ausgabe. •Erkennung von Arbeitsblättern und Tabellen mit oder ohne Gitternetzlinien Die Ausgabe in Excel oder ein anderes Tabellenkalkulationsprogramm wird noch einfacher und genauer. Tabellen können in ein beliebiges Ausgabeformat übernommen werden. •Verbesserte Farbtexterkennung Farbtext und Hintergrundfarben werden jetzt erkannt und im Digitaldokument originalgetreu beibehalten. •Direct OCR Wie bisher kann mit der Funktion Direct OCR Text direkt in Word oder andere Anwendungen gezogen werden. Tabellen und Grafiken werden jetzt allerdings genau wie bei der Bearbeitung in Omnipage Pro beibehalten. •Neuer Texteditor •Neue Schaltflächen

Herstellung und Vertrieb dieser OCR-Software wurden jetzt von Nuance eingestellt. Als Nachfolger wird die marktführende OCR-Software OmniPage empfohlen, die eine Weiterentwicklung der OCR-Engine von TextBridge enthält.

Ergebnisse

Alle kommerziellen OCR-Programme bewegen sich im Preissegment zwischen 80 Euro und 100 Euro.

OmniPage Ultimate bearbeitet 465 Bilder in einer Zeit unter einer Stunde. Das ist deutlich schneller als bei den anderen Programmen. Auch die Erkennungsgenauigkeit ist etwas besser als bei der Konkurrenz und deutlich besser als bei Freewareprogrammen. Es muss noch untersucht werden, ob durch Anlernen von Zeichensätzen die Erkennungsrate von Tesseract 3 verbessert werden kann. OmniPage Ultimate bietet die Möglichkeit des Batchbetriebs, wobei Bilder automatisch abgearbeitet werden. Insbesondere können auch alle Bilder in einem überwachten Ordner automatisch abgearbeitet werden. Das ist der Hauptgrund warum OmniPage Ultimate der Vorzug gegeben wird.

Barcode-Software

Allgemeines Format des BGBM Barcodes

In der ersten Zeile steht in Klarschrift Mus. Bot. Berol., damit die Bögen nicht mehr damit gestempelt werden müssen. Eine Einbeziehung des Akzessionsjahrs in das Barcodeetikett (erste Zeile) würde auch den Akzessionsstempel vermeiden, ist aller-dings nur dann möglich, wenn die Etiketten +/- gleichzeitig mit der Benutzung erstellt werden. Die zweite Zeile enthält den Barcode selbst, der in der 3. Zeile in Klarschrift dargestellt wird (ggf. unter Formatierung, z.B. mit Bindestrichen bei der Akzessions-nummer des Botanischen Gartens).

Für den BGBM werden Codes mit einer Gesamtlänge von 12 Zeichen, für Gartenakzessionen und beim Herbarium Willdenow mit 16 Zeichen festgelegt. Der Code beginnt grundsätzlich mit dem Buchstaben B gefolgt von einem Leerzeichen. Um größtmögliche Konsistenz mit vorhandenen Veröffentlichungen und Datensammlungen zu erreichen, soll die bestehende Nummerierung erhalten bleiben, was das Vor-anstellen eines die Teilsammlung kennzeichnenden Codes notwendig macht. Bei den 12-Zeichen Codes folgt daher eine zweistellige Zahl, die einer Teil- oder Sondersammlung entspricht, gefolgt von einem Leerzeichen und einer 7-stelligen Zeichenfolge, die normalerweise nur aus Ziffern besteht.

Bei Dateinamen werden Leerzeichen durch Unterstriche ersetzt, außerdem steht, wie gewöhnlich, die Dateinamenserweiterung nach einem Punkt (zum Beispiel ".jpg" für JPEG Dateien).

Codierungsformate in Teilsammlungen

Phanerogamenherbar B1##########

Holzsammlung B17#######

Frucht- und Samen B18#######

Samenbank B19#######

Farnherbar B2########22

Moosherbar B3######/8##

Algenherbar B4########

Wassermischproben B5########

Flechtenherbar B6########

Pilzherbar B7########

Nasspräparate B81#######

Schaumuseum B89#######

Botanischer Garten BBG############

Willdenow-Herbar B-W99999x-887

Gewebeproben (trocken) BGT#######


QS-Barcode

Die QS-Barcode Erkennung Version: 4.0 (Barcode Erkennung aus Bild-Dateien) ist eine leistungsfähige Software zur schnellen, automatischen Erkennung von ein- und zweidimensionalen (2D-) Barcodes aus digitalisierten Bildern, die mit Dokumentenscannern, durch Fax und mit Kamerasystemen erzeugt werden. Barcodes sind sehr viel schneller und fehlerfreier zu orten und zu erkennen als Schrift. Für die Barcode-Erkennung werden keine speziellen Barcode-Scanner benötigt. Die QS-Barcode SDK Erkennungssoftware interpretiert das Bild und sucht Barcodes und gibt die Barcode-Inhalte zurück. Es werden zahlreiche Bilddatei-Formate unterstützt. Mit der Software kann die Erkennung der Barcodes in eigene Programme integriert werden. Es werden die üblichen linearen Barcodetypen (Strichcodes) erkannt: � Code 39 / erweitert � Codabar � Code 93 / Code 32 � Code 2/5 (interleaved, Industrie, etc) � EAN 8, EAN 13, UPC A / UPC E Über Parameter wie Größe, Drehung, Anzahl, Länge des Inhalts, Prüfsummen, Größe, Ruhezone, etc. wird die Erkennung gesteuert. Bei sehr schlecht gedruckten Barcodes kann "Verdacht" gemeldet werden. Es können beliebig viele Barcodes pro Bild erkannt werden.

Die Software QS-Barcode SDK wird als Entwickler-Library (C-Lib, DLL und OCX) für Windows Betriebssysteme geliefert. Die DLLS und LIBs liegen jeweils in einer 32-Bit und 64-Bit Version vor. Kunden sind Entwickler, die die Barcodeerkennung in eigene Programme einbinden wollen. Die Integration der Funktion ist sehr einfach und mit geringem Aufwand zu realisieren. Es werden einige Parameter gesetzt (Typ, Lage des Barcodes), das Bild wird übergeben und die Erkennungsfunktion aufgerufen. In einer Ergebnisstruktur werden die erkannten Ergebnisse und weitere Informationen zu den Barcodes zurückgegeben. Viele Beispiel-Programme (unter anderem C/C++, VisualBasic, Java, Delphi, C# und .NET) demonstrieren die Einbindung in unterschiedlichste Umgebungen. Mit einem Freeware Testprogramm bcTester kann die Barcode-Lesung geprüft werden.

Spire.BarCode

Spire.BarCode for .NET is a professional and reliable barcode generation and recognition component. It enables developers to quickly and easily add barcode generation and recognition functionality to their Microsoft .NET applications (ASP.NET, WinForms and Web Service) and it supports in C#, VB.NET.

Supports rich Barcode types, more than 38 different barcodes. Aztec Barcode Code bar Barcode Code 1 of 1 Barcode Standard 2 of 5 Barcode Code 3 of 9 Barcode Extended Code 3 of 9 Barcode Code 9 of 3 Barcode Extended Code 9 of 3 Barcode Code 128 Barcode EAN-8 Barcode EAN-13 Barcode EAN-128 Barcode EAN-14 Barcode SCC14 Barcode SSCC18 Barcode ITF14 Barcode ITF-6 Barcode UPCA Barcode UPCE Barcode Postnet Barcode Planet Barcode MSI Barcode 2D Barcode DataMatrix QR Code Barcode Pdf417 Barcode Pdf417 Macro Barcode RSS14 Barcode RSS-14 Truncated Barcode RSS Limited Barcode RSS Expanded Barcode USPS OneCode Barcode Swiss Post Parcel Barcode PZN Barcode OPC(Optical Product Code) Barcode Deutschen Post Barcode Deutsche Post Leitcode Barcode Royal Mail 4-state Customer Code Barcode Singapore Post Barcode


DTK Barcode Reader SDK

Barcode recognition SDK is a highly accurate and powerful developer library which recognizes 1-D and 2-D barcodes from digital images and bitmaps. Using this SDK you can integrate barcode recognition functionality to your document processing systems, Windows applications, embedded systems (Windows CE, Pocket PC, Smartphone) and Web services. The following image formats are supported: BMP, TIF, JPG, PNG and multipage TIF and PDF (Portable Document Format). The unique and fast barcode recognition algorithm searches for barcodes in any position and orientation from your images. Barcode Reader returns the number of barcodes found and for each barcode: ##Barcode string

    1. Barcode type
    2. Barcode orientation
    3. Barcode location (start/stop bars coordinates)
    4. Page number (for mulipage TIFF)

Supported barcode types

1-D barcodes:

    1. Code 11
    2. Code 39
    3. Code 39 Extended
    4. Code 93
    5. Code 128
    6. UCC 128
    7. 2of5 Interleaved
    8. Codabar
    9. Patch Code
    10. Pharmacode
    11. EAN 8
    12. EAN 13
    13. UPC A
    14. UPC E
    15. Add 2
    16. Add 5
    17. GS1 Databar/RSS-14
    18. GS1 Databar/RSS Limited
    19. GS1 Databar/RSS Expanded
    20. GS1 Databar/RSS Expanded Stacked
    21. Some Postal and 2D Barcodes



BarcodeLib.NET

•Support Multiple 1D and 2D Barcode Symbologies •High Recognition Rate •Fast Reading Speed •Recognise multiple barcode images in one image file •Support multi-page TIFF barcode images reading in .NET applications •Free to download trial, easy to install, and Simple to use it •Supported source image types: GIF, BMP, JPEG, TIFF, PNG •Written 100% in C# 2005, providing free Visual C#, VB.NET code for barcode recognition


ClearImage Barcode SDK

ClearImage Barcode SDK provides an API to integrate with the application to read and decode most 1D barcodes (Code39, Code128, Intelligent Mail, and more) and 2D barcodes (PDF417, DataMatrix, and QR)

Download Barcode SDK at no charge to see how easy it is to integrate, and to test it with your images on your own servers.

Use our Online Barcode Reader to quickly submit your images, and have them read by the ClearImage barcode recognition engines. See the results in the browser, or get them by email.

Barcode Reading Features Support for all the most commonly used 1D and 2D barcodes. •Read 1D barcodes: Code39, Code128, Interleaved 2 of 5, UPC, EAN, and over 20 other widely used symbologies.•Read 2D barcodes: PDF417, DataMatrix, and QR.•Read postal barcodes: Postnet, Intelligent Mail, Royal Mail, 4-state, and more.•Recognize 2D and 1D barcodes on Driver's Licenses and ID Cards to extract the name, address, and other fields.•See our list of all ClearImage supported barcode types and details about each. Read barcodes of any quality, in any orientation on the most common document imaging formats. •Read barcodes in any orientation: Horizontal, Vertical, and Diagonal. Any number of barcodes on a page or image file. Works with black and white, grayscale, and color images.•Read poor quality and damaged barcodes on images that come from scanners, fax, cameras, and PDF generators.•Read multi-page TIFF, PDF, JPEG, PNG and other widely used image file formats. Support for virtually any language running on a Windows System through .Net and COM API. •C# and VB.Net development is supported through our .Net API. VB6, C++, Java, PHP, and other languages are supported through our COM (ActiveX) API.•Run your application on Windows XP, Vista, Windows7, Windows Server 2003, Windows Server 2008, and VMWare in 32 bit or 64 bit mode. The application can run in the foreground, as a Windows Service, or under a Web Server (IIS Web Site deployment with ASP, ASP.Net, PHP, or Java).High Accuracy & Reliability in Production Recognize and decode barcodes with the highest recognition rate in the industry. When processing documents in volume or large batches, every barcode failure incurs significant costs to you. Having processed millions of customer images with impaired barcodes, ClearImage algorithms have been continuously updated over 15 years to provide the highest recognition rate of 99.999% for your business process. Our software handles all types of barcode errors and damage, so we can assure your production success.

Robust, high speed processing of many document types with many barcode formats. Our barcode recognition engine processes documents in as low as 30 ms while still retaining stability and accuracy. We support all the most commonly used document types and barcode types.

Affordable per-server pricing for your automated system. ClearImage software is available for development at no charge. Inlite licenses are perpetual, do not limit your performance, do not require per click or per image charges, and do not require additional fees for unattended Windows Service or Web Server installations.

Highly available support from our development staff. Customer satisfaction is our top priority, so we offer direct access to our developers rather than uninformed support staff. Rapid response of our support assures success during all phases of your project: development, testing, deployment and production, while our software assurance programs give you access to the latest software updates. Rapid Development and Deployment Try the demo included in our SDK on your most challenging barcodes before writing a line of code. The ClearImage Barcode SDK includes a demo application to evaluate and test your own images. Instantly confirm that ClearImage will read your barcodes.

Integrate ClearImage products into your application in less than a day. Using the concise ClearImage Barcode API, thorough documentation, and sample code, you will have your barcode-based application running in less than a day. The very intuitive API does not require you to specify obscure parameters, and is designed for software professionals without special imaging expertise. The SDK includes complete sample projects in C#, VB.NET, C++, Visual Basic 6 as well as code samples in Java, Delphi, PHP, and VBScript.

Ergebnisse

Datensatz 1 465 BGBM-Bilder. Die Originalbilder wurden in der Auflösung halbiert. Dateigröße ca. 50 MBytes

Datensatz 2 10500 Herbarbelege der Duke University . Dateigröße ca. 0,2-1 MByte

Die Software QS-DocumentAssembler wurde im Stapelbetrieb über Nacht auf 465 Originalherbarproben angewendet. Von den 465 Barcodes wurden 415 richtig erkannt. 35 Barcodes wurden nicht gefunden und 15 Barcodes wurden falsch gelesen. Die Erkennungsrate von weniger als 90 % ist natürlich nicht akzeptabel. In Gesprächen mit der Herstellerfirma wurde klar, dass vor der eigentlichen Barcodeerkennung eine Binarisierung durchgeführt wird. Deshalb wurde beschlossen, eigene Verfahren zur Bildvorverarbeitung zu programmieren.

In der Kategorie der Barcodesoftware fiel die Wahl zunächst auf QS-Barcode. Die anfängliche Erkennungsrate von 90% konnte durch eigene Verfahren zur Bildvorverarbeitung auf 100% gesteigert werden. Die Rechenzeiten sind jedoch extrem hoch (18 Stunden für 465 Proben)

Die Freie Softwarelösung Spire BarCode hat von den vorliegenden 465 Herbarbelege den Barcode fehlerfrei von 463 lesen können, die Erkennungsrate beträgt ca. 95,57%. Untereinbeziehung weiterer 10500 Herbarbelege, steigt die Erkennungsrate leicht auf 97,35%. Ein großes Problem ist aber die Arbeitszeit dieser Softwarelösung. Für die 465 Bilder des BGBM wird pro Bild etwa eine bis 1,5 Minuten benötigt, zum erkennen eines Barcodes. Bei den 10500 Herbarbelege der Duke University sinkt die Arbeitszeit zwar auf ca. 45 Sekunden aber die Belege bestehen größtenteils nur aus einem Label und einem Barcode-Aufkleber und haben eine deutlich geringere Auflösung.

Erkennungsrate Datensatz 1 Erkennungsrate Datensatz 2 Bearbeitungszeit Datensatz 1 Bearbeitungszeit Datensatz 2 ca. Preis SDK ca. Preis Runtime
QS-Barcode 90% --- 18 Stunden --- 550€ 168€
Spire BarCode 95,57% 97,35% ca. 1 Tag ca. 5 Tage OpenSource OpenSource
DTK Barcode Reader 99,78% 99,73% 7 Stunden dummy 390€ 5incl. 4190€ Server
BarcodeLib 42,80% 33,36% 14,5 Stunden ca. 2 Tage 1599$ incl.
ClearImage SDK 100 % 99,9% 4 Stunden 17,5 Stunden incl. ? 637,5-1516€

Objekterkennung

Template matching

Template matching is a technique in digital image processing for finding small parts of an image which match a template image. It can be used in manufacturing as a part of quality control, a way to navigate a mobile robot, or as a way to detect edges in images. For templates without strong features, or for when the bulk of the template image constitutes the matching image, a template-based approach may be effective. As aforementioned, since template-based template matching may potentially require sampling of a large number of points, it is possible to reduce the number of sampling points by reducing the resolution of the search and template images by the same factor and performing the operation on the resultant downsized images (multiresolution, or pyramid, image processing), providing a search window of data points within the search image so that the template does not have to search every viable data point, or a combination of both.

SURF

SURF: Speeded Up Robust Features" is a performant scale- and rotation-invariant interest point detector and descriptor.

It approximates or even outperforms previously proposed schemes with respect to repeatability, distinctiveness, and robustness, yet can be computed and compared much faster.

This is achieved by relying on integral images for image convolutions building on the strengths of the leading existing detectors and descriptors (using a Hessian matrix-based measure for the detector, and a distribution-based descriptor) simplifying these methods to the essential.

This leads to a combination of novel detection, description, and matching steps.

Ergebnisse

Vergleich zwischen Template Matching und SURF

Der Vorteil des SURF Algorithmus ist, dass er skalierungs- und rotationsinvariant ist. So wird im Gegensatz zum Template Matching, wo evtl. vier Orientierungen geprüft werden müssen, nur ein Template gebraucht. Weil das Template Matching eine kürzere Bearbeitungszeit als SURF hat, sind beide Methoden von der Bearbeitungszeit her vergleichbar. Die Erkennungsqualität von SURF und Template Matching werden in der u.a. Tabelle verglichen. Sieben Gegenstände wurden in 465 Bildern geprüft und die Erkennungsrate wird in Prozent angezeigt. Mit Gegenstand 1.2 und 6 (Barcode, Lineal, langes Farbediagramm) sind die Erkennungsraten hoch und sehr ähnlich. Bei Gegenstand 3, enem Farbdiagramm mit niedrigem Kontrast versagt SURF. Bei Gegenstand 4, ein Stempel, ist Template Matching etwas besser. Der einzige Gegenstand, in dem SURF einen Vorteil gegenüber dem Template Matching hat, ist Nr. 5, eine lange Überschrift eines Aufklebers der manchmal geneigt ist. In den meisten Fällen ist die Fähigkeit des Findens von Gegenständen der beiden Verfahren vergleichbar. Das Resultat hängt von der Objekt-Klasse ab. Kontrastreiche Gegenstände liefern mit beiden Methoden eine ähnliche hohe Erkennungsrate. Wenn der Kontrast niedrig ist, ist Template Matching vorteilhaft.


Tabelle [[1]]


Die optimale Methode bei der Objekterkennung in Herbariumsbelegen hängt von der Objektklasse ab. Das bedeutet, wenn das Objekt immer die gleiche Größe und Ausrichtung hat, ist Template Matching die beste Methode. Wenn mehr als eine Orientierung möglich ist (z.B. 0°, 90°, 180°, 270°) bleibt die Methode am besten aber die Computerzeit steigt. Praktische Experimente zeigen, variiert der Winkel nur wenig (-6°<d<+6°) ist ein 3-Templatesatz mit -4°, 0°, +4° Orientierungswinkel geeignet. Wenn die Orientierung nur um ein paar Grad variiert (-3°<d<+3°) reicht ein Template aus, evtl. berechnet als Mittelwertbild aus Templates mit Orientierungswinkeln zwischen -3° und +3° . Wenn das Objekt nicht immer dieselbe Größe aber dieselbe Orientierung hat, ist das verbesserte Template Matching mit Templatetransformation auf die aktuelle Auflösung die beste Wahl. Das geht jedoch nur wenn die Auflösung bekannt ist, bzw. berechnet werden kann. Wenn Orientierung und Größe des Objekts beliebig ist, sollte SURF gewählt werden.

Erkennung handgeschriebener Ziffern

Die Herbarbelege enthalten handschriftlich notierte Jahreszahlen, Kennziffern und sonstige wichtige Zahlen. Diese stehen oftmals in Zusammenhang mit gedruckten Etiketten, die handschriftlich ausgefüllt wurden. Auf einem Teil der Herbarbelege befinden sich Aufkleber mit Filmnummern einer Mikroverfilmung. Diese Aufkleber enthalten einen gedruckten Teil und eine handschriftliche Nummer. Text und Position des gedruckten Teils können mittels OCR-Software bestimmt werden. Die Position der handgeschriebenen Ziffern können über die Position des gedruckten Teils ermittelt werden. Diese werden aus den Belegen ausgeschnitten und als Graubild weiter verarbeitet.


Separierung der Ziffern

Die erste Aufgabe ist die Trennung der kompletten Zahl in einzelne Ziffern. Meistens lassen sich die Ziffern durch einen vertikale Trennung gut separieren. Manchmal überlagern sich die Ziffern durch schräge oder enge Schreibweise. Durch eine Slope-Korrektur können die Ziffern senkrecht gestellt werden und sind sowohl besser trennbar als auch klassifizierbar. Für die Separierung wird zunächst aus dem Grauwertbild ein Binärbild erzeugt. Hierzu wird ein Schwellwert benutzt, z.B. der mittlere Grauwert. Bei den zum Teil vergilbten Vorlagen kann aber auch ein adaptives Schwellwertverfahren oft bessere Ergebnisse liefern. Oft sind neben den Ziffern auch noch vereinzelte weiße Pixel vorhanden. Um diese zu eliminieren werden im nächsten Schritt Blobs, die eine zu kleine Fläche besitzen, herausgefiltert. Die großen Blobs in der Reihenfolge von links stellen dann die einzelnen Ziffern dar.

Merkmalsextraktion

Ziel ist es nun, die handgeschriebene Zahl zu erkennen. Im folgenden wird die mögliche Merkmalsextraktion beschrieben.

Bild-Momente

In der digitalen Bildverarbeitung kommen geometrische Momente zur Gewinnung von Formmerkmalen zum Einsatz. Um Objekte zu beschreiben existieren 4 Arten von Momenten:

  • Diskrete geometrische Momente
  • Diskrete zentrale Momente
  • Normierte zentrale Momente
  • Hu Momente

Die diskreten geometrischen Momente, oder auch Spat-Momente genannt, sind durch eine mathematische Formel definiert. Die sogenannten Hu-Momente sind translations-, skalierungs- und rotationsinvariant. Aus den Momenten bis z.B. 4. Ordnung lassen sich die Merkmale zusammenstellen.

Sonden

Als Merkmale zur Erkennung handgeschriebener Ziffern kann man Fühler verwenden, die vom äußeren Rand soweit eindringen, bis sie auf die Ziffer stoßen. Hierbei wird an mehreren Stellen vom Rand bis zum ersten weißen Pixel gemessen. Verwendet werden hier 12 Sonden. Sonden 0-7 gehen im Uhrzeigersinn von oben jeweils senkrecht zur Bildkante ins Bild. Sonden 8-11 gehen im Uhrzeigersinn von oben rechts jeweils diagonal von den Bildecken aus ins Bild. Die Weglängen der Sonden werden nach einer Normierung als Merkmale benutzt. Die Sonden sind so ausgewählt, dass sie möglichst gut die 10 Ziffern unterscheiden können.

Fourier Transformation

Nach Anwendung der zweidimensionalen Fouriertransformation bietet sich an, alle Koeffizienten oder eine Untermenge als Merkmale für die Ziffern zu verwenden. Da die Fouriertransformation translationsinvariant ist, braucht die Lage der Ziffern vorher nicht normiert zu werden.

Projektionen

Eine einfache aber wirkungsvolle Methode um Merkmale aus den handgeschriebenen Ziffern zu extrahieren ist das Bestimmen der weißen Pixel in jeder Zeile und Spalte. Normiert man die Bilder auf eine Einheitsgröße von 16*16 Bildpunkte, so erhält man durch horizontale und vertikale Projektion jeweils 16 Zahlen. Die 16 Zahlen werden normiert, so dass die Summe 1 beträgt und können jetzt einem Klassifikator zugeführt werden.

neuronale Netze

Ein neuronales Netz ist die abstrakte Struktur eines Nervensystems oder ein Modell mit einer solchen Informationsarchitektur. In Wissenschaft und Technik werden neuronale Netze künstlich nachgebaut beziehungsweise simuliert. Ein vielschichtiges neuronales Netz repräsentiert Merkmale in verschiedenen Abstraktionsebenen. Die Verbindungen zwischen den Schichten können erregend oder hemmend sein und unterscheiden sich durch ihr synaptisches Gewicht. Die Grundlage neuronaler Netze ist fast gänzlich empirisch. Hinter dem tiefen Lernen steckt wenig tiefgründige Theorie. Zur Zeit kann lediglich durch Ausprobieren die Anzahl der Schichten, Anfangsgewichte usw. bestimmt werden.

Ergebnisse

Zur Ziffernerkennung wurde auch das freie Texterkennungsprogramm Tesseract getestet. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet. Durch Anlernen von handgeschriebenen Ziffern kann Tesseract in die Lage versetzt werden auch handgeschriebene Ziffern zu erkennen. Tesseract wurde mit Datenproben verschiedener Personen angelernt. Die Erkennungsrate wurde mit zwei verschiedenen Datensätzen geprüft. Der erste Datensatz stammt von schon bekannten Schreibern und der zweite von bisher unbekannten Schreibern. Die Gesamterkennungsgenauigkeit beträgt im ersten Fall 92.1% und im zweiten Fall 86.59%. Für den Einsatz im vorliegenden Forschungsprojekt sind die Erkennungsraten jedoch deutlich zu gering. Deshalb wird hier versucht mit eigenen Merkmalen bessere Ergebnisse zu erzielen. Die Merkmale Momente und Fourierkoeffizienten erweisen sich als schlecht bis mittelmäßig wie auch neuronale Netze. Gute Ergebnisse liefern Sonden und horizontale und vertikale Projektionen. Eine Kombination aus den letzten beiden ergibt eine hohe Trefferrate. Bei 2000 handgeschriebenen Ziffern kann sowohl mit einem nearest neighbor Klassifikator als auch mit der support vector machine eine Erkennungsrate von über 98% erreicht werden.

Handschrifterkennung

Die Handschriftenerkennung ist ein noch weitgehend ungelöstes Problem. Es gibt einige prototypartige Systeme, aber bei allen ist die Erkennungsrate noch bescheiden. Neben dem HMM (Hidden Markow Model) -System Esmeralda der Uni Dortmund, und dem DTW (Dynamic Time Warping)-System der Hochschule Hannover wurde auch das System tranScriptorium und die Transkribus Plattform der Uni Wien in Betracht gezogen. Hier ist die Möglichkeit der manuellen Nachbearbeitung gegeben und es wird außerdem an Verbesserungen der Webplattform gearbeitet. Deshalb wollen wir uns zunächst auf Transkribus konzentrieren auch wenn noch keine konkreten Erkennungsraten vorliegen.

Comparison of SALIX and PLIES - Plant Label Information Extraction System

The program SALIX -Semi-Automatic Label Information eXtraction System, by Daryl Lafferty, is an application for collecting plants dates. It’s a semi-automatic system. It works with another program ABBYY FineReader 5.0 Sprint. Coping the text from ABBYY and click “Paste from Clipboard”, the text will fill in the upper left window, and parts of the text are recognized and go to other field windows. In this case SALIX does a fairly good job of recognizing portions of the text. The pull down menus for family, genus, and specific epithet have numerous names in them that are correct. In this case the family, genus and epithet were guessed correctly. If this does not happen, one can use the pull down menus to find the right name. If the name is not in the menus, the operator should write by hand. If some windows should be filled but still blank, it will become the yellow or red blocks for warning. To correct the text in these fields, from the copy in the upper left window can be added before or after existing text with the right-clicking choosing. And exact text can be added to the vocabulary words. Additionally, some of the parameters of SALIX are allowed to change. The labels vary in quality, so OCR results will also vary. ABBYY and SALIX will be more useful when labels are rich. Finally, after several labels (20 or 30, typically) the data file is uploaded to the database. Obviously, this system should work with the ABBYY program together. The independence and flexibility are not enough. It can only operate the text files, though it can export other formats. We can’t see the original text from the corresponding image. That’s not convenient for operator to make sure or correct the dates precisely. Therefore compared with our program PLIES, we improve the disadvantages above and add some special functions as following. One of the windows show the original images corresponding to the text, making it more intuitive. It can deal with both the XML and text files independently. Moreover, it can load the text automatically, and it’s possible to reach the last text file or the next one. Parts of the text windows with the defective text, can be corrected with its list vocabulary. This program will draw on the experience of the SALIX essential functions, to be more functional.

Literatur

Tests

colortest

roter Text green Text blue Text yellow Text magenta Text cyan Text unterstrichen fett kursiv fett und kursiv

Text versetzt in a box

linktest


--KarlHeinzSteinke (talk) 16:20, 21 August 2014 (CEST)Insert non-formatted text here Media:Example.ogg File:Example.jpg link title Link title

tooltest

Liste von möglichen „kleinen“ Tools.

händisches Datenerfassungssystem

OCR-Text mit Levenshtein korrigieren

Begriffe (z.B. det. oder leg.) mit regular expressions suchen

konvertieren nach ABCD Standard

Grauwerthistogramm

Farbwerthistogramm

Mittlere Helligkeit

Kontrast

Auflösung dot/inch

Helligkeit im BGBM-Symbol

Kontrast im BGBM-Symbol

Bereich ausschneiden

Ocr als Textfile

Ocr als XMLfile

Kalibrierungsbild erzeugen

Kalibrierungsbild anwenden

Barcode suchen

Grauwertschablone auswerten

Farbwertschablone auswerten

Label definieren

Label suchen

Objekt (z.B.Stempel) suchen

Objekt (z.B.Stempel) definieren

Drehwinkel feststellen

Drehwinkel korrigieren