Arbeitspaket 1: Analyse bestehender Lösungen und Komponenten (Monat 1-6),Federf.: BGBM
Arbeitspaket 1
Das zu entwickelnde Verfahren wird bereits bestehende Softwarekomponenten nutzen und in das System integrieren. Die vorhandenen eigenen Entwicklungen der Antragsteller, sowie andere Arbeiten wurden oben in Punkt 2 Stand der Forschung ausgeführt. In der ersten Projektphase werden eigene Softwarelösungen parallel in den Themenfeldern Objekterkennung, Schrifterkennung und Text Mining in Kombination mit vorhandener Software für offene Software-Architekturen zusammengestellt und analysiert. Die im Projekt „Herbar Digital“ entwickelten Softwarelösungen im Bereich Objekt- und Schrifterkennung wurden bereits zielgerichtet für die Optimierung der Herbardigitalisierung entwickelt, während Text-Mining Komponenten in Bezug auf ihre Nutzung für den Herbardigitalisierungs- und Erschließungsworkflow hin überprüft werden müssen. Für die Überführung von Texten in eine strukturierte Form nutzt Text Mining Software Hintergrundwissen bzw. themenspezifisches Wissen. Hierfür wird zunächst nach Informationssystemen mit themenspezifischem Wissen recherchiert, die für das Verfahren relevant sind, und anschließend geprüft. Ein Ausgangspunkt kann hier die Studie über Services für „semantic enrichment“ aus dem OpenUp! Projekt sein . Relevant sind beispielsweise Systeme, die Informationen zu den wissenschaftlichen Namen auf den Belegen, zu den Ortsangaben (z.B. in Form von Geothesauri) oder zur Zuordnung von Personen zu Handschriften liefern. Entwicklungen anderer Einrichtungen werden ebenfalls berücksichtigt, im Hinblick auf den aktuellen Stand recherchiert und ihre Verwendungsmöglichkeit für das Standardverfahren untersucht.