Difference between revisions of "Main Page"

From StandAPHerb
Jump to: navigation, search
(Project Partner)
 
(21 intermediate revisions by the same user not shown)
Line 1: Line 1:
 
=StanDAP-Herb=
 
=StanDAP-Herb=
__NOTOC__
+
 
 
=== What is StanDAP-Herb? ===
 
=== What is StanDAP-Herb? ===
  
Line 15: Line 15:
 
*''Summary:'' On herbarium sheets, data like plant name, collection site, collector, barcode, accession number, etc. are found mostly on labels glued on the sheet. The data is thus visible on images taken from the specimen. Currently, they are entered manually into collection databases. The StanDAP-Herb Project funded by the DFG (German Research Foundation) develops a standard process for (semi-) automatic detection of meta-data on Herbarium specimens to replace the time consuming manual data input as much as possible. Image processing and other software detects objects such as labels or barcodes on the digitized record and classifies them. Text objects are transformed into structured information using text mining algorithms. For handwriting, author identification is attempted. The project evaluates and enhances existing software to comply with standard interfaces and integrates them into an open software architecture based on established IT standards. The software modules thus become available for work flow processing, in order to verify data quality, facilitate data discovery and enhance the application of collection data in research. The project addresses a large proportion of scientific collections: approximately 22 million herbarium specimens exist as botanical reference objects in Germany, about 500 million worldwide.
 
*''Summary:'' On herbarium sheets, data like plant name, collection site, collector, barcode, accession number, etc. are found mostly on labels glued on the sheet. The data is thus visible on images taken from the specimen. Currently, they are entered manually into collection databases. The StanDAP-Herb Project funded by the DFG (German Research Foundation) develops a standard process for (semi-) automatic detection of meta-data on Herbarium specimens to replace the time consuming manual data input as much as possible. Image processing and other software detects objects such as labels or barcodes on the digitized record and classifies them. Text objects are transformed into structured information using text mining algorithms. For handwriting, author identification is attempted. The project evaluates and enhances existing software to comply with standard interfaces and integrates them into an open software architecture based on established IT standards. The software modules thus become available for work flow processing, in order to verify data quality, facilitate data discovery and enhance the application of collection data in research. The project addresses a large proportion of scientific collections: approximately 22 million herbarium specimens exist as botanical reference objects in Germany, about 500 million worldwide.
  
=== Was ist StanDAP-Herb? ===
+
 
*''Titel:'' (Standard-Daten-Akquisionsprozess) - Ein standardisierter und optimierter Prozess zur Erschließung von digitalen Herbarbelegen
+
*''Titel:'' (Standard-Daten-Akquisionsprozess) - A standardised and optimised process for data acquisition from digital images of herbarium specimens
  
 
*''gefördert durch:'' DFG Deutsche Forschungsgemeinschaft, Literaturversorgung und Information / Erschließung und Digitalisierung, Call: Standardbildung zur Erschließung und / oder Digitalisierung von Objektgattungen in wissenschaftlichen Sammlungen
 
*''gefördert durch:'' DFG Deutsche Forschungsgemeinschaft, Literaturversorgung und Information / Erschließung und Digitalisierung, Call: Standardbildung zur Erschließung und / oder Digitalisierung von Objektgattungen in wissenschaftlichen Sammlungen
Line 22: Line 22:
 
*''Dauer:'' 3 Jahre (ab Juli 2014)
 
*''Dauer:'' 3 Jahre (ab Juli 2014)
  
*''Ziel:'' Das Projekt entwickelt und dokumentiert einen softwarebasierten Standardprozess für die Extraktion von Metadaten von digitalen Herbarbelegen  
+
*''Ziel:'' Das Projekt entwickelt und dokumeniter einen softwarebasierten Standardprozess für die Extraktion von Metadaten von digitalen Herbarbelegen  
  
 
*''Zusammenfassung:'' Auf Herbarbelegen werden Metadaten wie Artname, Fundort und -datum, Sammler, Katalognummern etc. mit Etiketten, Barcodes usw. flächig sichtbar auf den Bogen gebracht und damit im Foto oder Scan abgebildet. Bisher werden die Metadaten manuell in Sammlungsdatenbanken eingegeben, aber zunehmend werden Bilderfassungsverfahren eingesetzt, die auch die Nachprüfbarkeit der online verfügbaren Metainfor¬mation sichern. Das Standardverfahren soll nun so weit wie möglich die manuelle Metadatenerfassung ersetzen oder ergänzen. Bildverarbeitungssoftware erkennt Objekte auf dem digitalisierten Herbarbe¬leg und klassifiziert sie. Die Textobjekte werden mit Hilfe von Text-Mining Algorithmen in strukturierte Information überführt. Bei Handschriften wird versucht, den Autor zu erkennen. Im Projekt wird vorhandene Software evaluiert, unter Bildung von standardisierten Interfaces weiterentwickelt und  in eine übergreifende offene Softwarearchitektur auf Grundlage etablierter IT-Standards integriert. Abschließend wird das Verfahren hinsichtlich seiner Anforderungen als Standard formuliert und hinsichtlich seiner Anwendung dokumentiert. Das Verfahren adressiert einen großen Bereich naturwissenschaft¬licher Sammlungen, allein in Deutschland liegen ca. 22 Millionen Herbarbelege vor, weltweit über 500 Mio.
 
*''Zusammenfassung:'' Auf Herbarbelegen werden Metadaten wie Artname, Fundort und -datum, Sammler, Katalognummern etc. mit Etiketten, Barcodes usw. flächig sichtbar auf den Bogen gebracht und damit im Foto oder Scan abgebildet. Bisher werden die Metadaten manuell in Sammlungsdatenbanken eingegeben, aber zunehmend werden Bilderfassungsverfahren eingesetzt, die auch die Nachprüfbarkeit der online verfügbaren Metainfor¬mation sichern. Das Standardverfahren soll nun so weit wie möglich die manuelle Metadatenerfassung ersetzen oder ergänzen. Bildverarbeitungssoftware erkennt Objekte auf dem digitalisierten Herbarbe¬leg und klassifiziert sie. Die Textobjekte werden mit Hilfe von Text-Mining Algorithmen in strukturierte Information überführt. Bei Handschriften wird versucht, den Autor zu erkennen. Im Projekt wird vorhandene Software evaluiert, unter Bildung von standardisierten Interfaces weiterentwickelt und  in eine übergreifende offene Softwarearchitektur auf Grundlage etablierter IT-Standards integriert. Abschließend wird das Verfahren hinsichtlich seiner Anforderungen als Standard formuliert und hinsichtlich seiner Anwendung dokumentiert. Das Verfahren adressiert einen großen Bereich naturwissenschaft¬licher Sammlungen, allein in Deutschland liegen ca. 22 Millionen Herbarbelege vor, weltweit über 500 Mio.
Line 30: Line 30:
  
 
{|
 
{|
 +
| [[File:BGBM Logo Arbeitsfassung IIa RGB.png|130px|link=http://www.bgbm.org]]
 +
    ||
 
* [http://www.bgbm.org/en/biodiversity-informatics Research Group Biodiversity Informatics] <br>
 
* [http://www.bgbm.org/en/biodiversity-informatics Research Group Biodiversity Informatics] <br>
 
* [http://www.bgbm.org/de/wissenschaft-biodiversitaetsinformatik Forschungsgruppe Biodiversitätsinformatik]
 
* [http://www.bgbm.org/de/wissenschaft-biodiversitaetsinformatik Forschungsgruppe Biodiversitätsinformatik]
* contact: Agnes Kirchhoff, Email: a.kirchhoff@bgbm.org, T. +49 (0)30 83850167
+
* contact: Agnes Kirchhoff, Email: a.kirchhoff@bgbm.org, T. +49 (0)30-83850167
| [[File:BGBM Logo Arbeitsfassung IIa RGB.png|120px|link=http://www.bgbm.org]]
 
    ||
 
 
|}
 
|}
 +
  
  
 
'''Fraunhofer IOSB - Karlsruhe'''
 
'''Fraunhofer IOSB - Karlsruhe'''
 +
 +
{|
 +
| [[File:Fhg logo.gif|130px|link=http://www.iosb.fraunhofer.de/servlet/is/11/]]  || 
 +
 
Fraunhofer Institute of Optronics, System Technologies and Image Exploitation <br>
 
Fraunhofer Institute of Optronics, System Technologies and Image Exploitation <br>
 
* [http://www.iosb.fraunhofer.de/servlet/is/18352/ Department: Information management and production control (ILT)]
 
* [http://www.iosb.fraunhofer.de/servlet/is/18352/ Department: Information management and production control (ILT)]
Line 44: Line 49:
 
Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung <br>
 
Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung <br>
 
* [http://www.iosb.fraunhofer.de/servlet/is/17678/ Abteilung: Informationsmanagement und Leittechnik (ILT)]
 
* [http://www.iosb.fraunhofer.de/servlet/is/17678/ Abteilung: Informationsmanagement und Leittechnik (ILT)]
{|
+
 
| [[File:Fhg logo.gif|180px|link=http://www.iosb.fraunhofer.de/servlet/is/11/]]  || 
 
 
|}
 
|}
  
Line 52: Line 56:
 
'''University of Applied Sciences, Hannover'''
 
'''University of Applied Sciences, Hannover'''
  
* [http://f1.hs-hannover.de/internationales/wege-an-die-fakultaet-i-information-for-incomings/index.html Faculty I - Electrical Engeneering and Information Technology] <br>
 
* [http://f1.hs-hannover.de/startseite/index.html Fakultät I - Elekto- und Informationstechnik]
 
 
{|
 
{|
 
| [[File:HSHannover.gif|130px|link=http://www.hs-hannover.de/start/index.html]]||  
 
| [[File:HSHannover.gif|130px|link=http://www.hs-hannover.de/start/index.html]]||  
 +
 +
* [http://f1.hs-hannover.de/internationales/wege-an-die-fakultaet-i-information-for-incomings/index.html Faculty I - Electrical Engeneering and Information Technology] <br>
 +
* [http://f1.hs-hannover.de/startseite/index.html Fakultät I - Elektro- und Informationstechnik]
 
|}
 
|}
  
=== Project Plan ===
+
=== Abstract ===
* [[Arbeitspaket 1: Analyse bestehender Lösungen und Komponenten (Monat 1-6),Federf.: BGBM]]
+
 
 +
*[[Abstract]]
 +
 
 +
<!-- *[[Ziele]] -->
 +
 
 +
=== externe Links ===
 +
*[[Links]]
 +
 
 +
===Aufgaben===
 +
* [[Zeitplan]]
 +
 
 +
===Arbeitspakete===
 +
*[[Arbeitspaket 1: Analyse bestehender Lösungen und Komponenten (Monat 1-6),Federf.: BGBM]]
 +
*[[Arbeitspaket 2: Weiterentwicklung und Schnittstellenbildung Erschließungssoftwarekomponenten (Monat 7-30),Federführung: HsH]]
 +
*[[Arbeitspaket 3: Integration von Services und Informationssystemen für themenspezifisches Wissen (Monat 7-30),Federführung: BGBM]]
 +
*[[Arbeitspaket 4: Entwurf der Systemarchitektur (Monat 7-12),Federf.: Fraunhofer IOSB]]
 +
*[[Arbeitspaket 5: Implementierung des Gesamtsystems (Monat 7-30),Federf.: Fraunhofer IOSB]]
 +
*[[Arbeitspaket 6: Dokumentation des Standardverfahrens  (Monat 31-36),Federf.: BGBM]]
 +
 
 +
===Evaluation Dienste zur Informationsextraktion===
 +
 
 +
Dienste zur Informationsextraktion wurden auf Precision und Recall anhand von 1162 Testdatensätzen von Herbarbelegen unterschiedlicher Herkunft in Bezug auf folgende Inhalte getestet: wissenschaftlicher Name, Sammlername, Datum, GeoKoordinaten, Name des Herkunftlandes. Die Ergebnisse der Tests sind hier zu finden:
 +
 
 +
* [[File:DiensteEvaluation.zip  ]]
 +
 
 +
===IOSB Karlsruhe Dienste===
 +
*[[.war Datei und Doku | Quellcode von bereitgestellten Webservices]]
 +
 
 +
===BPMN Workflows===
 +
* [[File:Pre-OCR.pdf]]
 +
* [[File:OCR.pdf]]
 +
* [[File:Extractor.pdf]]
 +
 
 +
===OpenRefine Erweiterung (BGBM) ===
 +
* [http://api.bgbm.org/standap/download/open-refine-extension OpenRefine Extension zum Download]
 +
 
 +
===HSH Hannover Dienste===
 +
*[[PLIES]]
 +
 
 +
<!-- == Projektbegleitende Arbeitsgruppe ==
 +
* [[Empfehlungen des ersten Treffens, 11.Juli 2016]]
  
=== Projektbegleitende Arbeitsgruppe ===
+
* [[2. Treffen, 1.u.2.Juli 2017]]-->
[[Empfehlungen des ersten Treffens, 11.Juli 2016]]
 

Latest revision as of 10:09, 12 July 2018

StanDAP-Herb

What is StanDAP-Herb?

Herbarbeleg Objekte.JPG
  • Title: (Standard Data Acquisition Process) - A standardised and optimised process for data acquisition from digital images of herbarium specimens
  • Funded by: DFG German Research Foundation, Literaturversorgung und Information / Erschließung und Digitalisierung, Call: Standardbildung zur Erschließung und / oder Digitalisierung von Objektgattungen in wissenschaftlichen Sammlungen
  • Duration: 3 Years (from July 2014)
  • Aim: The project develops and documents a software-driven standard process for extracting metadata from images of herbarium specimens
  • Summary: On herbarium sheets, data like plant name, collection site, collector, barcode, accession number, etc. are found mostly on labels glued on the sheet. The data is thus visible on images taken from the specimen. Currently, they are entered manually into collection databases. The StanDAP-Herb Project funded by the DFG (German Research Foundation) develops a standard process for (semi-) automatic detection of meta-data on Herbarium specimens to replace the time consuming manual data input as much as possible. Image processing and other software detects objects such as labels or barcodes on the digitized record and classifies them. Text objects are transformed into structured information using text mining algorithms. For handwriting, author identification is attempted. The project evaluates and enhances existing software to comply with standard interfaces and integrates them into an open software architecture based on established IT standards. The software modules thus become available for work flow processing, in order to verify data quality, facilitate data discovery and enhance the application of collection data in research. The project addresses a large proportion of scientific collections: approximately 22 million herbarium specimens exist as botanical reference objects in Germany, about 500 million worldwide.


  • Titel: (Standard-Daten-Akquisionsprozess) - A standardised and optimised process for data acquisition from digital images of herbarium specimens
  • gefördert durch: DFG Deutsche Forschungsgemeinschaft, Literaturversorgung und Information / Erschließung und Digitalisierung, Call: Standardbildung zur Erschließung und / oder Digitalisierung von Objektgattungen in wissenschaftlichen Sammlungen
  • Dauer: 3 Jahre (ab Juli 2014)
  • Ziel: Das Projekt entwickelt und dokumeniter einen softwarebasierten Standardprozess für die Extraktion von Metadaten von digitalen Herbarbelegen
  • Zusammenfassung: Auf Herbarbelegen werden Metadaten wie Artname, Fundort und -datum, Sammler, Katalognummern etc. mit Etiketten, Barcodes usw. flächig sichtbar auf den Bogen gebracht und damit im Foto oder Scan abgebildet. Bisher werden die Metadaten manuell in Sammlungsdatenbanken eingegeben, aber zunehmend werden Bilderfassungsverfahren eingesetzt, die auch die Nachprüfbarkeit der online verfügbaren Metainfor¬mation sichern. Das Standardverfahren soll nun so weit wie möglich die manuelle Metadatenerfassung ersetzen oder ergänzen. Bildverarbeitungssoftware erkennt Objekte auf dem digitalisierten Herbarbe¬leg und klassifiziert sie. Die Textobjekte werden mit Hilfe von Text-Mining Algorithmen in strukturierte Information überführt. Bei Handschriften wird versucht, den Autor zu erkennen. Im Projekt wird vorhandene Software evaluiert, unter Bildung von standardisierten Interfaces weiterentwickelt und in eine übergreifende offene Softwarearchitektur auf Grundlage etablierter IT-Standards integriert. Abschließend wird das Verfahren hinsichtlich seiner Anforderungen als Standard formuliert und hinsichtlich seiner Anwendung dokumentiert. Das Verfahren adressiert einen großen Bereich naturwissenschaft¬licher Sammlungen, allein in Deutschland liegen ca. 22 Millionen Herbarbelege vor, weltweit über 500 Mio.

Project Partner

Botanic Garden and Botanical Museum Berlin - Freie Universität Berlin

BGBM Logo Arbeitsfassung IIa RGB.png


Fraunhofer IOSB - Karlsruhe

Fhg logo.gif

Fraunhofer Institute of Optronics, System Technologies and Image Exploitation

Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung


University of Applied Sciences, Hannover

HSHannover.gif

Abstract


externe Links

Aufgaben

Arbeitspakete

Evaluation Dienste zur Informationsextraktion

Dienste zur Informationsextraktion wurden auf Precision und Recall anhand von 1162 Testdatensätzen von Herbarbelegen unterschiedlicher Herkunft in Bezug auf folgende Inhalte getestet: wissenschaftlicher Name, Sammlername, Datum, GeoKoordinaten, Name des Herkunftlandes. Die Ergebnisse der Tests sind hier zu finden:

IOSB Karlsruhe Dienste

BPMN Workflows

OpenRefine Erweiterung (BGBM)

HSH Hannover Dienste