2. Treffen, 1.u.2.Juli 2017
Contents
Treffen der projektbegleitenden Arbeitsgruppe zum StanDAP-Herb Projekt
Teilnehmer/innen
- Stefan Dressler, Frankfurt, Senckenberg Forschungsinstitut und Naturmuseum Frankfurt
- Hans-Joachim Esser, München, Botanische Staatssammlung München
- Markus Oppermann, Gatersleben, Leibnitz Institut für Pflanzengenetik und Kulturpflanzenforschung
- Heimo Rainer, Wien, Naturhistorisches Museum Wien
- Albert Dieter Stevens, Berlin, Botanischer Garten und Botanisches Museum Berlin
StanDAP-Herb Projekt:
- Eduard Santamaria, Karlsruhe, Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung (IOSB)
- Walter Berendsohn, Berlin, Botanischer Garten und Botanisches Museum Berlin
- Anton Güntsch, Berlin, Botanischer Garten und Botanisches Museum Berlin
- Agnes Kirchhoff, Berlin, Botanischer Garten und Botanisches Museum Berlin
- Dominik Röpert, Berlin, Botanischer Garten und Botanisches Museum Berlin
- Fabian Reimeier, Berlin, Botanischer Garten und Botanisches Museum Berlin
Tagesordnung
Donnerstag 01. Juni 2017 (13.00 – 17.00 Uhr)
1. Begrüßung, Vorstellung der Teilnehmer, Tagesordnung
2. Kurze Übersicht über das StanDAP-Herb Projekt
3. Demonstration von bestehenden Entwicklungen und Diskussion
• Entwicklungen in der Objekterkennung
• Kooperation mit ‚Herbardrop‘
• Services zur Extraktion von Metadaten aus Texten
• ‚Open Refine‘ als Datenmanagement-Tool für StanDAP-Herb
• Integration von JACQ
Freitag 02. Juni 2017 (9.00-12.00)
4. Diskussion
5. Andere Initiativen
• Schriftproben (Autographen)
• Annosys (Annotationssystem)
• Identifier (stable Identifier)
• Herbonauten (Citizen Science)
6. Ausblick
Präsentationen / Links
- Textbased Information Extraction Services: File:Textbased Information Extraction Services IOSB.PDF
Empfehlungen / Diskussion
Schwerpunkt des Systems: Datenanalyse, Datenbereinigung, Vorsortierung zur weiteren Bearbeitung
• Wird ein Workflow Management-System verwendet? Für unsere Ziele zu wenig variabel, die Vorgehensweise wird zu stark festgelegt
• Best Practise: Workflow in einer Abbildung darstellen (liegt bereits vor)
• Kombination von Datenquellen/Services: Kann man im Prozess schon eine Rückkopplung machen? Das würde die Effektivität erhöhen.
• Gibt es Algorithmen, die auf Basis von Trainingssets Regular Expressions selbst entwickeln?
• Bestehende Systeme für Schrifterkennung einbinden; Es gibt an der Uni Innsbruck Trainingsdatensätze für NNs, die man nutzen könnte.
• Besteht eine Verbindung zu institutionellen Datenbanken, in denen die Daten endgültig gespeichert werden sollen? Keine direkte Speicherung, Mapping beispielhaft für JACQ
• In welchem Repository ist das System zu finden? OpenRefine in Github
• Automatisierte Skripte?
• Empfehlung: Direkte Anbindung an Datenbanken wünschenswert
• Empfehlung: Benutzung vereinfachen
• Empfehlung: Bekanntmachung von StanDAP-Herb beim nächsten Treffen der Herbarkustoden
• Empfehlung: bei Personennamen lokale für die jeweilige Institution relevante Listen einbinden
• Empfehlung weitere Entwicklungen: Kombination von Lebensdaten von Personen mit Sammeldatum
• Empfehlung: Skalierbarkeit, System auf große Datenmengen vorbereiten
• Empfehlung: Mitspeicherung der statistischen Inferenz
• Empfehlung: alle Präsentationen und Links ins Wiki stellen
Kommentare zu weiteren Initiativen
Herbonauten
Empfehlung Antrag (z.B. DFG LIS) für mehrere Institutionen stellen: Wien, Frankfurt, München unterstützen die Initiative
Annosys
Lokale Bearbeitung
Empfehlung: JSTOR Einbindung wichtig
Dubletten
Identifier
Wallich-Link
Wie wird mit Änderungen bei IDs umgegangen? IDs direkt mit Specimen verknüpft
Wie sollen die URI generiert werden? Z.B. aus Barcodes
DOIs bei Genbanken
Autographen
Wie sind die Dokumente lizensiert?
Personennamen referenzieren nach Viaf (bereits referenziert nach GND und HUH)
Autographen mit Europeana verlinken
LIDO Standard berücksichtigen
Weiterentwicklung: Autographensammlungen anderer Institute einbinden
Antrag für ein Autographenprojekt stellen
Einbindung in KALIOPE Autographensammlung