Die Projektdokumentation soll Antworten auf technische, informationswissenschaftliche und organisatorische Probleme bieten. Durchgeführt wird das Projekt von der Herzog August Bibliothek, der Berlin-Brandenburgischen Akademie der Wissenschaften und der Staatsbibliothek zu Berlin. Konkret werden folgende Themen bearbeitet:

  • Erarbeitung von Standards für Formate, Messung von Text- und Strukturgenauigkeiten sowie für Referenzkorpora und Trainingsdaten
  • Zusammenstellung geeigneter historischer Textkorpora und von lexikalischen Werken
  • Konzepte für optimale Workflows und die Langzeitarchivierung
  • Evaluation vorhandener OCR-Werkzeuge, auch für die Nachkorrektur, und Identifikation von Optimierungsmöglichkeiten
  • Konzepte für nachnutzbare Qualitätsprüfung und -sicherung

 

Die an der Herzog August Bibliothek erarbeiteten Konzepte für die Qualitätsprüfung und -sicherung fließen in die anderen Arbeitspakete ein und vervollständigen so das erarbeitete Gesamtkonzept. In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Der Zugriff auf den elektronischen Volltext ist jedoch oft nicht oder nur in unzureichender Form möglich. Erst mit Hilfe von OCR-Verfahren können aus den Bilddaten durchsuchbare Volltexte automatisch generiert werden.

//www.hab.de/wp-content/uploads/2020/02/hab-forschungsprojekte-ocr-beispiel-text.jpg
Korrekt auf Regionen- und Zeilenebene segmentierte, volltexterkannte Seite aus Johannes Praetorius' im Jahr 1671 publizierter Schrift »Eine nützliche Spiel-Karte für die Flucher« (M: Tg 117)

Die Nutzung dieses Mehrwerts von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung heute unverzichtbar. Die Qualitätsprüfung sichert, dass der Forschung die bestmöglichen OCR-Ergebnisse zur Verfügung stehen.

In der ersten Phase werden die Projektpartner eine Koordinierungs- und Betreuungsstruktur für Projekte der zweiten Förderphase aufbauen.

In Kooperation mit der Berlin-Brandenburgischen Akademie der Wissenschaften und der Staatsbibliothek zu Berlin

PURL: http://diglib.hab.de/?link=068

Finanzierung: Deutsche Forschungsgemeinschaft (DFG)
Laufzeit: Oktober 2015 – Juli 2020
Projektbeteiligte: Elisabeth Engl (Bearbeiterin)