OCR-D: Coordination Project for the Development of Methods of Optical Character Recognition

Das „Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR)“, kurz OCR-D, untersucht und beschreibt Verfahren der automatischen Texterkennung. Am Ende des Gesamtvorhabens soll ein Konzept zur OCR-Verarbeitung von Digitalisaten des gedruckten deutschen Kulturerbes des 16. bis 19. Jahrhunderts erarbeitet sein. Die Projektdokumentation soll Antworten auf technische, informationswissenschaftliche und organisatorische Probleme bieten.

Durchgeführt wird das Projekt von der Herzog August Bibliothek, der Berlin-Brandenburgischen Akademie der Wissenschaften, sowie im Besonderen dem Deutschen Textarchiv (DTA) in Berlin und der Bayerischen Staatsbibliothek in München. Konkret werden folgende Themen bearbeitet:

  • Erarbeitung von Standards für Formate, Messung von Text- und Strukturgenauigkeiten sowie für Referenzkorpora und Trainingsdaten

  • Zusammenstellung geeigneter historischer Textkorpora und von lexikalischen Werken

  • Konzepte für optimale Workflows und die Langzeitarchivierung

  • Evaluation vorhandener OCR-Werkzeuge, auch für die Nachkorrektur, und Identifikation von Optimierungsmöglichkeiten

  • Konzepte für nachnutzbare Qualitätsprüfung und -sicherung

Die an der Herzog August Bibliothek erarbeiteten Konzepte für die Qualitätsprüfung und -sicherung fließen in die anderen Arbeitspakete ein und vervollständigen so das erarbeitete Gesamtkonzept. In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Der Zugriff auf den elektronischen Volltext ist jedoch oft nicht oder nur in unzureichender Form möglich. Erst mit Hilfe von OCR-Verfahren können aus den Bilddaten durchsuchbare Volltexte automatisch generiert werden. Die Nutzung dieses Mehrwerts von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung heute unverzichtbar. Die Qualitätsprüfung sichert, dass der Forschung die bestmöglichen OCR-Ergebnisse zur Verfügung stehen.

In der ersten Phase werden die Projektpartner eine Koordinierungs- und Betreuungsstruktur für Projekte der zweiten Förderphase aufbauen.

PURL:  http://diglib.hab.de/?link=068


Finanzierung: Deutsche Forschungsgemeinschaft (DFG)
Laufzeit: Oktober 2015 – März 2017
Bearbeiterin: Elisa Herrmann
Tel. 05331-808-306