In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Der Zugriff auf den elektronischen Volltext ist jedoch oft nicht oder nur in unzureichender Form möglich. Erst mit Hilfe von OCR-Verfahren können aus den Bilddaten durchsuchbare Volltexte automatisch generiert werden.

Der Mehrwert von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung, heute unverzichtbar. Die Förderinitiative OCR-D verfolgt das Ziel, die Volltexterkennung weiterzuentwickeln und für die Massendigitalisierung in Bibliotheken zu optimieren.

Das Projekt wird von einem Koordinationsprojekt der Herzog August Bibliothek, der Berlin-Brandenburgischen Akademie der Wissenschaften, der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen, der Staatsbibliothek zu Berlin und der Niedersächsischen Staats- und Universitätsbibliothek Göttingen gesteuert.

In Phase I (2015–2018) wurden der aktuelle Stand von OCR-Techniken evaluiert und Entwicklungsbedarfe herausgearbeitet. Darauf aufbauend wurde in acht Modulprojekten während Phase II (2018–2020) an Werkzeugen für OCR-D gearbeitet, die sich den spezifischen Herausforderungen bei der Volltexterkennung historischer Dokumente widmen. Die vom Koordinierungsprojekt integrierten, protoypischen Ergebnisse sind auf GitHub frei verfügbar.

Volltexterkannte Seite aus Johannes Praetorius' im Jahr 1671 publizierter Schrift »Eine nützliche Spiel-Karte für die Flucher«
Korrekt auf Regionen- und Zeilenebene segmentierte, volltexterkannte Seite aus Johannes Praetorius' im Jahr 1671 publizierter Schrift »Eine nützliche Spiel-Karte für die Flucher« (M: Tg 117)

Phase III startete 2021. Ziel dieser Phase ist die Implementierung der OCR-D-Software in bestandshaltenden und -verarbeitenden Einrichtungen und die Weiterentwicklung ausgewählter Werkzeuge. Vier Implementierungs- und drei Modulprojekte wurden von der DFG bewilligt:

Implementierungsprojekte

 

Modulprojekte

 

Das Koordinierungsprojekt unterstützt die Implementierungs- und Modulprojekte bei ihrer Arbeit. In Phase III wird außerdem die OCR-D-Software für die Massendigitalisierung optimiert und ein Verstetigungskonzept erarbeitet.

Innerhalb des Koodinierungsprojekts übernimmt die Herzog August Bibliothek die Projektkoordination – dazu gehören Projektmanagement, Organisation von Workshops, Dokumentation, wissenschaftliche Publikationen sowie die konzeptionelle Vorbereitung der Volltexttransformation von VD 16, VD 17 und VD 18.

Website: https://ocr-d.de/de/

In Kooperation mit der Berlin-Brandenburgischen Akademie der Wissenschaften, der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen, der Staatsbibliothek zu Berlin und der Niedersächsischen Staats- und Universitätsbibliothek Göttingen

PURL: http://diglib.hab.de/?link=068

Finanzierung: Deutsche Forschungsgemeinschaft (DFG)
Laufzeit: Oktober 2015 – Juni 2024
Projektbeteiligte: Lena Hinrichsen (Bearbeiterin)