Praxis-Workshop OCR

Mit Optical-Character-Recognition-Verfahren Texte aus Bildern und Scans extrahieren

In einem Workshop am 8. und 9. Mai 2023 können Forschende am praktischen Beispiel lernen, wie sie mit OCR-Verfahren Texte in Bildern und Scans gemeinfreier Werke identifizieren und herausfiltern. Der Workshop wird organisiert und gestaltet vom Fachinformationsdienst für Buch-, Bibliotheks- und Informationswissenschaft, OCR-D, OCR4all und text+.

Was ist OCR?

Optical-Character-Recognition-Verfahren (OCR) ermöglichen es, Texte in Bildern oder Scans zu “erkennen” und diese durchsuchbar zu machen. Daher sind sie für die Disziplinen, die mit großen Textmengen arbeiten, ein wichtiges Tool und können die Forschungsarbeit maßgeblich erleichtern. Sie müssen die Texte nicht mehr selbst manuell abtippen und können sie professionell bearbeiten, edieren und dokumentieren.

Sie werden erfahren,

wie OCR-Verfahren die Forschung schon jetzt beeinflussen und voranbringen
wie das Projekt OCR-D dazu beiträgt, dass OCR-Verfahren direkt durch die Bibliotheken eingesetzt werden, wenn diese gemeinfreie Werke digitalisieren und bereitstellen
was bei der Anwendung von OCR-Verfahren zu beachten ist.
wie man mit OCR4all “eigene” Texte aus Scans und Bildern extrahiert.
wie ein gutes Forschungsdatenmanagement für OCR-Texte aussehen kann (Gastbeitrag von text+).