Home    Kalender    Suche    A bis Z  
Bibliothek
Forschung
Museum und
Kulturprogramm
Publikationen
Wir über uns
 

Volltext

Ein roher Volltext ist von einer intellektuell bearbeiteten Edition zu unterscheiden. Er bildet aber die Grundlage zu einer Edition. Unabhängig davon dient er der Recherche im Dokument.

Volltext entsteht entweder durch Abtippen (meist in Asien, in der Regel im double keying Verfahren) oder durch OCR. In beiden Fällen kann nicht ein 100% korrekter Text vorausgesetzt werden. Beim Abtippen werden in der Regel mind. 99,5% Genauigkeit erzielt, bei OCR von alten Drucken derzeit ca. 97%.

Volltexte werden in der der Datei tei-transcript.xml abgelegt. Abgetippte Texte erhalten dort zumindest eine Minimalkodierung gemäß der TEI. Sofern keine Datei tei-struct.xml vorhanden ist, wird tei-transcript.xml zur Strukturdatenansicht verwendet. Für mittels OCR erfasste Texte gelten besondere Kodierungsvorschriften. Da die meisten Programme neben dem eigentlichen Text auch Bildkoordinaten der Wörter liefern, müssen diese mit gespeichert werden. Dies erfolgt innerhalb der Datei facsimile.xml nach folgendem Vorbild, z.B. für den Teilstring "ne":

<facsimile>
<surface
ulx="0"
uly="0"
lrx="2848"
lry="4288">
<graphic xml:id="drucke_843-helmst-dr-1_00005" url="http://diglib.hab.de/drucke/843-helmst-dr-1/00005.jpg"/> <zone
ulx="384"
uly="934"
lrx="447"
lry="1000">
<desc>ne</desc>
</zone>
<zone
ulx="..."
uly="..."
lrx="..."
lry="..."/>
<desc>...</desc>
...
</surface>
</facsimile>

Die Koordinatenangaben in Pixeln beziehen sich grundsätzlich auf den Master der Graphikdatei. Kleinere Derivate müssen im Verhältnis zur Angabe in <surface> umgerechnet werden. Anders als die TEI vorschlagen, wird hier nicht mit Identifieren und Verweisen in den Text gearbeitet, da die Kodierung jeden Wortes mit <w> den Text erheblich aufblähen und für weitere Kodierungen nahezu unbrauchbar machen würde. Gleichwohl kann der Text aus <desc> zusätzlich auch innerhalb des <body> genutzt werden.

Für alte Drucke wird derzeit testweise die Erkennungssoftware von b.i.t. Tomasi verwendet. Das Programm exportiert XML gemäß des von der Firma CCS eingeführten, und von verschiedenen Bibliotheken, u.a. der Library of Congress, genutzen Alto Formats. Die Umrechnung findet, wenn in Alto die Einheit Pixel gebraucht wird, wie folgt statt:

  • ulx =@HPOS in <TextBlock> (hier: 81) + die relative Angabe @HPOS in <String> (hier: 303) = 384
  • uly =@VPOS in <TextBlock> (hier: 239)+die relative Angabe @VPOS in <String> (hier: 695) = 934
  • lrx = @HPOS in <TextBlock> (hier: 81) + @HPOS (hier: 303) + @WIDTH (hier: 63) in <String> = 447
  • lry = @VPOS in <TextBlock> (hier: 239) + @VPOS (hier: 695) + @HEIGHT (hier: 66) in <String> = 1000

zurück
zum Seitenanfang

Zuletzt geändert am 27. Juli 2009
© HAB Wolfenbüttel - URL: http://www.hab.de/ - Impressum