Anwendung von XML und TEI in der Kodierung von Dokumenten
Die Dokumentenerschließung erfolgt in XML. Benutzt wird die DTD bzw. XML-Schema der Text Encoding Initiative (TEI) [lokale Version der WDB], die nicht nur Übernahme von bibliographischen, bzw. descriptiven Metadaten im sog. TEI-Header erlaubt, sondern auch die strukturelle Beschreibung der Quelle selbst.
Strukturdatenerschließung mit <index> und <div>
Als zentrale Elemente für die strukturelle inhaltliche Beschreibung werden das <div> und das <index> Tag der TEI verwendet. Korrespondierende Images werden mit dem in der TEI P5 eingeführten Attribut @facs referenziert, das auf einen facsimile-Block (s.a. TEI Dokumentation ) verweist:
<graphic xml:id="mss_ed000021_00001" url="http://diglib.hab.de/mss/ed000021/00001.jpg" n="VD"/>
<graphic xml:id="mss_ed000021_00002" url="http://diglib.hab.de/mss/ed000021/00002.jpg" n="VS"/>
<graphic xml:id="mss_ed000021_00003" url="http://diglib.hab.de/mss/ed000021/00003.jpg" n="1r"/>
<graphic xml:id="mss_ed000021_00004" url="http://diglib.hab.de/mss/ed000021/00004.jpg" n="1v"/>
...
</facsimile>
Dieser facsimile-Block wird zu jedem digitalen Faksimie automatisch erzeugt und als separate Datei unter dem Namen facsimile.xml (Beispiel) abgelegt. Dabei dient der Identifier in @xml:id als eindeutiger Bezeichner für das referenzierte Objekt, hier die physikalische Seite, die im @url Attribut angegeben wird. In "n" stehen ggf. zusätzlich erfasste logische Foli- oder Paginierungen.
Strukturdaten werden in einer separaten TEI P5-konformen Datei namens tei-struct.xml erfasst, in die die Datei facsimile.xml per Entity-Referenz inkludiert wird.
<!ENTITY facs-mss_ed000021 SYSTEM "http://diglib.hab.de/mss/ed000021/facsimile.xml">
]>
<TEI version="5.0">
<teiHeader/>
&facs-mss_ed000021;
<text/>
</TEI>
Von den Strukturdaten wird über das <div>, <index> oder <pb> Element auf die Identifier im facsimile-Block zugegriffen:
<teiHeader/>
&facs-mss_ed000021;
<text>
<body>
<div>
<p>
<pb facs="#mss_ed000021_00003" n="1r"/> Hier beginnt der Text...
</p>
</div>
</body>
</TEI>
Zu beachten ist hier, dass ein pagebreak <pb> immer innerhalb einer logischen Einheit, hier <p>, gesetzt wird und den Beginn einer Seite kennzeichnet. Der Identifier in @facs bzw. in <graphic @xml:id> setzt sich zusammen aus der Materialart (hier mss), der normalisierten Signatur (hier ed000021) und der physikalischen fünfstelligen Seitenbezeichnung (hier 00003).
Um divisions <div> zu differenzieren, erhalten sie im @type Attribute festgelegte Werte. Die Standardwerte folgen - mit einigen kleineren Abweichungen (meist Präzisierungen) der auf der Seite des DFG Viewers veröffentlichten Liste der Strukturdaten. Die Liste wird als taxonomy Block (vgl. TEI Dokumentation) in den TEI-Header der jeweiligen Dokumente eingebunden und ist hier als separate Datei verfügbar.
<category xml:id="additional" n="mdp">
<catDesc>
<term xml:lang="de">Beilage</term>
<term xml:lang="en">additional</term>
<gloss>Beilage,Anlage</gloss>
<ref cRef="Appendix" type="zvdd">Appendix</ref>
</catDesc>
</category>
<category xml:id="annotation" n="mdp">
<catDesc>
<term xml:lang="de">Annotation</term>
<term xml:lang="en">annotation</term>
<gloss>
Handschriftliche Anmerkungen im Text, meist in margine. Für handschriftliche Provenienzeinträge benutze<ref target="#provenance">Provenienz</ref> mit "written". Für gedruckt Anmerkungen oder Glossierungen benutze <ref target="#marginal">Marginalie</ref>
</gloss>
<ref cRef="Other" type="zvdd">Other</ref>
</catDesc>
</category>
...
</taxonomy>
Der Attributwert mdp in @n bedeutet, dass diese Bezeichnung in den so genannten Massendigitalisierungsprojekten der DFG (16.-17Jh.) verwendet wird. @zvdd in <ref> bietet die in zvdd verwendete korrespondierende Bezeichnung.
<encodingDesc>
<classDecl>
&class-structMD;
<classDecl>
</encodingDesc>
</teiHeader
...
<div type="section" facs="#drucke_nh-276_00022">
<head>
De Vermibus humanum corpus infestantibus - De Lumbricis intestinorum teretibus
</head>
<p/>
</div>
(vgl. http://diglib.hab.de/drucke/nh-276/start.htm?image=00022).
Die Werte der Strukturliste können entweder in <div> oder in <index> verwendet werden. Der Unterschied beider ist innerhalb der Strukturdatendatei mitunter fließend. <div> kennzeichnet eher Text- oder Gegenstandsbereiche mit einer gewissen Erstreckung, während mit <index> eher punktuelle Objekte kodiert werden, z.B. ist ein Buchspiegel einerseits ein für das virtuelle Register punktuelles Phänomen, wenn er aber Text enthält möglicherweise auch ein Container. <index> ist dem Textfluß enthoben und bezeichnet den bloßen Registerbegriff, <div> repräsentiert einen Gliederungsabschnitt des Textes. In beiden ist die Belegung des @facs Attributs verpflichtend. Dies ist zwar redundant zu <pb @facs="">, doch wird so die spätere Extraktion und/oder XSLT Konvertierung wesentlich erleichtert.
<pb facs="#drucke_nh-276_00007" n="iii"/>
<head>Prolegomena de insectis</head>
<p>
<index indexName="fsw" facs="#drucke_nh-276_00007" n="iii">
<term type="Strukturdaten" target="#illustration" xml:lang="de">Illustration</term>
</index>
<index indexName="fsw" facs="#drucke_nh-276_00008" n="iv">
<term type="Strukturdaten" target="#illustration" xml:lang="de">Illustration</term>
</index>
...
</div>
Index-, bzw. Registerbegriffe
<index> erlaubt als leeres, nahezu überall verwendbares Element eine sehr flexible Nutzung. Es kann zur Kodierung insbesondere von Sach-, Personen-, Orts-, Sach-, Zeit- oder Formschlagworten dienen.
In @indexName wird die Art des Registerbegriffs spezifiziert. Der Wert "fsw" (s.o.) bedeutet, dass es sich um ein Formschlagwort handelt, hier die Standardliste der Strukturdaten. @indexName erlaubt nach den Kriterien von Person (psw), Ort (osw), Sachbetreff (stw), Zeit (zsw), Form (fsw) und weiteren auch über diverse Thesauri und Indexeintragungen hinaus, Registerbegriffe zu aggregieren und selektiv zu durchsuchen. Thesauri werden mit @target im <term> Element eingebunden. Obwohl es strenggenommen nicht erforderlich ist, wird die Ansetzungsform zum Zwecke der besseren Lesbarkeit oder ggf. Darstellung, hier Illustration, notiert; sinnvoll ist es darüber hinaus auch die Sprache der Ansetzungsform mit @xml:lang zu vermerken. @facs ist verpflichtend und verbindet den Indexbegriff mit den Faksimile. @n kann fakultativ für die logische Seitenzählung (Paginierung, Foliierung) dazutreten. In dieser Form können auch andere Thesauri eingebunden werden, wie z.B. der Festkulturthesaurus:
<term type="Festelement" target="#F0910" xml:lang="de">Leichenbegängnis</term>
</index>
Wenn <index> nicht nur als reine Strukturinformation, sondern innerhalb von Fließtext genutzt werden soll, kann <index> innerhalb von <term> verwendet werden. Diese Form kommt aber nur für Sachbegriffe in Betracht:
</index></term> ...
Personen werden im Fließtext mit <rs type="person">, Orte mit <rs type="place"> ausgezeichnet. Siehe Dokumentation zu elektronischen Editionen [coming soon].
Verwendet werden gemäß nachstehender Tabelle folgende
| @indexName | Benennung, Definition | <term> in <index> | <term> außerhalb von <index> | @type
in <term> (nur wenn eine Normierung stattfindet) |
Normierter Inhalt von <term> |
| stw | Sachstichwort oder Sachschlagwort in normalisierter oder Vorlageform | Normalisierte Form / Schlagwort | Vorlage | SWD
[Thesaurus]:
|
Festelement des Festkultur-Projektes Gebet- / Gesangbuecher: Anlass,Melodie Pest- / Seuchenschriften Arznei, Hygiene, Krankheitsname, Organ, Prophylaxe, Symptom, Therapie,Ursache, Verweis, Vorzeichen Kalender/Praktiken Astronomie, Landwirtschaft, Literatur, Medizin, Meteorologie, Oekonomie, Politik, Theologie |
| psw | Personenschlag-wort | PND-Ansetzung/ normalisierte Vorlage | Vorlageform |
|
|
| gsw | Geographisches Schlagwort, Körperschaft | Münchner Liste
normalisiert |
Vorlageform |
GKD GettyThesaurus |
|
| fsw | Formschlagwort | Normalisierte Form | Standardliste der Strukturdaten | ||
| bsw | Bildschlagwort; Bildbeschreibung durch Schlagwörter, Begriffe können an ICONCLASS angelehnt sein | Normalisierte Form | ICONCLASS | ||
| bstw | Bildstichwort; gravierter Text im Bild | Normalisierte Form | Vorlageform | ||
| notation
|
Notation | Bezeichner bzw. Notation |
ICONCLASS, |
ICONCLASS | |
| zit | Zitate;
Bibelzitate: vgl. Intern Klassische Zitate: nach Lewis & Short/ Little & Scott |
Normalisierte Form | Vorlageform |
biblical, |
|
| zsw | Zeitschlagwort; Datumsangabe von Ereignissen im Text | <date from="2002-11-27" to=" 2002-11-28">27.-28.11.2002 </date> | Innerhalb von <date> | ||
| wz | Wasserzeichen; Ausgewählte Seiten aus dem Buchblock oder Vorsatz | Typ: Krone, Stier etc. | Piccard |
Gattungsabhängige Belegung von @type in <div>
Folgende Begriffe werden gattungsabhänig in @type verwendet.
| Flugblätter | Emblembücher | Pest- u. Seuchenschriften | Kalender | Gebet- u. Gesangbücher | Festkultur |
| Ueberschrift
Bild Haupttext |
emblem
motto pictura subscriptio |
(s. Allgemein) | Januar
Februar Maerz April Mai Juni Juli August September Oktober November Dezember Kalender Praktik Zeichenerklaerung Zeitrechnung |
Gebet
Lied
|
Gebet
Gedicht Epigramm Furierzettel Inhaltsangabe Kartell Lied Predigt Personenverzeichnis Rede Schauspielrollen Szenarium Turnierartikel Turnierdankliste Turnierergebnisliste
|



