Home    Kalender    Suche    A bis Z  
Bibliothek
Forschung
Museum und
Kulturprogramm
Publikationen
Wir über uns
 

Anwendung von XML und TEI in der Kodierung von Dokumenten

Die Dokumentenerschließung erfolgt in XML. Benutzt wird die DTD bzw. XML-Schema der Text Encoding Initiative (TEI) [lokale Version der WDB], die nicht nur Übernahme von bibliographischen, bzw. descriptiven Metadaten im sog. TEI-Header erlaubt, sondern auch die strukturelle Beschreibung der Quelle selbst.

Strukturdatenerschließung mit <index> und <div>

Als zentrale Elemente für die strukturelle inhaltliche Beschreibung werden das <div> und das <index> Tag der TEI verwendet. Korrespondierende Images werden mit dem in der TEI P5 eingeführten Attribut @facs referenziert, das auf einen facsimile-Block (s.a. TEI Dokumentation ) verweist:

<facsimile xml:id="ptr2images_mss_ed000021">
 <graphic xml:id="mss_ed000021_00001" url="http://diglib.hab.de/mss/ed000021/00001.jpg" n="VD"/>
 <graphic xml:id="mss_ed000021_00002" url="http://diglib.hab.de/mss/ed000021/00002.jpg" n="VS"/>
 <graphic xml:id="mss_ed000021_00003" url="http://diglib.hab.de/mss/ed000021/00003.jpg" n="1r"/>
 <graphic xml:id="mss_ed000021_00004" url="http://diglib.hab.de/mss/ed000021/00004.jpg" n="1v"/>
 ...
</facsimile>

Dieser facsimile-Block wird zu jedem digitalen Faksimie automatisch erzeugt und als separate Datei unter dem Namen facsimile.xml (Beispiel) abgelegt. Dabei dient der Identifier in @xml:id als eindeutiger Bezeichner für das referenzierte Objekt, hier die physikalische Seite, die im @url Attribut angegeben wird. In "n" stehen ggf. zusätzlich erfasste logische Foli- oder Paginierungen.

Strukturdaten werden in einer separaten TEI P5-konformen Datei namens tei-struct.xml erfasst, in die die Datei facsimile.xml per Entity-Referenz inkludiert wird.

<!DOCTYPE TEI SYSTEM "tei.dtd" [
 <!ENTITY facs-mss_ed000021 SYSTEM "http://diglib.hab.de/mss/ed000021/facsimile.xml">
]>
 <TEI version="5.0">
  <teiHeader/>
    &facs-mss_ed000021;
  <text/>
 </TEI>

Von den Strukturdaten wird über das <div>, <index> oder <pb> Element auf die Identifier im facsimile-Block zugegriffen:

 <TEI version="5.0">
  <teiHeader/>
    &facs-mss_ed000021;
  <text>
   <body>
    <div>
      <p>
         <pb facs="#mss_ed000021_00003" n="1r"/> Hier beginnt der Text...
      </p>
    </div>
   </body>
 </TEI>

Zu beachten ist hier, dass ein pagebreak <pb> immer innerhalb einer logischen Einheit, hier <p>, gesetzt wird und den Beginn einer Seite kennzeichnet. Der Identifier in @facs bzw. in <graphic @xml:id> setzt sich zusammen aus der Materialart (hier mss), der normalisierten Signatur (hier ed000021) und der physikalischen fünfstelligen Seitenbezeichnung (hier 00003).

Um divisions <div> zu differenzieren, erhalten sie im @type Attribute festgelegte Werte. Die Standardwerte folgen - mit einigen kleineren Abweichungen (meist Präzisierungen) der auf der Seite des DFG Viewers veröffentlichten Liste der Strukturdaten. Die Liste wird als taxonomy Block (vgl. TEI Dokumentation) in den TEI-Header der jeweiligen Dokumente eingebunden und ist hier als separate Datei verfügbar.

<taxonomy xml:id="structuralMD">
 <category xml:id="additional" n="mdp">
  <catDesc>
    <term xml:lang="de">Beilage</term>
    <term xml:lang="en">additional</term>
    <gloss>Beilage,Anlage</gloss>
    <ref cRef="Appendix" type="zvdd">Appendix</ref>
   </catDesc>
</category>
<category xml:id="annotation" n="mdp">
  <catDesc>
    <term xml:lang="de">Annotation</term>
    <term xml:lang="en">annotation</term>
    <gloss>
        Handschriftliche Anmerkungen im Text, meist in margine. Für handschriftliche Provenienzeinträge         benutze<ref target="#provenance">Provenienz</ref> mit "written". Für gedruckt Anmerkungen oder         Glossierungen benutze <ref target="#marginal">Marginalie</ref>
    </gloss>
    <ref cRef="Other" type="zvdd">Other</ref>
  </catDesc>
</category>
...
</taxonomy>

Der Attributwert mdp in @n bedeutet, dass diese Bezeichnung in den so genannten Massendigitalisierungsprojekten der DFG (16.-17Jh.) verwendet wird. @zvdd in <ref> bietet die in zvdd verwendete korrespondierende Bezeichnung.

<teiHeader>
 <encodingDesc>
  <classDecl>
   &class-structMD;
  <classDecl>
 </encodingDesc>
</teiHeader
...
<div type="section" facs="#drucke_nh-276_00022">
 <head>
   De Vermibus humanum corpus infestantibus - De Lumbricis intestinorum teretibus
 </head>
 <p/>
</div>
  

(vgl. http://diglib.hab.de/drucke/nh-276/start.htm?image=00022).

Die Werte der Strukturliste können entweder in <div> oder in <index> verwendet werden. Der Unterschied beider ist innerhalb der Strukturdatendatei mitunter fließend. <div> kennzeichnet eher Text- oder Gegenstandsbereiche mit einer gewissen Erstreckung, während mit <index> eher punktuelle Objekte kodiert werden, z.B. ist ein Buchspiegel einerseits ein für das virtuelle Register punktuelles Phänomen, wenn er aber Text enthält möglicherweise auch ein Container. <index> ist dem Textfluß enthoben und bezeichnet den bloßen Registerbegriff, <div> repräsentiert einen Gliederungsabschnitt des Textes. In beiden ist die Belegung des @facs Attributs verpflichtend. Dies ist zwar redundant zu <pb @facs="">, doch wird so die spätere Extraktion und/oder XSLT Konvertierung wesentlich erleichtert.

<div type="introduction" facs="#drucke_nh-276_00007" n="iii">
 <pb facs="#drucke_nh-276_00007" n="iii"/>
 <head>Prolegomena de insectis</head>
 <p>
  <index indexName="fsw" facs="#drucke_nh-276_00007" n="iii">
    <term type="Strukturdaten" target="#illustration" xml:lang="de">Illustration</term>
  </index>
  <index indexName="fsw" facs="#drucke_nh-276_00008" n="iv">
    <term type="Strukturdaten" target="#illustration" xml:lang="de">Illustration</term>
  </index>
...
</div>
  

Index-, bzw. Registerbegriffe

<index> erlaubt als leeres, nahezu überall verwendbares Element eine sehr flexible Nutzung. Es kann zur Kodierung insbesondere von Sach-, Personen-, Orts-, Sach-, Zeit- oder Formschlagworten dienen.

In @indexName wird die Art des Registerbegriffs spezifiziert. Der Wert "fsw" (s.o.) bedeutet, dass es sich um ein Formschlagwort handelt, hier die Standardliste der Strukturdaten. @indexName erlaubt nach den Kriterien von Person (psw), Ort (osw), Sachbetreff (stw), Zeit (zsw), Form (fsw) und weiteren auch über diverse Thesauri und Indexeintragungen hinaus, Registerbegriffe zu aggregieren und selektiv zu durchsuchen. Thesauri werden mit @target im <term> Element eingebunden. Obwohl es strenggenommen nicht erforderlich ist, wird die Ansetzungsform zum Zwecke der besseren Lesbarkeit oder ggf. Darstellung, hier Illustration, notiert; sinnvoll ist es darüber hinaus auch die Sprache der Ansetzungsform mit @xml:lang zu vermerken. @facs ist verpflichtend und verbindet den Indexbegriff mit den Faksimile. @n kann fakultativ für die logische Seitenzählung (Paginierung, Foliierung) dazutreten. In dieser Form können auch andere Thesauri eingebunden werden, wie z.B. der Festkulturthesaurus:

<index indexName="stw" facs="drucke_197-15-hist_00024">
  <term type="Festelement" target="#F0910" xml:lang="de">Leichenbegängnis</term>
</index>

Wenn <index> nicht nur als reine Strukturinformation, sondern innerhalb von Fließtext genutzt werden soll, kann <index> innerhalb von <term> verwendet werden. Diese Form kommt aber nur für Sachbegriffe in Betracht:

...der am Tage der Fürstlichen <term>Leichbegängnuß<index indexName="stw" facs="drucke_197-15-hist_00024"><term type="Festelement" target="#F0910" xml:lang="de">Leichenbegängnis</term>
</index></term> ...

Personen werden im Fließtext mit <rs type="person">, Orte mit <rs type="place"> ausgezeichnet. Siehe Dokumentation zu elektronischen Editionen [coming soon].

Verwendet werden gemäß nachstehender Tabelle folgende

@indexName Benennung, Definition <term> in <index> <term> außerhalb von <index> @type in <term>
(nur wenn eine Normierung stattfindet)
Normierter Inhalt von <term>
stw Sachstichwort oder Sachschlagwort in normalisierter oder Vorlageform  Normalisierte Form / Schlagwort Vorlage SWD

[Thesaurus]:
Festelement,
Gebet-Gesangbuch,
Seuchenschrift,
Kalender

 

 

 

 

Festelement des Festkultur-Projektes

Gebet- / Gesangbuecher:

Anlass,Melodie

Pest- / Seuchenschriften

Arznei, Hygiene, Krankheitsname, Organ, Prophylaxe, Symptom, Therapie,Ursache, Verweis, Vorzeichen

Kalender/Praktiken

Astronomie, Landwirtschaft, Literatur, Medizin, Meteorologie, Oekonomie, Politik, Theologie
psw Personenschlag-wort PND-Ansetzung/ normalisierte Vorlage Vorlageform

 

 
gsw Geographisches Schlagwort, Körperschaft Münchner Liste

normalisiert

Vorlageform

GKD

GettyThesaurus

 
fsw Formschlagwort Normalisierte Form     Standardliste der Strukturdaten
bsw Bildschlagwort; Bildbeschreibung durch Schlagwörter, Begriffe können an ICONCLASS angelehnt sein  Normalisierte Form   ICONCLASS  
bstw Bildstichwort; gravierter Text im Bild Normalisierte Form Vorlageform    
notation
 
 

 

Notation Bezeichner bzw. Notation  

ICONCLASS,
DDC,
BK

ICONCLASS
zit Zitate;

Bibelzitate: vgl. Intern

Klassische Zitate: nach Lewis & Short/ Little & Scott

Normalisierte Form Vorlageform

biblical,
classical,
mediaeval

 
zsw Zeitschlagwort; Datumsangabe von Ereignissen im Text <date from="2002-11-27" to=" 2002-11-28">27.-28.11.2002 </date> Innerhalb von <date>    
wz Wasserzeichen; Ausgewählte Seiten aus dem Buchblock oder Vorsatz Typ: Krone, Stier etc.   Piccard  

 

Gattungsabhängige Belegung von @type in <div>

Folgende Begriffe werden gattungsabhänig in @type verwendet.

Flugblätter Emblembücher Pest- u. Seuchenschriften Kalender Gebet- u. Gesangbücher Festkultur
Ueberschrift

Bild

Haupttext

emblem

motto

pictura

subscriptio

(s. Allgemein) Januar

Februar

Maerz

April

Mai

Juni

Juli

August

September

Oktober

November

Dezember

Kalender 

Praktik

Zeichenerklaerung

Zeitrechnung

Gebet

Lied

 

Gebet

Gedicht

Epigramm

Furierzettel

Inhaltsangabe

Kartell

Lied

Predigt

Personenverzeichnis

Rede

Schauspielrollen

Szenarium

Turnierartikel

Turnierdankliste

Turnierergebnisliste

 

zurück
zum Seitenanfang

Zuletzt geändert am 15. September 2008
© HAB Wolfenbüttel - URL: http://www.hab.de/ - Impressum