23. Januar 2018 | Hochschule Mainz

EpiDoc: TEI XML (1)

Ein Auszeichnungsstandard für epigraphische Daten und historische Quellen

Grundlagen und Einführung

Slides: https://digicademy.github.io/2018-EpiDoc-WS-1

Max Grüntgens | Dominik Kasper | Thomas Kollatz
@digicademy | digicademy | CC-BY 4.0

Gliederung

Grundlagen
EpiDoc TEI XML Struktur
Literatur

01

Grundlagen

XML – Extensible Markup Language

Semantik statt Typographie

device-independent and system-independent storing and processing of texts in electronic form
interchange and communication format

Generalizing from that sense, we define markup, or (synonymously) encoding, as any means of making explicit an interpretation of a text.

aus: A Gentle Introduction to XML

Extensible Markup Language (XML)

XML trennt Inhalt und Struktur sowie verschiedene Ebenen von Semantik und Metadaten durch Delimiter und Schlüsselworte voneinander.

Delimiter sind < > & ;

Beispiel

< Schlüsselwort > & Schlüsselwort ;

Vokabular und Syntax von XML sind anpassbar und erweiterbar. Mit Schema-Sprachen lässt sich ein Regelwerk für projekteigene XML-Dateien erstellen.

Bei den Schlüsselworten unterscheidet man zwischen:

Elementen: <element>

<letter>
        <sender>Max Mustermann</sender>
        <recipient>Mina Musterfrau</recipient>
    </letter>

Leeren Elementen: <element />

<lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit

Attributen: <element attribut="attributwert">

<letter identifier="xyz123">
        <sender identifier="m0001">Max Mustermann</sender>
        <recipient identifier="f0001">Mina Musterfrau</recipient>
    </letter>

Namespace-Präfixen: <präfix:element>

<root xmlns:prj="http://url/to/namespace/prj/">
        <letter>
            <sender identifier="m0001">Max Mustermann</sender>
            <prj:letter>Blackletter Script</prj:letter>
        </letter>
    <root>

Wohlgeformtheit und Validität

Wenn das XML-Dokument den allgemeinen Syntax-Regeln gehorcht, spricht man von “Wohlgeformtheit”. Ist das Dokument zusätzlich konform zu einem Schema, spricht man von “Validität”.

Durch die Ansetzung eines Schema-Regelwerks lassen sich XML-Dokumente sehr einfach in konsistenter Form erstellen, da jederzeit ein Feedback zur Regelhaftigkeit des Dokumentes zurückgegeben wird. Viele Text-Editoren greifen zudem auf das zurgundeliegende Schema zurück, um dem Benutzer die im Auszeichnungs-Kontext angebrachten Schlüsselworte per Knopfdruck anzubieten.

Die grundlegende Syntax besagt:

Jedes Dokument enhält genau ein Wurzelelement (root element), das alle anderen Elemente des Baumes in sich schließt.
Elementnamen sind case sensitive, müssen mit Unterstrichen oder Buchstaben beginnen und dürfen keine Leerstellen enthalten.
Jedes geöffnete Element muss geschlossen werden.
Es ist keine Überlappung von Elementbereichen erlaubt.
Elemente ohne Text-Inhalt dürfen auch als leere Tags geschrieben werden: <date></date> => <date />
Delimiter-Zeichen sind als Entitäten einzufügen, wenn sie als “normale” Zeichen erscheinen sollen: & => &

Maschinelle Verarbeitung

Die Daten konsistent strukturierter XML-Dokumente können sehr leicht mithilfe von Abfrage- und Transformations-Sprachen durchsucht, akkumuliert und bspw. in Ausgabeformate überführt werden.

Auf der Grundlage konsistenter Datenhaltung können also Register und Indices akkumuliert werde. Zudem lassen sich Druckvorstufen für Verlage oder HTML-Ausgaben im Rahmen dynamischer Webseiten produzieren.

TEI: Text Encoding Initiative

The Text Encoding Initiative (TEI) is a consortium which collectively develops and maintains a standard for the representation of texts in digital form. Its chief deliverable is a set of Guidelines which specify encoding methods for machine-readable texts, chiefly in the humanities, social sciences and linguistics.

aus: http://www.tei-c.org

Guidelines

Quelle: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html

Special Interest Groups

Quelle: http://www.tei-c.org/Activities/SIG/

EpiDoc

Epigraphic Documents in TEI XML | text markup for ancient documents

EpiDoc is an international, collaborative effort that provides guidelines and tools for encoding scholarly and educational editions of ancient documents. It uses a subset of the Text Encoding Initiative's standard for the representation of texts in digital form and was developed initially for the publication of digital editions of ancient inscriptions (e.g. Inscriptions of Aphrodisias, Vindolanda Tablets). Its domain has expanded to include the publication of papyri and manuscripts (e.g. Papyri.info). It addresses not only the transcription and editorial treatment of texts themselves, but also the history and materiality of the objects on which the texts appear (i.e., manuscripts, monuments, tablets, papyri, and other text-bearing objects).

Quelle: https://sourceforge.net/p/epidoc/wiki/Home/

Arbeitsdefinitionen: Inschrift

Inschriften sind Beschriftungen verschiedener Materialien – in Stein, Holz, Metall, Leder, Stoff, Email, Glas, Mosaik usw. – die von Kräften und mit Methoden hergestellt sind, die nicht dem Schreibschul- und Kanzleibetrieb angehören.

Rudolf M. Kloos, Einführung in die Epigraphik des Mittelalters und der frühen Neuzeit, 2. Aufl., Darmstadt 1992, S. 2.

Arbeitsdefinitionen: Inschrift

An epigraph is any sort of text, from a single grapheme […] to a lengthy document […]. Epigraphy overlaps other competences such as numismatics or palaeography. When compared to books, most inscriptions are short. The media and the forms of the graphemes are diverse: engravings in stone or metal, scratches on rock, impressions in wax, embossing on cast metal, cameo or intaglio on precious stones, painting on ceramic or in fresco [etc.]. Typically the material is durable, but the durability might be an accident of circumstance, such as the baking of a clay tablet in a conflagration.

Wikipedia contributors, “Epigraphy”, Wikipedia, The Free Encyclopedia, https://en.wikipedia.org/w/index.php?title=Epigraphy&oldid=820499672 (23.1.2018).

EpiDoc

Entwicklungsgeschichte – in Kürze

Quelle: http://www.stoa.org/epidoc/

Subset der TEI
seit 1999 kollaborativ entwickelt
im Dezember 2017 Release von Schema und Guidelines Version 9.0
Mittlerweile wird das TEI-Subset EpiDoc von zahlreichen – zunehmend auch nicht primär epigraphischen – Projekten verwendet
mehr zur Geschichte https://sourceforge.net/p/epidoc/wiki/About/

Beispiele

Quelle: http://wiki.digitalclassicist.org/Category:EpiDoc

02

EpiDoc TEI XML Struktur

Ein paar Grundregeln

EpiDoc ist – wie die TEI – ein Vorschlag. Das "P" hinter TEI steht für proposal. TEI ist kein Zwangskorsett.

Nur Elemente und Attribute nutzen, die für das Verständnis der Quelle nötig und nützlich sind. (Das heisst: Nicht alles, was ausgezeichnet werden könnte, muss auch ausgezeichnet werden).

Sinnvoller Einsatz von TEI setzt ein Konzept voraus (Editionsrichtlinien, Fragestellung, etc.).

EpiDoc Schema und Struktur ermöglichen geführte, regelbasierte Erfassung von (historischen) Texten.

EpiDoc TEI XML nicht (auswendig) lernen! Das dahinterliegende Schema ist selbsterklärend und die Guidelines bieten Beispiele!

Processing Instructions

Schemavalidierung

<? … ?>

<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="http://www.stoa.org/epidoc/schema/latest/tei-epidoc.rng"
    schematypens="http://relaxng.org/ns/structure/1.0"?>
<?xml-model href="http://www.stoa.org/epidoc/schema/latest/tei-epidoc.rng"
    schematypens="http://purl.oclc.org/dsdl/schematron"?>

/schema/latest – validiert gegen das aktuellste Schema
/schema/9.0 – validiert gegen das versionierte Schema (Release)

Struktur

Metadaten – Bilddaten – Textdaten

<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:space="preserve" xml:lang="en">
   <teiHeader>
     <!-- Metadaten -->
   </teiHeader>

   <facsimile>
      <!-- Informationen zu Bilddaten-->
   </facsimile>

   <text>
       <!-- Textdaten: Edition, Kommentar, Übersetzung, etc. -->
   </text>
</TEI>

Metadaten

<teiHeader> – Pflichtelemente

<teiHeader>
   <fileDesc>             <!-- mögl. vollständige Beschreibung der Datei -->
        <titleStmt>       <!-- Titel -->
        <publicationStmt> <!-- Herausgeber -->
        <sourceDesc>      <!-- Beschreibung der Quelle -->
   </fileDesc>
</teiHeader>

Die Section <sourceDesc> bietet zahlreiche struktierende Elemente zur Beschreibung der Quelle.

<msIdentifier>

<physDesc>

<history>

Hinweis <msDesc> gilt nicht nur für Handschriften, sondern für jedes other text-bearing object

Metadaten

<teiHeader> – Optionale Elemente

Weitere Auszeichnungsoptionen:

encodingDesc

profileDesc

particDesc

langUsage

List of all supporting Data Guidelines

Bilddaten

Bilddateien und andere digitale Faksimiles werden – so möglich mit @url – in der Faksimile-Section aufgeführt.

Textdaten – Edition I

Textauszeichnung

Philologie und historische Wissenschaften nutzen zur Kennzeichnung textueller Phänomene ausgeklügelte und bewährte Klammersysteme. In der Regel werden durch runde, eckige, geschweifte Klammern, sowie durch hoch- und tiefgestellte Zeichen (Punkte, Striche) über, unter oder neben den Buchstaben bzw. Wörtern und Sätzen auf Probleme und Besonderheiten der Textüberlieferung hingewiesen.
EpiDoc hat diese Notation der Fachwissenschaftler in TEI übertragen. Hinweis: Die Textauszeichnung mit EpiDoc TEI XML ermöglicht die Gewissheit (@cert | @confidence) und die Begründung (@reason) einer textkritischen Entscheidung festzuhalten !

Textdaten – Edition II

Textauszeichnung

Alle zusammengehörigen Textteile des Inschriftenträgers werden von einem <div type="edition"> geklammert.
Die Transkriptionen der einzelnen Textteile stehen jeweils in spezifischen <div type="textpart"subtype="pediment" n="A"></ab> … </ab></div>. Die Angabe von type="textpart" ist obligatorisch, die Angabe der Attribute subtype und n ist optional. </ab> … </ab> klammern Textblöcke als semantisch-neutrale Alternative zu </p> … </p>.
Die epigraphische Notation wird in XML-Notation nachgebaut. Bsp.: [γδ] wird zu <supplied reason="lost">γδ</supplied> (siehe auch Leiden Cheatsheet).
Kommentarteil, Apparat und Bibliographischer Teil stehen jeweils in eigenen <div>.

Textdaten – Edition III

Beispiel

<TEI> <!-- Header, Facsimile -->
  <text>
   <body>
       <div type="edition">
          <div type="textpart" subtype="pediment" n="1">
            <ab>
              <lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
            </ab>
          </div>
          <div type="textpart" subtype="section" n="2">
            <ab>
              <lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
            </ab>
          </div>
          <div type="textpart" subtype="base" n="3">
            <ab>
              <lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
            </ab>
          </div>
       </div>
       <div type="translation">
          <p> Translation </p>
       </div>
       <!-- Commentary, Bibliography -->
    </body>
   </text>
</TEI>

Textdaten – Edition IV

Beispiel

<TEI> <!-- Header, Facsimile -->
  <text>
    <body>
       <div type="edition">
          <!-- Transkription -->
       </div>
       <div type="translation">
          <p> Translation </p>
       </div>
       <div type="commentary">
          <p> Kommentartext </p>
       </div>
       <div type="apparatus">
          <p> Kritischer Apparat </p>
       </div>
       <div type="bibliography">
          <listBibl>
            <bibl> Bibliographische Angabe </bibl>
            <bibl> Bibliographische Angabe </bibl>
          </listBibl>
       </div>
      </body>
   </text>
</TEI>

Leidener Klammersystem

Textauszeichnung

Basis für traditionelle und digitale Epigraphiker ist das sogenannte Leidener Klammersystem
EpiDoc Leiden Cheatsheet und korrespondierende Beispieldatei
EpiDoc Guidelines: Appendix: Aligning EpiDoc with Panciera 1991
Hilfreich: List Of All Transcription Guidelines

03

Literatur

EpiDoc

EpiDoc homepage on SourceForge
Markup List: email list for discussions, questions, and help with EpiDoc issues
EpiDoc Guidelines
EpiDoc Stylesheets

Digitale Epigraphik

Julia Flanders; Charlotte Roueché: Erste Einführung in die Textauszeichnung für Epigraphiker
H. Cayless; C.M. Roueché; Tom Elliott; Gabriel Bodard (2009): "Epigraphy in 2017." Digital Humanities Quarterly 3.1. http://digitalhumanities.org/dhq/vol/3/1/000030/000030.html

TEI

Download

https://github.com/digicademy/2018-EpiDoc-WS-1
Alle Inhalte, Illustrationen und Bilder sind frei zur Weiterverwendung und Modifikation.
Lizenz: CC-BY 4.0, Max Grüntgens, Dominik Kasper, Thomas Kollatz

23. Januar 2018 | Hochschule Mainz

EpiDoc: TEI XML (1)

Ein Auszeichnungsstandard für epigraphische Daten und historische Quellen

Grundlagen und Einführung

Slides: https://digicademy.github.io/2018-EpiDoc-WS-1

Max Grüntgens | Dominik Kasper | Thomas Kollatz @digicademy | digicademy | CC-BY 4.0

Gliederung

01

Grundlagen

XML – Extensible Markup Language

Semantik statt Typographie

Extensible Markup Language (XML)

Beispiel

Wohlgeformtheit und Validität

Maschinelle Verarbeitung

TEI: Text Encoding Initiative

Guidelines

Special Interest Groups

EpiDoc

Epigraphic Documents in TEI XML | text markup for ancient documents

Arbeitsdefinitionen: Inschrift

Arbeitsdefinitionen: Inschrift

EpiDoc

Entwicklungsgeschichte – in Kürze

Beispiele

02

EpiDoc TEI XML Struktur

Ein paar Grundregeln

Processing Instructions

Schemavalidierung

<? … ?>

Struktur

Metadaten – Bilddaten – Textdaten

Metadaten

<teiHeader> – Pflichtelemente

Metadaten

<teiHeader> – Optionale Elemente

Bilddaten

Textdaten – Edition I

Textauszeichnung

Textdaten – Edition II

Textauszeichnung

Textdaten – Edition III

Beispiel

Textdaten – Edition IV

Beispiel

Leidener Klammersystem

Textauszeichnung

03

Literatur

Literatur

EpiDoc

Digitale Epigraphik

TEI

Download

Max Grüntgens | Dominik Kasper | Thomas Kollatz
@digicademy | digicademy | CC-BY 4.0