Generalizing from that sense, we define markup, or (synonymously) encoding, as any means of making explicit an interpretation of a text.
XML trennt Inhalt und Struktur sowie verschiedene Ebenen von Semantik und Metadaten durch Delimiter und Schlüsselworte voneinander.
Delimiter sind< > & ;
<
Schlüsselwort >
&
Schlüsselwort ;
Vokabular und Syntax von XML sind anpassbar und erweiterbar. Mit Schema-Sprachen lässt sich ein Regelwerk für projekteigene XML-Dateien erstellen.
Bei den Schlüsselworten unterscheidet man zwischen:
<element>
<letter>
<sender>Max Mustermann</sender>
<recipient>Mina Musterfrau</recipient>
</letter>
<element />
<lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
<element attribut="attributwert">
<letter identifier="xyz123">
<sender identifier="m0001">Max Mustermann</sender>
<recipient identifier="f0001">Mina Musterfrau</recipient>
</letter>
<präfix:element>
<root xmlns:prj="http://url/to/namespace/prj/">
<letter>
<sender identifier="m0001">Max Mustermann</sender>
<prj:letter>Blackletter Script</prj:letter>
</letter>
<root>
Wenn das XML-Dokument den allgemeinen Syntax-Regeln gehorcht, spricht man von “Wohlgeformtheit”. Ist das Dokument zusätzlich konform zu einem Schema, spricht man von “Validität”.
Durch die Ansetzung eines Schema-Regelwerks lassen sich XML-Dokumente sehr einfach in konsistenter Form erstellen, da jederzeit ein Feedback zur Regelhaftigkeit des Dokumentes zurückgegeben wird. Viele Text-Editoren greifen zudem auf das zurgundeliegende Schema zurück, um dem Benutzer die im Auszeichnungs-Kontext angebrachten Schlüsselworte per Knopfdruck anzubieten.
Die grundlegende Syntax besagt:
<date></date> => <date />
& => &
Die Daten konsistent strukturierter XML-Dokumente können sehr leicht mithilfe von Abfrage- und Transformations-Sprachen durchsucht, akkumuliert und bspw. in Ausgabeformate überführt werden.
Auf der Grundlage konsistenter Datenhaltung können also Register und Indices akkumuliert werde. Zudem lassen sich Druckvorstufen für Verlage oder HTML-Ausgaben im Rahmen dynamischer Webseiten produzieren.
The Text Encoding Initiative (TEI) is a consortium which collectively develops and maintains a standard for the representation of texts in digital form. Its chief deliverable is a set of Guidelines which specify encoding methods for machine-readable texts, chiefly in the humanities, social sciences and linguistics.
aus: http://www.tei-c.org
EpiDoc is an international, collaborative effort that provides guidelines and tools for encoding scholarly and educational editions of ancient documents. It uses a subset of the Text Encoding Initiative's standard for the representation of texts in digital form and was developed initially for the publication of digital editions of ancient inscriptions (e.g. Inscriptions of Aphrodisias, Vindolanda Tablets). Its domain has expanded to include the publication of papyri and manuscripts (e.g. Papyri.info). It addresses not only the transcription and editorial treatment of texts themselves, but also the history and materiality of the objects on which the texts appear (i.e., manuscripts, monuments, tablets, papyri, and other text-bearing objects).
Inschriften sind Beschriftungen verschiedener Materialien – in Stein, Holz, Metall, Leder, Stoff, Email, Glas, Mosaik usw. – die von Kräften und mit Methoden hergestellt sind, die nicht dem Schreibschul- und Kanzleibetrieb angehören.
Rudolf M. Kloos, Einführung in die Epigraphik des Mittelalters und der frühen Neuzeit, 2. Aufl., Darmstadt 1992, S. 2.
An epigraph is any sort of text, from a single grapheme […] to a lengthy document […]. Epigraphy overlaps other competences such as numismatics or palaeography. When compared to books, most inscriptions are short. The media and the forms of the graphemes are diverse: engravings in stone or metal, scratches on rock, impressions in wax, embossing on cast metal, cameo or intaglio on precious stones, painting on ceramic or in fresco [etc.]. Typically the material is durable, but the durability might be an accident of circumstance, such as the baking of a clay tablet in a conflagration.
Wikipedia contributors, “Epigraphy”, Wikipedia, The Free Encyclopedia, https://en.wikipedia.org/w/index.php?title=Epigraphy&oldid=820499672 (23.1.2018).
Quelle: http://www.stoa.org/epidoc/
EpiDoc ist – wie die TEI – ein Vorschlag. Das "P" hinter TEI steht für proposal. TEI ist kein Zwangskorsett.
Nur Elemente und Attribute nutzen, die für das Verständnis der Quelle nötig und nützlich sind. (Das heisst: Nicht alles, was ausgezeichnet werden könnte, muss auch ausgezeichnet werden).
Sinnvoller Einsatz von TEI setzt ein Konzept voraus (Editionsrichtlinien, Fragestellung, etc.).
EpiDoc Schema und Struktur ermöglichen geführte, regelbasierte Erfassung von (historischen) Texten.
EpiDoc TEI XML nicht (auswendig) lernen! Das dahinterliegende Schema ist selbsterklärend und die Guidelines bieten Beispiele!
<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="http://www.stoa.org/epidoc/schema/latest/tei-epidoc.rng"
schematypens="http://relaxng.org/ns/structure/1.0"?>
<?xml-model href="http://www.stoa.org/epidoc/schema/latest/tei-epidoc.rng"
schematypens="http://purl.oclc.org/dsdl/schematron"?>
/schema/latest
– validiert gegen das aktuellste Schema/schema/9.0
– validiert gegen das versionierte Schema (Release)
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:space="preserve" xml:lang="en">
<teiHeader>
<!-- Metadaten -->
</teiHeader>
<facsimile>
<!-- Informationen zu Bilddaten-->
</facsimile>
<text>
<!-- Textdaten: Edition, Kommentar, Übersetzung, etc. -->
</text>
</TEI>
<teiHeader>
<fileDesc> <!-- mögl. vollständige Beschreibung der Datei -->
<titleStmt> <!-- Titel -->
<publicationStmt> <!-- Herausgeber -->
<sourceDesc> <!-- Beschreibung der Quelle -->
</fileDesc>
</teiHeader>
Die Section <sourceDesc> bietet zahlreiche struktierende Elemente zur Beschreibung der Quelle.
- <msIdentifier>
- <physDesc>
- <history>
Hinweis <msDesc> gilt nicht nur für Handschriften, sondern für jedes other text-bearing object
- Weitere Auszeichnungsoptionen:
- encodingDesc
- profileDesc
- particDesc
- langUsage
- List of all supporting Data Guidelines
Bilddateien und andere digitale Faksimiles werden – so möglich mit @url – in der Faksimile-Section aufgeführt.
<div type="edition">
geklammert.<div type="textpart"
subtype="pediment"
n="A"></ab> … </ab></div>
. Die Angabe von
type="textpart"
ist obligatorisch, die Angabe der Attribute
subtype
und n
ist optional. </ab> …
</ab>
klammern Textblöcke als semantisch-neutrale Alternative zu
</p> … </p>
. [γδ]
wird zu <supplied reason="lost">γδ</supplied>
(siehe auch Leiden Cheatsheet). <div>
.
<TEI> <!-- Header, Facsimile -->
<text>
<body>
<div type="edition">
<div type="textpart" subtype="pediment" n="1">
<ab>
<lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
</ab>
</div>
<div type="textpart" subtype="section" n="2">
<ab>
<lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
</ab>
</div>
<div type="textpart" subtype="base" n="3">
<ab>
<lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
</ab>
</div>
</div>
<div type="translation">
<p> Translation </p>
</div>
<!-- Commentary, Bibliography -->
</body>
</text>
</TEI>
<TEI> <!-- Header, Facsimile -->
<text>
<body>
<div type="edition">
<!-- Transkription -->
</div>
<div type="translation">
<p> Translation </p>
</div>
<div type="commentary">
<p> Kommentartext </p>
</div>
<div type="apparatus">
<p> Kritischer Apparat </p>
</div>
<div type="bibliography">
<listBibl>
<bibl> Bibliographische Angabe </bibl>
<bibl> Bibliographische Angabe </bibl>
</listBibl>
</div>
</body>
</text>
</TEI>
Beispieldatei