The focus of such a class is not so much an intensive EpiDoc training, but rather demonstrating that structured markup is nothing more than structured thinking about data. The structure of an XML document reflects the structure of an epigraphic edition. Following the strict hierarchy of XML forces one to better organise one’s thoughts, approach towards, and work on an epigraphic document. We have found that it is highly beneficial to be able to process and produce information in a well structured and clearer way, even if the students do not show interest in further DH training.
Generalizing from that sense, we define markup, or (synonymously) encoding, as any means of making explicit an interpretation of a text.
aus: A Gentle Introduction to XML
XML trennt Inhalt und Struktur sowie verschiedene Ebenen von Semantik und Metadaten durch Trennzeichen und Schlüsselworte voneinander.
Trennzeichen sind< > & ;
<
Schlüsselwort >
&
Schlüsselwort ;
Vokabular und Syntax von XML sind anpassbar und erweiterbar. Mit Schema-Sprachen lässt sich ein Regelwerk für projekteigene XML-Dateien erstellen. Ein XML-Dokument bildet eine verschachtelte Baumstruktur.
Elemente (aka “tags”): <element>
<correspDesc>
‖ <correspAction>
‖ | <persName>
‖ | ¦ <forename>Max</forename>
‖ | ¦ <surname>Mustermann</surname>
‖ | </persName>
‖ </correspAction>
‖ <correspAction>
‖ | <persName>
‖ | ¦ <forename>Mina</forename>
‖ | ¦ <surname>Musterfrau</surname>
‖ | </persName>
‖ </correspAction>
</correspDesc>
Sinn: Eindeutige Kennzeichnung und damit Disambiguierung der strukturellen wie semantischen Bestandteile eines Dokumentes:
- Der Bereich ‖ klammert eine einzige Instanz einer Korrespondenz.
- Der Bereich | klammert jeweils die Informationen zum Sender (erste Instanz) sowie zum Empfänger (zweite Instanz).
- Der Bereich ¦ klammert weitere Personendaten.
Attribute
<element
attribut="attributwert">
<correspDesc xml:id="unique_letter_id">
<correspAction type="sent">
<persName xml:lang="de" ref="http://d-nb.info/gnd/118540238">
<forename>Max</forename>
<surname>Mustermann</surname>
</persName>
</correspAction>
<correspAction type="received">
<persName xml:lang="de" ref="http://d-nb.info/gnd/118540987">
<forename>Mina</forename>
<surname>Musterfrau</surname>
</persName>
</correspAction>
</correspDesc>
Sinn: Weitere Spezifizierung bzw. Individualisierung einer semantischen oder strukturellen Information.
Leere Elemente
<element />
<lb/> Lorem ipsum
<lb/> dolor sit
<lb/> adipiscit <handShift/>quid
<lb/> paretur
Sinn: Kennzeichnung von punktuellen Änderungen oder Ansetzung von Ankerpunkten innerhalb eines Dokumentes.
Wenn das XML-Dokument den allgemeinen Syntax-Regeln gehorcht, spricht man von “ Wohlgeformtheit”. Ist das Dokument zusätzlich konform zu einem Schema, spricht man von “Validität”.
Durch die Ansetzung eines Schema-Regelwerks lassen sich XML-Dokumente sehr einfach in konsistenter Form erstellen, da jederzeit ein Feedback zur Regelhaftigkeit des Dokumentes zurückgegeben wird. Viele Text-Editoren greifen zudem auf das zurgundeliegende Schema zurück, um dem Benutzer die im Auszeichnungs-Kontext angebrachten Schlüsselworte per Knopfdruck anzubieten.
<Date> ≠ <date>
<2018_date> ⇒ <date_2018>
<date></date> => <date />
& ⇒ &
Die Daten konsistent strukturierter XML-Dokumente können mithilfe von Abfrage- und Transformations-Sprachen (XPath, XSLT, XQuery, u.a.) durchsucht, akkumuliert und bspw. in Ausgabeformate überführt werden.
Auf der Grundlage konsistenter Datenhaltung können also Register und Indices akkumuliert werde. Zudem lassen sich Druckvorstufen (pandoc, ConTeXt) für Verlage oder HTML-Ausgaben im Rahmen dynamischer Webseiten (EFES, eXistDB) produzieren.
The Text Encoding Initiative (TEI) is a consortium which collectively develops and maintains a standard for the representation of texts in digital form. Its chief deliverable is a set of Guidelines which specify encoding methods for machine-readable [=prozessierbare] texts, chiefly in the humanities, social sciences and linguistics.
aus: http://www.tei-c.org
Quelle: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html
EpiDoc is an international, collaborative effort that provides guidelines and tools for encoding scholarly and educational editions of ancient documents. It uses a subset of the Text Encoding Initiative's standard for the representation of texts in digital form and was developed initially for the publication of digital editions of ancient inscriptions […]. Its domain has expanded to include the publication of papyri and manuscripts […]. It addresses not only the transcription and editorial treatment of texts themselves, but also the history and materiality of the objects on which the texts appear (i.e., manuscripts, monuments, tablets, papyri, and other text-bearing objects).
Inschriften sind Beschriftungen verschiedener Materialien – in Stein, Holz, Metall, Leder, Stoff, Email, Glas, Mosaik usw. – die von Kräften und mit Methoden hergestellt sind, die nicht dem Schreibschul- und Kanzleibetrieb angehören.
Rudolf M. Kloos, Einführung in die Epigraphik des Mittelalters und der frühen Neuzeit, 2. Aufl., Darmstadt 1992, S. 2.
An epigraph is any sort of text, from a single grapheme […] to a lengthy document […]. Epigraphy overlaps other competences such as numismatics or palaeography. When compared to books, most inscriptions are short. The media and the forms of the graphemes are diverse: engravings in stone or metal, scratches on rock, impressions in wax, embossing on cast metal, cameo or intaglio on precious stones, painting on ceramic or in fresco [etc.]. Typically the material is durable, but the durability might be an accident of circumstance, such as the baking of a clay tablet in a conflagration.
Wikipedia contributors, “Epigraphy”, Wikipedia, The Free Encyclopedia, https://en.wikipedia.org/w/index.php?title=Epigraphy&oldid=820499672 (23.1.2018).
Quelle: http://www.stoa.org/epidoc/
<? … ?>
<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="http://www.stoa.org/epidoc/schema/latest/tei-epidoc.rng" schematypens="http://relaxng.org/ns/structure/1.0"?>
<?xml-model href="http://www.stoa.org/epidoc/schema/latest/tei-epidoc.rng" schematypens="http://purl.oclc.org/dsdl/schematron"?>
/schema/latest
– validiert gegen das aktuellste Schema/schema/9.0
– validiert gegen das versionierte Schema (Release)
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:space="preserve" xml:lang="en">
<teiHeader>
<!-- Metadaten -->
</teiHeader>
<facsimile>
<!-- Informationen zu Bilddaten-->
</facsimile>
<text>
<!-- Textdaten: Edition, Kommentar, Übersetzung, etc. -->
</text>
</TEI>
Why store data about an object, when you have the object itself? Because without data about the objects contained in a space, any sufficiently complex space is indistinguishable from chaos.
Pomerantz 2017
http://vocab.getty.edu/tgn/7005293
;
GeoNames als http://www.geonames.org/3220968
http://vocab.getty.edu/aat/300266769
a multilingual classification system for cultural content– kennt Lilien als
http://www.iconclass.org/rkd/25G41%28LILY%29/
https://www.eagle-network.eu/voc/material/lod/111
Ansatz: Man sucht Information zu den in der Spät-Antike in Mainz emittierten Münzen, zu den Nominalen und zum Aussteller: Nomisma-SPARQL-Endpoint.
PREFIX nmo: <http://nomisma.org/ontology#>
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
SELECT ?mint ?label ?denomlabel ?authlabel ?matches
WHERE {
?mint skos:closeMatch <http://www.geonames.org/2874225> .
?type nmo:hasMint ?mint .
?type skos:prefLabel ?label FILTER(langMatches(lang(?label), "en")) .
?type nmo:hasDenomination ?denomination .
?denomination skos:prefLabel ?denomlabel FILTER(langMatches(lang(?denomlabel), "en")) .
?type nmo:hasAuthority ?authority .
?authority skos:prefLabel ?authlabel FILTER(langMatches(lang(?authlabel), "en")) .
?authority skos:exactMatch ?matches FILTER regex(STR(?matches), 'viaf','i') .
}
LIMIT 100
<teiHeader>
– Pflichtelemente
<teiHeader>
<fileDesc> <!-- mögl. vollständige Beschreibung der Datei -->
<titleStmt/> <!-- Titel der Datei -->
<publicationStmt/> <!-- Herausgeber und Bereitsteller der Datei -->
<sourceDesc/> <!-- Beschreibung der (historischen) Quelle -->
</fileDesc>
</teiHeader>
Die Section<sourceDesc>
bietet zahlreiche struktierende Elemente zur Beschreibung der Quelle.
<msIdentifier>
<physDesc>
<history>
Hinweis
<msDesc>
gilt nicht nur für Handschriften, sondern für jedes other
text-bearing object
<teiHeader>
– Optionale Elemente
- Weitere Auszeichnungsoptionen:
<encodingDesc>
<profileDesc>
<particDesc>
<langUsage>
EpiDoc ermöglicht strukturierte Eingaben zur Beschreibung des Epitaphs, u.a.
<physDesc>
<objectDesc>
<objectType>
<material>
<layoutDesc>
<layout>
<handDesc>
<handNote>
<decoDesc>
<decoNote>
Gleichermassen können Angaben zu Ort und Zeit, Provinenz, Fundorte etc. gemacht werden:
<history>
<origDate>
<origPlace>
<provenance>
(auch kopiale Überlieferung)
Quelle: http://www.stoa.org/epidoc/gl/latest/app-allsupp.html
Bilddateien und andere digitale Faksimiles werden – so möglich mit @url – in der <facsimile>
-Sektion aufgeführt.
Quelle:
http://inschriften.net/fileadmin/user_upload/sonstiges/TMP/inschrift_graz_2018_bornschlegel.png
<div type="edition">
geklammert.<div type="textpart" subtype="pediment" n="A"> <ab> … </ab></div>
. Die Angabe von type="textpart"
ist obligatorisch, die Angabe der Attribute subtype
und n
ist optional. <ab> … </ab>
klammern Textblöcke als semantisch-neutrale
Alternative zu <p> … </p>
. [Anno]
wird zu <supplied reason="lost">Anno</supplied>
(siehe auch Leiden Cheatsheet).
<div>
.
<TEI> <!-- Header, Facsimile -->
<text>
<body>
<div type="edition">
<div type="textpart" subtype="pediment" n="I">
<ab>
<lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
</ab>
</div>
<div type="textpart" subtype="section" n="II">
<ab>
<lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
</ab>
</div>
<div type="textpart" subtype="base" n="III">
<ab>
<lb n="1"/> Lorem ipsum <lb n="2"/> dolor sit
</ab>
</div>
</div>
<div type="translation">
<p> Translation </p>
</div>
<!-- Commentary, Bibliography -->
</body>
</text>
</TEI>
<TEI> <!-- Header, Facsimile -->
<text>
<body>
<div type="edition">
<!-- Transkription -->
</div>
<div type="translation">
<p> Translation </p>
</div>
<div type="commentary" subtype="description">
<p> Beschreibungstext </p>
</div>
<div type="commentary" subtype="commentary">
<p> Kommentartext </p>
</div>
<div type="apparatus">
<p> Kritischer Apparat </p>
</div>
<div type="bibliography">
<listBibl>
<bibl> Bibliographische Angabe </bibl>
<bibl> Bibliographische Angabe </bibl>
</listBibl>
</div>
</body>
</text>
</TEI>
Unclear:
<unclear>lor</unclear>em
Supraline:
<hi rend="supraline">lorem</hi>
Ligature:
<hi rend="ligature">ab</hi>cd<hi rend="ligature">ef</hi>
Erasure:
<del rend="erasure">ab</del>
Erased and lost:
<del rend="erasure">
<gap reason="lost" quantity="5" unit="character"/>
</del>
Overstrike:
<add place="overstrike">abc</add>
Added above:
<add place="above">γδ</add>
Added below:
<add place="below">γδ</add>
Supplied (lost):
<supplied reason="lost">γδ</supplied>
Supplied (lost, low certainty):
<supplied reason="lost" cert="low">γδ</supplied>
Supplied (omitted):
<supplied reason="omitted">γδ</supplied>
Supplied (subaudible):
<supplied reason="subaudible">lorem</supplied>
Supplied (parallel):
<supplied reason="undefined" evidence="parallel">lorem</supplied>
Supplied (previous editor):
<supplied reason="undefined" evidence="previouseditor">lorem</supplied>
Gap or lacuna (lost, character):
<gap reason="lost" quantity="15" unit="character"/>
Gap or lacuna (lost, unknown, character):
<gap reason="lost" extent="unknown" unit="character"/>
Gap (lost, at least–at most, character):
<gap reason="lost" atLeast="5" atMost="7" unit="character"/>
Gap (lost, low precision, character):
<gap reason="lost" quantity="26" unit="character" precision="low"/>
Gap (lost, line):
<gap reason="lost" quantity="1" unit="line"/>
Gap (lost, unknown, line):
<gap reason="lost" extent="unknown" unit="line"/>
Gap (possibly lost, line):
<gap reason="lost" quantity="1" unit="line">
<certainty match=".." locus="name"/>
</gap>
Gap (possibly lost, unknown, line):
<gap reason="lost" extent="unknown" unit="line">
<certainty match=".." locus="name"/>
</gap>
Gap (omitted, unknown, character):
<gap reason="omitted" extent="unknown" unit="character"/>
Gap (omitted, unknown, line):
<gap reason="omitted" extent="unknown" unit="line"/>
Gap (illegible, character):
<gap reason="illegible" unit="character" quantity="5"/>
Words omitted by editor for brevity:
<gap reason="ellipsis"/>
Superfluous letters:
<surplus>αβγ</surplus>
Clear but incomprehensible:
<orig>αββα</orig>
Correction by editor:
<choice>
<corr>αβ</corr>
<sic>βα</sic>
</choice>
Regularized by editor:
<choice>
<reg>ἐκ</reg>
<orig>ἐγ</orig>
</choice>
Expansion of abbreviation:
<expan>
<abbr>α</abbr>
<ex>βγ</ex>
</expan>
Tentative expansion of abbreviation:
<expan>
<abbr>α</abbr>
<ex cert="low">βγ</ex>
</expan>
Incomplete expansion:
<expan>α<ex>βγ</ex></expan>
Abbreviation (expansion unknown):
<abbr>αβ</abbr>
Expansion of symbol:
<expan>
<ex>αβ</ex>
</expan>
Note:
<note>!</note>, <note>sic</note>, <note>e.g.</note>
Space left on stone:
<space quantity="1" unit="character"/>
Space on stone, extent unknown:
<space extent="unknown" unit="character"/>
Numeral (Roman):
<num value="12">ⅩⅡ</num>
Numeral (Greek):
<num value="1">α</num>
Numeral (Greek):
<num value="1000">α</num>
Symbol:
<g type="bear"/>
Punctuation (“offene” Semantik):
<g type="punctuation" subtype="word_separator"/>
Punctuation (“geschlossene” Semantik):
<pc type="separator" force="strong" unit="word"/>
Segment & Sentence:
<seg resp="#editor">equiti iosepho me fecit</seg>
<s type="date_line">Anno domini m cccc lxii</s>
Word:
<w lemma="eques">equiti</w>
<w lemmaRef="https://en.wiktionary.org/wiki/eques#Latin">equiti</w>
Character:
<c rend="versalie">e</c>quiti
<c rendition="#versalie">e</c>quiti
Places & Persons:
<rs type="person" ref="#person_0001">Iosepho</rs>
<placeName type="settlement" key="160255975">Graz</placeName>
<persName role="ruler" key="Friedrich, HRR, III., ">Fridericus III.</persName>
Beispieldatei
Textverarbeitungs-Dateien, Tabellenkalkulations-Dateien und XML-Dateien können – zumindest in Teilen – in den meisten Fällen mehr oder weniger unproblematisch ineinander überführt werden.
Wichtig ist hierbei nur, dass in den jeweiligen Dateien eindeutig festgelegt ist, welche Funktion und/oder Zugehörigkeit den einzelnen Textbereichen zugeordnet wird. D.h. Namen müssen in Textverarbeitungs-Dateien bspw. mit einer Formatvorlage für “Name” gekennzeichent sein; eine entsprechende Tabellenkalkulations-Datei müsste über eine Spalte “Name” verfügen usw.
Da alle modernen Textverarbeitungs- und Tabellenkalkulations-Programme (MS-Word, MS-Excel, Libre Office) XML-basiert arbeiten, lassen sich die erzeugten Daten mit speziellen Programmen oder Programmier-Libraries ineinander umwandeln.
Zur Konvertierung von XML in MS-Word siehe TEI2RTF von Thomas Kollatz und den OxGarage Web Service. Zur Konvertierung von Tabellenkalkulations-Dateien in XML siehe bspw. Python und die Library Pandas.
Das folgende Schaubild visualisiert die Bezüge der einzelne Bereiche der verschiedenen Dateiformate untereinander.
Diese inhärente Konvertierungsmöglichkeit lässt damit in Bezug auf die Grunddaten-Erhebung einen angenehmen Workflow mit bekannter Software wie MS-Word und MS-Excel zu.
So kann – sofern einheitlich und konsistent mit Formatvorlagen bzw. Spaltenbenennungen gearbeitet wird – eine Grundaufnahme der Quellen in der gewohnten Software geleistet werden. Sobald die Grundaufnahme abgeschlossen ist, werden diese Dateien in das von nun an als Single Source dienende TEI-XML-Format überführt.
Alle weiteren Arbeiten sowie Analyse und Publikation erfolgen daraufhin innerhalb bzw. auf Basis der aus Textverarbeitungs- bzw. Tabellenkalkulations-Dateien konvertierten Daten.