… sind daher stets auch in ihrer Funktion als Austauschformat zu betrachten. Dieses Credo gilt nicht nur für offensichtlich interdisziplinär ausgerichtete Datenproduzenten, sondern ebenso für traditionell “introdisziplinäre” Projekte.
Da nie die gesamte Bandbreite möglicher Nachnutzungsszenarien innerhalb des Daten produzierenden Projektes antizipiert werden kann, ist auf eine möglichst standardisierte und offene Bereitstellungsform hinzuarbeiten.
XML trennt Inhalt und Struktur sowie verschiedene Ebenen von Semantik und Metadaten durch Delimiter und Schlüsselworte voneinander.
Vokabular und Syntax von XML sind anpassbar und erweiterbar. Mit Schema-Sprachen lässt sich ein Regelwerk für projekteigene XML-Dateien erstellen.
Wenn das XML-Dokument den allgemeinen Syntax-Regeln gehorcht, spricht man von “Wohlgeformtheit”. Ist das Dokument zusätzlich konform zu einem Schema, spricht man von “Validität”.
Durch die Ansetzung eines Schema-Regelwerks lassen sich XML-Dokumente sehr einfach in konsistenter Form erstellen, da jederzeit ein Feedback zur Regelhaftigkeit des Dokumentes zurückgegeben wird. Viele Text-Editoren greifen zudem auf das zurgundeliegende Schema zurück, um dem Benutzer die im Auszeichnungs-Kontext angebrachten Schlüsselworte per Knopfdruck anzubieten.
Die Daten konsistent strukturierter XML-Dokumente können sehr leicht mithilfe von Abfrage- und Transformations-Sprachen durchsucht, akkumuliert und bspw. in Ausgabeformate überführt werden.
Auf der Grundlage konsistenter Datenhaltung können also Register und Indices akkumuliert werde. Zudem lassen sich Druckvorstufen für Verlage oder HTML-Ausgaben im Rahmen dynamischer Webseiten produzieren.
Delimiter sind:
Bei den Schlüsselworten unterscheidet man zwischen:
<element>
<letter>
<sender>Max Mustermann</sender>
<recipient>Mina Musterfrau</recipient>
</letter>
<element attribut="attributwert">
<letter identifier="xyz123">
<sender identifier="m0001">Max Mustermann</sender>
<recipient identifier="f0001">Mina Musterfrau</recipient>
</letter>
<präfix:element>
<root xmlns:prj="http://url/to/namespace/prj/">
<letter>
<sender identifier="m0001">Max Mustermann</sender>
<prj:letter>Blackletter Script</prj:letter>
</letter>
<root>
Als grundlegende Best Practice der Datenhaltung mit XML gilt, Daten wie die Abschnitte eines Quellentextes oder konstituierende Attribute einer Person als Elemente zu behandeln.
Meta-Daten wie die Identifikationsnummern von Abschnitten des Quellentextes oder Verweise auf Identifikatoren von Normdateien sollten als Attribut annotiert werden.
Teilen Sie den Quellentext in für Sie sinnvolle strukturelle und/oder bedeutungstragende Einheiten eine.
Kreieren Sie eigene Elemente und Attribute zur Auszeichnung der Quelle.
Wo lag Ihr Fokus beim Auszeichnen der Quelle?
Wie hoch schätzen Sie die Überschneidung des benutzten Vokabulars zwischen Fachkollegen ein?
Forschungsdaten werden nach der Auszeichnung über maschinenlesbare Kommunikations-Schnittstellen (vgl. REST) zugänglich gemacht. Die Nutzung der Daten durch Dritte erfolgt hierbei “in Selbstbedienung”. Erst eine offene Lizenzierung von Forschungsdaten ermöglicht daher in diesem Sinne eine rechtssichere Nachnutzung und Bearbeitung.
Ohne eine offene Lizenzierung ist die digitale Aufbereitung in strukturierter und maschinenlesbarer Form sinnlos, da die inhärenten Potentiale ungenutzt bleiben. Eine klare Form der Lizenzierung bieten die sogenannten Creative Commons-Lizenzen.
Der correspSearch-Webservice (CS) aggregiert und wertet Dateien im “Correspondence Metadata Interchange”-Format (CMI) aus.
Mittels der correspSearch-API können automatisierte Abfragen durchgeführt und die Ergebnisse in eigene Applikationen integriert werden. Die Abfrageergebnisse werden durch CS als TEI-XML-Datei im CMI-Format ausgegeben.
Die Datenbank zur jüdischen Grabsteinepigraphik epidat dient der Sammlung, Aufarbeitung und Publikation epigraphischer Bestände. Zurzeit sind 160 digitale Editionen mit 32.245 Grabinschriften (66.667 Bilddateien) online einsehbar. Die epigraphischen Daten stehen in verschiedenen Formaten zur Nachnutzung zur Verfügung.
<presentation type="lunch_lecture">
<section id="end">
<lecturer gnd="1018230939">
<articulation type="assertion">“Vielen Dank für ihre Aufmerksamkeit!”</articulation>
<articulation type="question">“Gibt es noch Fragen?”</articulation>
</lecturer>
</section>
</presentation>
Präsentation & Daten: GitHub
Lizenz: CC BY 4.0, Max Grüntgens, Dominik Kasper und Torsten Schrade; Digitale Akademie