Your browser doesn't support the features required by impress.js, so you are presented with a simplified version of this presentation.

For the best experience please use the latest Chrome, Safari or Firefox browser.

06.07.2016 | mainzed | Lunch Lectures

Markup in geisteswissenschaftlichen Forschungs- und Publikations-Kontexten

am Beispiel der Extensible Markup Language (XML)

Max Grüntgens (Akademie Mainz) | Dominik Kasper (Akademie Mainz)
Digitale Akademie www.digitale-akademie.de | Twitter @digicademy | Twitter digicademy

Released unter CC BY 4.0 (Max Grüntgens, Dominik Kasper und Torsten Schrade; Digitale Akademie)

Gliederung

  1. Vorstellung [>]
  2. Grundlagen [>]
    • Auszeichnungssprachen [>]
    • Austauschformate [>]
    • Extensible Markup Language (XML) [>]
  3. Praxis [>]
    • Beispielmodellierung (Verhörprotokoll) [>]
    • Diskussion [>]
    • Résumé [>]
  4. Ausblick [>]
    • Schnittstellen, Nachnutzung und Lizenzierung [>]
    • Beispielhafte Projekte [>]
    • Further Reading [>]

01

Vorstellung

Digitale Akademie der Akademie der Wissenschaften und der Literatur

02

Grundlagen

Eine Auszeichnungssprache …

⇒ implizite Information explizit machen!

Anwendungsgebiete von Auszeichnungssprachen sind …

Austauschformate …

Auszeichnungssprachen …

… sind daher stets auch in ihrer Funktion als Austauschformat zu betrachten. Dieses Credo gilt nicht nur für offensichtlich interdisziplinär ausgerichtete Datenproduzenten, sondern ebenso für traditionell “introdisziplinäre” Projekte.

Da nie die gesamte Bandbreite möglicher Nachnutzungsszenarien innerhalb des Daten produzierenden Projektes antizipiert werden kann, ist auf eine möglichst standardisierte und offene Bereitstellungsform hinzuarbeiten.

Extensible Markup Language (XML)

XML trennt Inhalt und Struktur sowie verschiedene Ebenen von Semantik und Metadaten durch Delimiter und Schlüsselworte voneinander.

Vokabular und Syntax von XML sind anpassbar und erweiterbar. Mit Schema-Sprachen lässt sich ein Regelwerk für projekteigene XML-Dateien erstellen.

Wohlgeformtheit und Validität

Wenn das XML-Dokument den allgemeinen Syntax-Regeln gehorcht, spricht man von “Wohlgeformtheit”. Ist das Dokument zusätzlich konform zu einem Schema, spricht man von “Validität”.

Durch die Ansetzung eines Schema-Regelwerks lassen sich XML-Dokumente sehr einfach in konsistenter Form erstellen, da jederzeit ein Feedback zur Regelhaftigkeit des Dokumentes zurückgegeben wird. Viele Text-Editoren greifen zudem auf das zurgundeliegende Schema zurück, um dem Benutzer die im Auszeichnungs-Kontext angebrachten Schlüsselworte per Knopfdruck anzubieten.

Maschinelle Verarbeitung

Die Daten konsistent strukturierter XML-Dokumente können sehr leicht mithilfe von Abfrage- und Transformations-Sprachen durchsucht, akkumuliert und bspw. in Ausgabeformate überführt werden.

Auf der Grundlage konsistenter Datenhaltung können also Register und Indices akkumuliert werde. Zudem lassen sich Druckvorstufen für Verlage oder HTML-Ausgaben im Rahmen dynamischer Webseiten produzieren.

Delimiter sind:

Bei den Schlüsselworten unterscheidet man zwischen:

Best Practice

Als grundlegende Best Practice der Datenhaltung mit XML gilt, Daten wie die Abschnitte eines Quellentextes oder konstituierende Attribute einer Person als Elemente zu behandeln.

Meta-Daten wie die Identifikationsnummern von Abschnitten des Quellentextes oder Verweise auf Identifikatoren von Normdateien sollten als Attribut annotiert werden.

03

Praxis

Beispielmodellierung (Verhörprotokoll)

Teilen Sie den Quellentext in für Sie sinnvolle strukturelle und/oder bedeutungstragende Einheiten eine.

Kreieren Sie eigene Elemente und Attribute zur Auszeichnung der Quelle.

Diskussion

Wo lag Ihr Fokus beim Auszeichnen der Quelle?

Wie hoch schätzen Sie die Überschneidung des benutzten Vokabulars zwischen Fachkollegen ein?

Résumé

04

Ausblick

Schnittstellen, Nachnutzung und Lizenzierung

Forschungsdaten werden nach der Auszeichnung über maschinenlesbare Kommunikations-Schnittstellen (vgl. REST) zugänglich gemacht. Die Nutzung der Daten durch Dritte erfolgt hierbei “in Selbstbedienung”. Erst eine offene Lizenzierung von Forschungsdaten ermöglicht daher in diesem Sinne eine rechtssichere Nachnutzung und Bearbeitung.

Ohne eine offene Lizenzierung ist die digitale Aufbereitung in strukturierter und maschinenlesbarer Form sinnlos, da die inhärenten Potentiale ungenutzt bleiben. Eine klare Form der Lizenzierung bieten die sogenannten Creative Commons-Lizenzen.

Beispielhafte Projekte

correspSearch

Verzeichnisse von Briefeditionen durchsuchen

Der correspSearch-Webservice (CS) aggregiert und wertet Dateien im “Correspondence Metadata Interchange”-Format (CMI) aus.

Schnittstelle

Mittels der correspSearch-API können automatisierte Abfragen durchgeführt und die Ergebnisse in eigene Applikationen integriert werden. Die Abfrageergebnisse werden durch CS als TEI-XML-Datei im CMI-Format ausgegeben.

Zur Webseite!

EpiDat

Datenbank zur jüdischen Grabsteinepigraphik

Die Datenbank zur jüdischen Grabsteinepigraphik epidat dient der Sammlung, Aufarbeitung und Publikation epigraphischer Bestände. Zurzeit sind 160 digitale Editionen mit 32.245 Grabinschriften (66.667 Bilddateien) online einsehbar. Die epigraphischen Daten stehen in verschiedenen Formaten zur Nachnutzung zur Verfügung.

Zur Webseite!

Further Reading

Tutorials

Vielen Dank für Ihre Aufmerksamkeit


<presentation type="lunch_lecture">
  <section id="end">
      <lecturer gnd="1018230939">
        <articulation type="assertion">“Vielen Dank für ihre Aufmerksamkeit!”</articulation>
        <articulation type="question">“Gibt es noch Fragen?”</articulation>
      </lecturer>
  </section>
</presentation>

Stuff used

Präsentation & Daten: GitHub

Lizenz: CC BY 4.0, Max Grüntgens, Dominik Kasper und Torsten Schrade; Digitale Akademie