Your browser doesn't support the features required by impress.mod.js, so you are presented with a simplified version of this presentation.

For the best experience please use the latest Chrome, Safari or Firefox browser.

1.6.2021 | Katholische Universität Eichstätt-Ingolstadt

Datenbanken & Geisteswissenschaften

eine kurze Kontextualisierung der Nutzung von Datenbanken in der geisteswissenschaftlichen Forschung

Slides: Link

Max Grüntgens | @digicademy | Twitter digicademy | CC-BY 4.0

Table of Contents

  1. Forschungsdesign & Wissensmanagement
  2. Brauche ich eine Datenbank – und wenn ja, wie viele?
  3. Fazit

01

Forschungsdesign & Wissensmanagement

Forschung

… must predict or infer phenomena that they cannot observe at the time of their research. … the issue is what can be legitimately inferred from available texts. (16)
… can best use computers in their research by thinking of them as aids, not as replacements for the highly developed human capabilities of reading, transcribing, and translating written matter. (23)
Ultimately, all reading of texts is qualitative [oder interpretive], even when certain characteristics of a text are later convertet into numbers. (21)
… involve[s] the rearticulation (interpretation) of given texts into new (analytical, deconstrucive, emancipatory, or critical) narratives accepted within particular scholarly communities […]. (22)

Literatur: Krippendorff: Content Analysis. 2019, 16–22.

Nachvollziehbarkeit

Replicability is the most important form of reliability. […] For a process to be replicable, it must be governed by rules that are explicitly stated and applied equally to all units of analysis. (24–25)
[V]alidity goes further, demanding that the researcher’s process of sampling, reading, and analyzing messages ultimately satisfy external criteria. (25)
Replicability is measurable, and validity is testable, but objectivity is neither. (25)

Literatur: Krippendorff: Content Analysis. 2019, 24–25.

Wissen, Daten, Information

Texts, messages, and symbols never speak for themselves. They inform someone. Information allows a reader to select among alternatives. It narrows the range of interpretations otherwise available. (30)
All theories of reading (hermeneutics) and theories of symbolic forms (semiotics), include theories of message meanings (communication/conversation theory), can be operationalized as processes of moving from texts to the contexts of the texts’ use.
Historiographical [und andere] methods organize available documents [und Wissen, Daten, Information] into webs of inferential relationships that may ultimately answer a historian’s questions. (32)

Modellbildung, implizite Theoriebildungen, Interpretationsentscheidungen, u.a.m. werden durch Code expliziert.

Literatur: Krippendorff: Content Analysis. 2019, 30–32.

Modelle

→ Ein Modell zielt auf einen spezifischen Nutzungskontext bzw. ein spezifisches Nutzungskonzept ab.

→ Ein Modell reduziert (unbestimmte) Komplexität, um Anschlussfähigkeit und damit neue (kombinatorische) Komplexität zu ermöglichen.

→ Ein Modell ist in seinem Verhältnis zur wissenschaftlichen Praxis

Literatur: Stachowiak: Allgemeine Modelltheorie. Wien u.a. 1973, 128–133; Historical Social Research (18), Suppl. 31 – Models and Modelling between Digital and Humanities.

Die dem Formalisierungs-Prozess einer Modellbildung notwendig inhärente reduktionistische und zentrierende Tendenz führt notwendigerweise zu Verzerrungseffekten.

Verzerrungseffekte treten …

Formalisierung und Operationalisierung

Formalisierung (im Sinne eines Kalküls) kann verstanden werden als

Operationalisierung kann verstanden werden als

Literatur: Moretti: ‘Operationalizing’: or, the Function of Measurement in Modern Literary Theory, 1–13; Bod: A New History of the Humanities: The Search for Principles and Patterns from Antiquity to the Present, 2, 9, 347, 352, 364–5; Seelig: Praxis empirischer Untersuchungen. Anleitung zur Durchführung … Disziplinen. 23–57; Cady: The Data Science Handbook.

Wissensmanagement

Literatur: Evans: Domain-Driven Design.Tackling Complexity in the Heart of Software; Grüntgens, Kasper: Nachhaltige Konzeptionsmethoden für Digital Humanities Projekte am Beispiel der Goethe-PROPYLÄEN.

Digitalisierung

Literatur: Luhmann: Soziale Systeme; Luhmann: Die Wissenschaft der Gesellschaft.

Zwischenfazit

02

Brauche ich eine Datenbank – und wenn ja, wie viele?

Datenbanken

  1. Voraussetzungen
  2. Arten von Datenbanken
  3. Suchmaschinen

Frage: Brauche ich eine Datenbank?

Antwort: Höchtswahrscheinlich (noch) nicht. Es kommt darauf an, wie ihr Forschungsprozess aussieht. Haben Sie das Problem, dass …

Haben Sie das Problem, dass …

Wenn Sie eine oder mehrere dieser Antworten mit "Ja" beantworten, kann die Nutzung einer Datenbank sinnvoll sein.

Voraussetzungen

Datenbanken existieren nicht im luftleeren Raum.

Die Nutzung einer Datenbank verlangt …

Die Nutzung von Datenbanken verlangt zumindest einen initialen Aufwand in den Bereichen Konzeption, Datenmodellierung, Aufbereitung und Infrastruktur!

Exkurs

Alternativen zur eigenen Datenbank

Keine eigene Datenbank um der eigenen Datenbank willen! Die Chance ist hoch, dass es für Ihren Forschungsansatz bereits eine Softwarelösung gibt.

Kurzdefinition Datenbank

Datenbanken sind spezialisierte Softwarelösungen, die als Werkzeuge
  • die Modellierung (Explizierung),
  • die Verwaltung,
  • die Speicherung,
  • die Abfrage als Bereitstellung von Teilmengen und
  • die Analyse
von großen Datenmengen unterstützen.

Arten von Datenbanken

Es gibt verschiedene Arten von Datenbanken, die sich durch ihr Datenmodell, ihre Abfrage- und Verarbeitungsmöglichkeiten und durch ihre Optimierungen unterscheiden. Eine für den geisteswissenschaftlichen Kontext sinnvolle Unterscheidung ist die folgende:

Jede Datenbank-Art wird von unterschiedlichen Anbietern angeboten. Manche Angebote sind proprietär und kostenpflichtig, andere open source und ohne Lizenzzahlungen nutzbar.

Einige

Beispiele

Beispiel: Die Quelle

Tagebuch

Sergeant Wiliam H. H. Enderton war während des Sezessionskrieges Soldat des 34ten Illinois Infanterie-Regiments. In seinem Tagebuch beschreibt er die Atlanta Campaign, das Ende des Krieges und auch Abraham Lincolns Ermordung.

Das Tagebuch hat keinen Umschlag und ist lose mit Faden gebunden. Einige Seiten fehlen, welche die Einträge vom 20.8.1864 bis zum 2.9.1864 sowie die Einträge vom 13.9.1864 bis September 1864, beinhalten.

Bereitgestellt durch Special Collections Dept. at the University of Iowa, Iowa Libraries. Online einsehbar in der Iowa Digital Library.

Die Quelle: Forschungsfragen und Modellierungsansätze

Tagebuch

  • Basis-Erschließung:
    • Personen
    • Orte
    • Datierungen
    • Strukturierung
  • Textstruktur und Texttopographie:
    • Seiten
    • Einrückungen von Tageseinträgen
    • Kopfzeilen
  • Text-Konstitution:
    • Auflösung von Abkürzungen
    • Angabe von Texteingriffen durch den Autor Streichungen, Korrekturen, etc.
  • Inhaltliche Erschließung:
    • Sacherschließung:
      • Post und Briefverkehr
      • Versorgung und Verpflegung
      • Militärische Aufgaben
      • Truppenbewegung
      • Kampfhandlungen
      • Verluste
    • Interpretative Erschließung:
      • Verluste
      • Dauer von Ereignissen

Relationale Datenbank

SQLite

Relationale Datenbank

Je rigider, eindeutiger und "tabellenartiger" die Information strukturiert werden kann, desto besser ist SQL nutzbar. Geisteswissenschaftliche Datenbestände erfordern bei Abfrage, Datenhaltung, etc. oft erhöhte Komplexität in SQL.

Beispiel: Relationale Datenbank

Primary Key
Eindeutiger Identifikator eines Datensatzes, d.h. einer Zeile in einer Tabelle.
many-to-many-Beziehung
Relationale Datenbanksysteme keine direkten Many-to-Many-Beziehung zwischen zwei Tabellen. Daher müssen Many-to-many-Beziehung in zwei One-to-many-Beziehungen aufgeteilt werden, indem Sie in eine dritte Tabelle, eine so genannte Join-Tabelle, verlagert werden.
Join-Tabelle
Jeder Datensatz in einer Join-Tabelle enthält ein Abgleichsfeld, das den Wert der Primärschlüssel der beiden Tabellen enthält, die er verknüpft.

Beispiel: Relationale Datenbank

ERD

Ein Tagebucheintrag kann mit null, einem oder sehr vielen Ortseinträgen verknüpft sein. Ein Ortseintrag kann mit einem oder sehr vielen Tagebucheinträgen verknüpft sein. Die Beziehung zwischen Tagebucheintrag und Ortseintrag ist eine many-to-many-Beziehung.

Dokumentdatenbank

eXist/XML

XML-Datenbank

Liegt das Augenmerk auf möglichst freier und "interpetativer" Annotation von Textbereichen auf Basis verschachtelter Hierarchien, dann ist XML die Anwendung der Wahl. Das Abbilden überlappender Strukturen führt in XML zu erhöhter Komplexität.

Beispiel: XML

Elemente
Machen Strukturen und Information explizit. Elemente werden hierarchisch ineinander verschachtelt.
Attribute
Attribute fügen Elementen zusätzliche Information auf Basis von Schlüssel-Wert-Paaren zu.
XPath
Abfragesprache, die Elemente auf Grundlage ihrer Verortung im Baum zurückgibt.

Beispiel: XML

XML

Das Tagebuch fächert sich in Tageseinträge auf. Diese fächern sich wiederum in Text und in weitere Elemente, wie Personen-, Orts- oder Sach-Markup auf. Zentral ist, dass es sich um eine hierarchische Baumstruktur handelt, die Überlappungen verhindert.

Beispiel: XML

XML_E

  1. Ein Tageseintrag mit Sacherschließung im Attribut corresp.
  2. Angabe eines Datums mit Normierung im Attribute when. Angabe von Unterstreichung.
  3. Angabe eines Ortsnamens mit Verweis auf normierte Ansetzung im Metadaten-Kopf.
  4. Angabe einer "Messung". Auflösung und Expandierung einer Abkürzung.

Graphdatenbank

Neo4j

Graphdatenbank

Sollen netzwerkartige Strukturen, die eher durch ihre Beziehung zueinander als durch ihre eigenen Attribute definiert sind, abgebildet werden, dann bietet sich Neo4j an. Graphen haben keine Probleme mit überlappenden Strukturen, sind aber deutlich komplexer als (rein hierarchische) Ansätze mit XML.

Beispiel: Neo4j

Neo4j

Der Hautstrang im Graph wird durch die Tageseintrags-Knoten gebildet. Diese enthalten den Text als Property. zusätzliche Informationen, um die herum sich Cluster bilden können, sind ebenfalls als Nodes angelegt: Orte, Topics.

Suchmaschinen

Suchmaschinen, Searchengines und Module zur Such-Indizierung bereiten die Inhalte einer Datenbank derart auf, dass performanter gesucht werden kann. Zudem bieten eigentlich alle Suchmaschinen auch eine interne Prozessierung auf Basis von Natural Language Processing an, die es erlaubt lemmatisierte Suchen oder Fuzzy-Searches zu nutzen.

Beispiel

LunrJS

Link

LunrJS

                [ {
    "name": "1864-05-01",
    "text": "Sunday, May 1st, the 2nd Division 14th Army Corps ​still at Rosville Georgia.",
    "tags": ""
  }, {
    "name": "1864-05-02",
    "text": "Monday, 2nd – Marched to Ringgold distance 12 miles",
    "tags": "movement"
  }, {
    "name": "1864-05-05",
    "text": "Thursday. – 5th the Division marched one mile south of ​Taylors Rridge; The 34th went back to Ringgold to obain new guns. & got mail Saw some of the 75th",
    "tags": "movement provisioning mail"    
  }, {
    "name": "1864-05-07",
    "text": "Saturday, 7th Division marched to Buzard Roost skirmishing ​all the way. the 4th Army Core. took Tunnel Hill",
    "tags": "movement combat"
  }, {
    "name": "1864-05-08",
    "text": "Sunday, 8th Companies A F & B went on picket Saturday evening ​came of Sunday PM & the Regiment was sent to take ​a position on a hill. Company A deployed as skir​mishers. waded Mill Creek took a hill ​& fought till dark; then went to camp.",
    "tags": "movement combat"
  } ]               
            

03

Fazit

Fazit

F I N I S

Thank you

Noch Fragen?

🤖

Literatur

Eine kommentierte Literaturliste finden Sie hier.

Download