Literaturliste

Max Grüntgens, März 2021

Vorbemerkung

Die “Allgemeine Literaturliste” sammelt thematisch einführende Literatur zu einigen Themen im Kontext der Digital Humanities. Die Liste dient der eigenständigen Vertiefung und kann nur ein erster Einstieg in die Thematik sein.

Ich habe nur Zeit für ein Buch!

Wenn Sie nur Zeit zur Lektüre eines einzigen Werks haben, dann starten Sie mit Bod, Rens (2015): A New History of the Humanities. Oxford. Bod gibt einen Überblick über das Für und Wider von quantitativen (formal-musterorientierten) und qualitativen (interpretativen) Ansätzen. Zahlreiche Beispiele stellen die durchaus schöpferische Spannung zwischen diesen zwei Extrempunkten dar. Die Lektüre von Bods Werk kann helfen, die vorherrschenden Arbeit- und die Denkweisen in den Digital Humanities besser einordnen und nachvollziehen zu können.

Ich habe nur Zeit für drei Bücher!

Starten Sie mit Bod, Rens (2015): A New History of the Humanities. Oxford. Schließen Sie daran entweder Jannidis, F. et al.: Digital Humanities. Eine Einführung an (wenn Sie einen knapperen aber breiten Überblick anstreben), oder Flanders, Julia / Jannidis, Fotis (2019): The Shape of Data in Digital Humanities. Modeling Texts and Text-based Resources an (wenn Sie eine tiefergehende, aber auch anspruchvollere Auseinandersetzung bevorzugen). Im Anschluss sollten Sie Ihre Lektüre durch Pomerantz, Jeffrey (2015): Metadata. mit einem Metadaten-Fokus abschließen.

Ich habe Zeit für ein paar Bücher, will aber auch sofort praktisch arbeiten!

Konsultieren Sie alle oder einige der oben genannten Bücher, um sich ein grundlegendes Fundament zur Datenarbeit in den Digital Humanities zu machen. Wenn Sie dann direkt in die Praxis gehen wollen, sollten Sie sich für eine Art der Datenmodellierung entscheiden:

Retrodigitalisierung, “Verdatung” und Aufbau einer Sammlung

Gibt einen Überblick über die Diskussion zur Retrodigitalisierung. Dort auch weiterführende Literatur.

Grüntgens und Kollatz gehen am Beispiel zweier Inschriften-Datenbanken des Mittelalters und der Frühen Neuzeit auf die mit historischen Sammlungen einhergehenden Herausforderungen ein: Unvollständigkeit, historische Sprachstufen, Varianz, Zweifelhaftigkeit u.a.m.

Umfassende Besprechung unterschiedlicher Aspekte korpuslinguistischer und sammlungsbasierter Forschung (historische Entwicklung, Theoriefundament, Aufbau einer Sammlung, sammlungsbasierte Forschung in verschiedenen Fachdisziplinen).

Datenmodellierung

Flanders und Jannidis stellen die Grundlagen geisteswissenschaftlicher Datenmodellierung vor. Eine zentrale Aufgabe ist dabei die oft in nicht- oder nur semi-formalisierter Form vorliegenden Repräsentationen der Forschungsgegenstände in eine formalisiertere bzw. durch-formalisierte Form der Repräsentation zu überführen.

Pomerantz gibt einen Überblick über die Geschichte von “Metadaten”, wie und warum sie eingesetzt wurden und werden und bespricht bekannte Modellierungs und Erschließungsansätze (Dublin Core, Dewey Decimal Classification) und Technologien (XML, Linked Open Data).

Einstiegslektüre zum Textbegriff

Martens problematisiert den alltagssprachlichen Begriff “Text” und zeigt insbesondere, dass keine funktionalistische eins-zu-eins-Relation zwischen dem Lesen eines Textes (Input) und dem Verstehen eines Texte (Output) besteht, sondern dass das Lesen eines Textes zwar gewissen Beschränkungen oder constraints unterliegt und regelgeleitet abläuft, jedoch auch stets ein individueller, schöpferischer Akt ist. Vgl. zu dieser Konzeption auch Luhmann unten.

McKenzie betont die Notwendigkeit breiter und tiefer Metadatisierung historischer Bestände. Er zeigt, dass ein “Text” nicht nur aus den lesbaren Buchstaben besteht, sondern auch der Objektcharakter und die Materialität des Textträgers hohe Signifikanz für viele kulturgeschichtliche Ansätze hat. Dieses Buch war richtungsweisend für die kulturwissenschaftliche Forschung.

Einstiegslektüre zum “Digitalen Bild”

Solem gibt einen projektbasierten Überblick darüber, wie Bilder, als Rastergraphiken im Sinne von Matrizen, im Computer repräsentiert werden. Im Anschluss zeigt er an zahlreichen Beispielen wie Bilder als Daten analysiert und transformiert werden können, um einen Erkenntnisgewinn zu erzielen, e.g. Objekterkennung, 3D-Rekonstruktion, Augmented Reality, etc.

Kaehler und Bradski erklären die Verarbeitung digitaler Rastergraphiken am Beispiel der Bibliothek OpenCV3 in C++. Nichtsdestoweniger ist das Buch auch als allgemeine Lektüre sinnvoll, da es problemzentriert vorgeht und die theoretischen wie praktischen Grundlagen für die Anwendung klar erläutert werden. Zum Einstieg sind S. 3–6 und die kurzen Einführungstexte zu Beginn jedes Kapitels zur Lektüre zu empfehlen.

Einstiegslektüre “Digitale Edition”

Ein zentraler Arbeitsbereich in den digitalen Geisteswissenschaften ist die Erstellung und Bereitstellung digitaler Editionen und Textsammlungen. Hierbei synthetisiert “Digitale Editorik” Wissen und Traditionen der “analogen” Editionswissenschaft mit dem digitalen Arbeitsraum und einem informatischen Blick auf Texte, deren Konstitution und Bereitstellung.

Sahle und Vogeler stellen die Grundlagen der in den Digitalen Geisteswissenschaften sehr verbreiteten Extensible Markup Language (XML) vor. Außerdem vermittelt Sahle die Grundlagen der Digitalen Editorik bzw. Edition, in deren Kontext häufig auf XML zurückgegriffen wird.

Relationale Datenbank

Praxisorientierte Einführung in die Arbeit mit einer relationalen Datenbank. Auch für Anfänger geeignet.

Graphen und Netzwerke

Eine projektorientierte, problemzentrierte Einführung, die insbesondere für Anfänger geeignet ist. Die “Denke hinter Graphen” wird pointiert erläutert und am Beispiel einer Film-Datenbank expliziert.

Kuczeras webbasiertes Buch bietet einen genuien geisteswissenschaftlichen Blick auf Graphen-Technologien. Der Dreischritt Modelierung–Import–Analyse wird mit vielen nachnutzbaren Code-Beispielen praxisnah erläutert.

Ein Buch, das sehr gut im Anschluss an Hungers oder Kuczeras Publikationen gelesen werden kann, um Aspekte zu vertiefen und zu schärfen.

Linked Open Data (LOD) und Sematic Web

Grundlagenwerk für alle die im Zentrum von Semantic Web und LOD arbeiten wollen, indem sie eigene Ontologien erstellen oder bestehende erweitern.

Eine anfängerfreundliche, grundlegende Einführung in das Thema LOD/Semantic Web für Geisteswissenschaftler:innen. Ähnlich basale, aber kürzere Einführungen bieten auch Meinderstma und Rehbein (s.u.).

Schrade und Grüntgens zeigen wie XML-basierte Sammlungen auf einfache Art und Weise in Datenformate des Semantic Web übertragen werden können und welche neuen Möglichkeiten eine deratige Übertragung bietet.

Webservice zur Transformation von XML in, bzw. zur Extrakion von LOD/Semantic Web Datenformaten aus XML.

Forschungs-Konzeption und Projekt-Arbeit

Eine der “Bibeln” der Software-Entwicklung. Evans betont neben der Notwendigkeit klarer und konsistenter Problem-Analysen vor allem das Miteinander mit dem Nutzer der Software, dem sog. Domänenexperten. Damit das Miteinander kommunikativ überhaupt erfolgreich sein kann, muss zwischen allen Projekt-Mitarbeitern eine sog. “ubiquitäre Sprache” entwickelt werden, also eine Sprache, die allgemein im gesamten Projektkontext von allen Beteiligten verwendet wird, eine “Lingua Franca”.

Grüntgens, Kasper und Schrade wenden das von Evans entwickelte Schema auf die geisteswissenschaftliche Forschung an und erklären einzelne Schritte an einem dezidierten “real life” Projekt. Außerdem binden sie das Konzept des Behaviour Driven Developments (BDD) mit in ihre Überlegungen ein.

Die AG Research Software Engineering in den Digital Humanities (DH-RSE) möchte die Position von Softwareentwickler_innen in den Geistes- und Kulturwissenschaften stärken und ihre Forschungsbeiträge innerhalb der Digital Humanities besser sichtbar machen. (Selbsbeschreibung auf der Website)

Data Science-Workflow, Analyse und Visualisierung

Bespricht Vor- und Nachteile quantifizierender und damit häufig sammlungsbasierter Ansätze in der Geschichtswissenschaft. Hintergrund zur Publikation war der zunehmende Druck (und die verbreitete Ablehnung quantitativer Ansätze) durch die “traditionell-hermeneutische” Geschichtswissenschaft.

Nicht-mathematische Einführung in multivariate Analyseansätze.

Problemorientierte Hands-On-Einführung in die Sammlung, Aufbereitung, Verarbeitung und Analyse (großer) Text-Sammlungen mit der Programmiersprache Python und ausgewählten Bibliotheken (NLTK, Scikit, spaCy, u.a.m.). Wenn man Python verwenden will, ist diese Buch ein Must-Have, gegebenenfalls komplementiert durch die Python-Machine/Deep-Learning-Bücher von O’Reilly.

Grundlegende Einführung in Data Science und Überblick über den Gesamtworkflow sowie über die einzelnen Aufbereitungs-, Verarbeitungs- und Analyse-Tasks.

Gibt einen Überblick über die Möglichkeiten zur Analyse von bibliographischen Metadaten-Sammlungen, aber auch von Texten und Text-Sammlungen im geisteswissenschaftlichen, meist literaturwissenschaftlichen Kontext. Da der Benutzung bestimmter Methoden immer eine dezidierte geisteswissneschaftliche Fragestellung zugrundeliegt, ist es ein guter Einführungstext, wenn man Beispiele für digitale Geisteswissenschaftliche Forschung sucht.

Kleines Büchlein zur Theorie hinter der Datenvisualisierung und der Notwendigkeit einer adäquaten Operationalisierung.

Ein Text der sich dezidiert an Geisteswissenschaftler richtet und diesen einen “statistischen” Blick auf ihre Fragestellungen und ihre Forschungsgegenstände vermitteln will. Daher ist hier die Vermittlung statistischen Grundwissens immer stark mit der adäquaten Formalisierung einer geisteswissenschaftlichen Fragestellung und anschließender Operationalisierung auf Basis dieser Formalisierung verzahnt.

Die ersten Kapitel geben eine Einführung in die Geschichte der Inhaltsanalyse. Verschiedene Inhalts- bzw. Informationstheorien werden besprochen und der Kontext in den die Forschungsobjekte eingebettet sind unter den Schlagworten Text, Forschungsfrage, Kontext, Analytische Konstrukte und Validierung, dargestellt.

Gibt einen kurzen historischen Abriss über die Geschichte quantitativer Ansätze in den Geisteswissenschaften (mit Fokus auf der Geschichtswissenschaft). Anschließend werden Datenerhebung sowie verschiedene analystische Methoden (deskriptive und inferentielle Statistik, Visualisierung, Netzwerke) an hand von Beispielen durchgesprochen.

Grundlegende Einführung in die Theorie und Praxis von Karten und Kartierung.

Formalisierung und Operationalisierung an dezidiert geisteswissenschaftlichen Beispielen (Dramen).

Segaran beschreibt und implementiert verschiedene Algorithmen aus dem machine learning-Kontext, um Datensammlungen zu filtern, zu clustern oder allgemein auf maschinelle Weise insights zu generieren.

Pennebaker zeigt an verschiedenen Beispielen auf, dass Texten sehr unterschiedliche Eigenschaften zukommen können, je nachdem aus welchem Blickwinkel, mit welcher Fragestellung und mit welcher Methode sie prozessiert werden: so werden beim Lesen und Schreiben, viele Wörter nur unterbewusst verarbeitet oder gebraucht und die Präferenz für oder gegen spezifische Worte oder Wortkombinationen bspw. mit Faktoren wie Gender oder Alter korrellieren können.

Der Klassiker der explorativen Datenvisualisierung.

Grundlagen Linguistik und Computerlinguistik

Klassischer, einführender Text in die Korpuslinguistik. Die einzelnen Kapitel fokussieren jeweils auf spezifische Themen wie Lexikographie, Grammatik, Diskurs, Register-Variation/Soziolekte. Jedes Kapitel folgt dem Schema: 1) Identifikation und Klärung der Forschungsfrage, 2) Aufbereitung und Analyse, 3) Interpretation der Analyse-Ergebnisse.

Ein knapper, aber sehr konziser Durchmarsch durch das Thema. Spricht neben Verarbeitung und Analyse von Texten und bestehenden Sammlungen auch die Aufbereitung und Bereitstellung von (linguistischen) Text-Sammlungen an.

Empfohlene Meta-Lektüre

Gibt einen historischen Überblick über die Entwicklung geisteswissenschaftlicher Forschung und Forschungsansätze von der Antike bis heute. Dabei fokussiert Bod auf Forschungsansätze, die darauf abzielen Muster und Strukturen zu erkennen, diese herauszuarbeiten und für Analysen zu nutzen. Als überblicksartige Einführung in die Geisteswissenschaften und ihre Forschungsegenstände geeignet.

Sehr gut lesbare “populäre” Einführung in den Informations-Begriff und seine Geschichte. Gleick fasst die theoretischen die praktischen Aspekte des Informations-Begriffs und erläutert distinkte theoretische Punkte in klarer Sprache.

Luhmann zeigt wie man in sehr strukturierter Art und Weise über Wahrnehmung, Theorien und Theoriebildung nachdenken kann. Er setzt das Individuum als Beobachtungssystem in den Mittelpunkt seiner Überlegungen und macht deutlich, wie wichtig es ist, bei beobachtetem und wahrgenommenem immer danach zu fragen wer (oder was) eigentlich der Beobachter ist.

Luhmann und Stachowiak haben sich beide damit beschäftigt, wie Theorien und Modelle entstehen, benutzt und verändert werden. Beide zeigen wie ein Problem(feld) strukturiert und methodisch analysiert und daraufhin theoretisch wie methodisch be- bzw. verarbeitbar gemacht werden kann. Wer sich für Modell- und Theoriebildung interessiert, sollte diese zwei “Altmeister” lesen.

Komplexitäts-Theorien

Systeme können als einfache, komplizierte und komplexe Systeme verstanden werden. Bei einfachen Systemem handelt es sich um solche die durch lineare Gleichungen darstellbare sind, komplexe Systeme sind nicht-linear. Durch Theoriebildung können nicht-lineare Systeme jedoch in lineare transformiert werden, um deren Verarbeitung zu erleichtern. Systeme sind dann komplex, wenn sie divers/heterogen, verbunden/vernüpft, interdependent und adaptiv sind. Komplizierte Systeme können ebenfalls heterogen und verbunden sein, sind jedoch oft nicht interdependent und nie adaptiv. Ein weiterer zentraler Punkt komplexer Systeme ist ihre Fähigkeit emergente Phänomene zu erzeugen, e.g. das komplexe System Gehirn/Nervensystem erzeugt das emergente Phänomen “Bewusstsein/Geist”. Weitere Beispiele für komplexe Systeme sind Sprache, Kultur, Hermeneutik, eine Schlacht zwischen zwei Heeren u.v.m.

Johnson gibt eine sehr gut lesbare “populäre” Einführung in das Thema Komplexitätstheorie.

Mitchell gibt eine gut lesbare, minimal mathematische tour de force durch das Thema Komplexitätstheorie.

Resnick beschreibt komplexe Systeme und emergente Phänomene am Beispiel von Simulationen von Schleim-Pilzen und Ameisen u.a.m.

Programmierung

Python

Python-Kurs für Anfänger:innen, der die Sprache anhand von kleinen Projekten vermittelt.

Grundlegender Einstieg und Durchmarsch durch die Data Science-Bibliothek “Pandas”.

JavaScript

Die derzeit beste Einführung in JavaScript.

Grundlegender Kurs zum Arbeiten mit dem D3-Framework für Datenvisualisierung.