27.09.2018 | mainzed Lunch Lectures | JGU Mainz

Retro/Digitalisierung

Einblick in Theorie und Praxis - vom Bild des Textes zum Text

Ein Workshop Rahmen der mainzed Lunch Lectures

H.-W. Bartz (ADWL Mainz) | D. Kasper (ADWL Mainz)
digitale-akademie.de | @digicademy | digicademy | Mitglieder im mainzed-Netzwerk
Released under CC BY 4.0 (Hans-Werner Bartz, Dominik Kasper; Digitale Akademie)

Die folgenden Folien stellen eine nur in Teilen aktualisierte Fassung der am 7. Dezember 2016 in der HS Mainz zum gleichen Thema gehaltenen Lunch Lecture da.

01

Einführung

Warum und wozu wird retrodigitalisiert?

Eine Strategie für die digitale (Online-)Bereitstellung gilt heute als Grundvoraussetzung bei der Beantragung/Verlängerung von geisteswissenschaftlichen Forschungsvorhaben
In vielen Fällen liegen bereits nur gedruckt erschienen Ergebnisse vor, deren digitale Grundstufe nicht (mehr) existiert, nicht verarbeitbar ist oder nicht vollständig dem publizierten Stand entspricht.
Bereitstellung von nur gedruckt vorliegenden (älteren) Werken für die digitale Weiterverarbeitung, bspw.
- für Online-Präsentation
- linguistische Korpusbildung
- Digitale Langzeitarchivierung
- digitale Abfrage und Visualisierung

Definition

Als Retrodigitalisierung verstehen wir die Überführung analoger Text- und Bilddaten in ein elektronisches Format zum Zwecke der computergestützten Bereitstellung und Verarbeitung.

02

Prämissen

Bildmaterial

Abbildung der Materialität
- Farbtreue durch Abgleich mittels Farbstreifen
- Dokumentation der Proportionen durch Lineale
Zukunftssichere Datenformate, -qualität und -ablagemodalität
- hohe Auflösung (300+ DPI)
- verlustfreies Dateiformat (TIFF)
- Originale und Arbeitskopien
Metadaten zu Identifikation und Erstellungs-Historie
- Von Ersteller über Lagerort bis Material und Zustand
- Standards
  - International Press Telecommunications Council Information Interchange Model (IPTC IIC)
  - IPTC Extensible Metadata Platform (XMP)
  - Dublin Core Metadata Initiative (DCMI) Metadata Terms
- Sprechende Dateinamen haben sich für die Übersichtlichkeit als äußerst praktikabel erwiesen.

Textmaterial

Allgemeine Vorgaben
- Angabe zur Vorlagengenauigkeit [mehr]
- Erhalt textspezifischer Strukturen (Beispiel: Poesie vs. Archivmaterial)
- Sonderzeichen nach Unicode
- Dateikodierung UTF-8
- Reintextformate
Projektspezifische Vorgabe
- Seiten- und Zeilengenauigkeit
- Typographie und spezifische Sonderzeichen (Grad der Semi-Diplomatik)
- Markierung von Entitäten (Personen, Orte, …)

03

Konzeption und Durchführung

Planung des Digitalisierungs- und Projektworkflows

intern: Hardwareaustattung (Bibliotheksscanner mit Buchwippe), Software, Arbeitsstunden, Expertise
extern: Rundum-sorglos-Paket (externe Anbieter)
Mischform: Erfassung extern, Aufbereitung intern

Expertise bedeutet …
- Übersicht über die Besonderheiten des Textes auf Zeichen-, Wort- und Formatierungsebene (Sonderzeichen, Stand der Orthographie bei Trennungen, Textanordnung).
  - mündet in die Erfassungsanweisung
- Hardwarekenntnisse (Scanner); Softwarekenntnisse (OCR-Programm, Tools für die Aufbereitung des OCR-Ergebnisses).

Wissenschaftliches Digitalisieren: DFG Praxisregeln „Digitalisierung“

DFG-Praxisregeln herunterladen

Vorlagengenauigkeit auf Zeichenebene: 99,5% besser 99,7% (= Bei einer Stichprobe von 10.000 Zeichen müssen 9990 korrekt sein)
- Editionsvorhaben setzen in der Regel höhere Genauigkeiten von 99,95-99,998% an
OCR vs. double keying
Langzeitarchivierung (Datenformat, z.B. XML)
persistente Adressierung bei Internetresourcen
Metadata Encoding & Transmission Standard und Metadata Object Description Schema (METS/MODS) - Metadaten für bibliographische Zwecke

Wissenschaftliches Digitalisieren: Selbsthilfe dt. Bibliotheken

„OCR-D ist ein Koordinierungsprojekt, welches auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist.“ (http://www.ocr-d.de/)

Bereitgestellte Werkzeuge

Verfahrensweisen

Double-Keying bzw. Triple-Keying

benötigt Personal zum Abtippen
Nachbearbeitung (Prüfen Diff) notwendig

Optical Character Recognition (OCR)
- benötigt hochauflösende und präparierte Scans
- benötigt spezialisierte Software
- Muss angepasst (Sprache, Typographie) und „trainiert“ werden
- Problematisch bei Mischschriften (Antiqua+Fraktur) oder bei abweichenden Schriftschnitten