Your browser doesn't support the features required by impress.mod.js, so you are presented with a simplified version of this presentation.

For the best experience please use the latest Chrome, Safari or Firefox browser.

27.09.2018 | mainzed Lunch Lectures | JGU Mainz

Retro/Digitalisierung

Einblick in Theorie und Praxis - vom Bild des Textes zum Text

Ein Workshop Rahmen der mainzed Lunch Lectures

H.-W. Bartz (ADWL Mainz) | D. Kasper (ADWL Mainz)
Twitter digitale-akademie.de | Twitter @digicademy | Twitter digicademy | mainzed Mitglieder im mainzed-Netzwerk

Released under CC BY 4.0 (Hans-Werner Bartz, Dominik Kasper; Digitale Akademie)

Die folgenden Folien stellen eine nur in Teilen aktualisierte Fassung der am 7. Dezember 2016 in der HS Mainz zum gleichen Thema gehaltenen Lunch Lecture da.

Table of Contents

  1. Einführung
  2. Prämissen
    • Bildmaterial
    • Textmaterial
  3. Konzeption und Durchführung
    • Planung des Digitalisierungs- und Projektworkflows
    • Wissenschaftliches Digitalisieren
    • Verfahrensweisen
    • Beispiele aus der Praxis
  4. Lernressourcen, Literaturhinweise & Software

01

Einführung

Warum und wozu wird retrodigitalisiert?

  • Eine Strategie für die digitale (Online-)Bereitstellung gilt heute als Grundvoraussetzung bei der Beantragung/Verlängerung von geisteswissenschaftlichen Forschungsvorhaben
  • In vielen Fällen liegen bereits nur gedruckt erschienen Ergebnisse vor, deren digitale Grundstufe nicht (mehr) existiert, nicht verarbeitbar ist oder nicht vollständig dem publizierten Stand entspricht.
  • Bereitstellung von nur gedruckt vorliegenden (älteren) Werken für die digitale Weiterverarbeitung, bspw.
    • für Online-Präsentation
    • linguistische Korpusbildung
    • Digitale Langzeitarchivierung
    • digitale Abfrage und Visualisierung

Definition

Als Retrodigitalisierung verstehen wir die Überführung analoger Text- und Bilddaten in ein elektronisches Format zum Zwecke der computergestützten Bereitstellung und Verarbeitung.

02

Prämissen

Bildmaterial

  • Abbildung der Materialität
    • Farbtreue durch Abgleich mittels Farbstreifen
    • Dokumentation der Proportionen durch Lineale
  • Zukunftssichere Datenformate, -qualität und -ablagemodalität
    • hohe Auflösung (300+ DPI)
    • verlustfreies Dateiformat (TIFF)
    • Originale und Arbeitskopien
  • Metadaten zu Identifikation und Erstellungs-Historie
    • Von Ersteller über Lagerort bis Material und Zustand
    • Standards
      • International Press Telecommunications Council Information Interchange Model (IPTC IIC)
      • IPTC Extensible Metadata Platform (XMP)
      • Dublin Core Metadata Initiative (DCMI) Metadata Terms
    • Sprechende Dateinamen haben sich für die Übersichtlichkeit als äußerst praktikabel erwiesen.

Textmaterial

  • Allgemeine Vorgaben
    • Angabe zur Vorlagengenauigkeit [mehr]
    • Erhalt textspezifischer Strukturen (Beispiel: Poesie vs. Archivmaterial)
    • Sonderzeichen nach Unicode
    • Dateikodierung UTF-8
    • Reintextformate
  • Projektspezifische Vorgabe
    • Seiten- und Zeilengenauigkeit
    • Typographie und spezifische Sonderzeichen (Grad der Semi-Diplomatik)
    • Markierung von Entitäten (Personen, Orte, …)

03

Konzeption und Durchführung

Planung des Digitalisierungs- und Projektworkflows

  • intern: Hardwareaustattung (Bibliotheksscanner mit Buchwippe), Software, Arbeitsstunden, Expertise
  • extern: Rundum-sorglos-Paket (externe Anbieter)
  • Mischform: Erfassung extern, Aufbereitung intern
  • Expertise bedeutet …
    • Übersicht über die Besonderheiten des Textes auf Zeichen-, Wort- und Formatierungsebene (Sonderzeichen, Stand der Orthographie bei Trennungen, Textanordnung).
      • mündet in die Erfassungsanweisung
    • Hardwarekenntnisse (Scanner); Softwarekenntnisse (OCR-Programm, Tools für die Aufbereitung des OCR-Ergebnisses).
Ein Bibliotheksscanner mit Buchwippe
Scanner mit Buchwippe
(CC BY-SA 3.0, Pondus)

Wissenschaftliches Digitalisieren: DFG Praxisregeln „Digitalisierung“

DFG-Praxisregeln herunterladen

Wissenschaftliches Digitalisieren: Selbsthilfe dt. Bibliotheken

„OCR-D ist ein Koordinierungsprojekt, welches auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist.“ (http://www.ocr-d.de/)

Bereitgestellte Werkzeuge

Verfahrensweisen

  • Double-Keying bzw. Triple-Keying
    • benötigt Personal zum Abtippen
    • Nachbearbeitung (Prüfen Diff) notwendig
  • Optical Character Recognition (OCR)
    • benötigt hochauflösende und präparierte Scans
    • benötigt spezialisierte Software
    • Muss angepasst (Sprache, Typographie) und „trainiert“ werden
    • Problematisch bei Mischschriften (Antiqua+Fraktur) oder bei abweichenden Schriftschnitten

Beispiele aus der Praxis

Schule von Salamanca, Goethes Biographica und Grimms Wörterbuch

04

Lernressourcen, Literaturhinweise & Software

Literature

Präsentations-Software

Software und Technologien (Auswahl)

zur Texterkennung/-aufbereitung
zur Metadatenverwaltung

Download