Your browser doesn't support the features required by impress.mod.js, so you are presented with a simplified version of this presentation.

For the best experience please use the latest Chrome, Safari or Firefox browser.

07.12.2016 | mainzed Lunch Lectures | Hochschule Mainz

Retro/Digitalisierung

Einblick in Theorie und Praxis - vom Bild des Textes zum Text

Vortrag im Rahmen der mainzed Lunch Lectures

H.-W. Bartz (ADWL Mainz) | D. Kasper (ADWL Mainz)
Twitter digitale-akademie.de | Twitter @digicademy | Twitter digicademy

Released under CC BY 4.0 (Hans-Werner Bartz, Dominik Kasper; Digitale Akademie)

Table of Contents

  1. Einführung
  2. Prämissen: Genauigkeit, Genauigkeit, Genauigkeit
    • Bildmaterial
    • Textmaterial
    • Use-Cases für Bild-, Text- und Mischdigitalisierung
  3. Konzeption und Durchführung
    • Planung des Digitalisierungs- und Projektworkflows
    • Wissenschaftliches Digitalisieren: DFG Praxisregeln „Digitalisierung“
    • Verfahrensweisen
    • Beispiele aus der Praxis
  4. Lernressourcen, Literaturhinweise & Software

01

Einführung

Warum und wozu wird retrodigitalisiert?

  • Eine Strategie für die digitale (Online-)Bereitstellung gilt heute als Grundvoraussetzung bei der Beantragung/Verlängerung von geisteswissenschaftlichen Forschungsvorhaben
  • In vielen Fällen liegen bereits nur gedruckt erschienen Ergebnisse vor, deren digitale Grundstufe nicht (mehr) existiert oder veraltet ist
  • Bereitstellung von nur gedruckt vorliegenden (älteren) Werken für die digitale Weiterverarbeitung, bspw.
    • für Online-Präsentation
    • linguistische Korpusbildung
    • Digitale Langzeitarchivierung

Definition

Als Retrodigitalisierung verstehen wir die Überführung analoger Text- und Bilddaten in ein elektronisches Format zum Zwecke der computergestützten Bereitstellung und Verarbeitung.

02

Prämissen

Bildmaterial

  • Abbildung der Materialität
    • Farbtreue durch Abgleich mittels Farbstreifen
    • Dokumentation der Proportionen durch Lineale
  • Zukunftssichere Datenformate, -qualität und -ablagemodalität
    • hohe Auflösung (300+ DPI)
    • verlustfreies Dateiformat (TIFF)
    • Originale und Arbeitskopien
  • Metadaten zu Identifikation und Erstellungs-Historie
    • Von Ersteller über Lagerort bis Material und Zustand
    • Standards
      • International Press Telecommunications Council Information Interchange Model (IPTC IIC)
      • IPTC Extensible Metadata Platform (XMP)
      • Dublin Core Metadata Initiative (DCMI) Metadata Terms
    • Sprechende Dateinamen haben sich für die Übersichtlichkeit als äußerst praktikabel erwiesen.

Textmaterial

  • Allgemeine Vorgaben
    • Angabe zur Vorlagengenauigkeit [mehr]
    • Erhalt textspezifischer Strukturen (Beispiel: Poesie vs. Archivmaterial)
    • Sonderzeichen nach Unicode
    • Dateikodierung UTF-8
    • Reintextformate
  • Projektspezifische Vorgabe
    • Seiten- und Zeilengenauigkeit
    • Typographie und spezifische Sonderzeichen (Grad der Semi-Diplomatik)
    • Markierung von Entitäten (Personen, Orte, …)

Use-Cases

für Bild-, Text- und Misch-Digitalisierung

  1. Glasfenster, Bilderarchiv, Archivierung ohne Recherchebedarf
  2. Wissenschaftl. Publikation, Rechnungsbücher, statistisches Material
  3. Illuminierte Codices, wissenschaftl. Publikation mit Abb.

03

Konzeption und Durchführung

Planung des Digitalisierungs- und Projektworkflows

  • intern: Hardwareaustattung (Bibliotheksscanner mit Buchwippe), Software, Arbeitsstunden, Expertise
  • extern: Rundum-sorglos-Paket (externe Anbieter)
  • Mischform: Erfassung extern, Aufbereitung intern
  • Expertise bedeutet …
    • Übersicht über die Besonderheiten des Textes auf Zeichen-, Wort- und Formatierungsebene (Sonderzeichen, Stand der Orthographie bei Trennungen, Textanordnung).
      • mündet in die Erfassungsanweisung
    • Hardwarekenntnisse (Scanner); Softwarekenntnisse (OCR-Programm, Tools für die Aufbereitung des OCR-Ergebnisses).
Ein Bibliotheksscanner mit Buchwippe
Scanner mit Buchwippe
(CC BY-SA 3.0, Pondus)

Wissenschaftliches Digitalisieren: DFG Praxisregeln „Digitalisierung“

DFG-Praxisregeln herunterladen

Selbsthilfe dt. Bibliotheken

„OCR-D ist ein Koordinierungsprojekt, welches auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist.“ (http://www.ocr-d.de/)

Verfahrensweisen

  • Double-Keying bzw. Triple-Keying
    • benötigt Personal zum Abtippen
    • Nachbearbeitung (Prüfen Diff) notwendig
  • Optical Character Recognition (OCR)
    • benötigt hochauflösende und präparierte Scans
    • benötigt spezialisierte Software
    • Muss angepasst (Sprache, Typographie) und „trainiert“ werden
    • Problematisch bei Mischschriften (Antiqua+Fraktur) oder bei abweichenden Schriftschnitten

Beispiele aus der Praxis

Schule von Salamanca, Goethes Biographica und Grimms Wörterbuch

04

Lernressourcen, Literaturhinweise & Software

Literature

Präsentations-Software

Software (Auswahl)

zur Textaufbereitung
zur Metadatenverwaltung

Download