Your browser doesn't support the features required by impress.mod.js,
so you are presented with a simplified version of this presentation.
For the best experience please use the latest Chrome, Safari
or Firefox browser.
07.12.2016 | mainzed Lunch Lectures | Hochschule Mainz
Retro/Digitalisierung
Einblick in Theorie und Praxis - vom Bild des Textes zum Text
Vortrag im Rahmen der mainzed Lunch Lectures
Table of Contents
-
Einführung
-
Prämissen: Genauigkeit, Genauigkeit, Genauigkeit
- Bildmaterial
- Textmaterial
- Use-Cases für Bild-, Text- und Mischdigitalisierung
-
Konzeption und Durchführung
- Planung des Digitalisierungs- und Projektworkflows
- Wissenschaftliches Digitalisieren: DFG Praxisregeln „Digitalisierung“
- Verfahrensweisen
- Beispiele aus der Praxis
- Lernressourcen, Literaturhinweise & Software
01
Einführung
Warum und wozu wird retrodigitalisiert?
- Eine Strategie für die digitale (Online-)Bereitstellung gilt heute als Grundvoraussetzung bei der
Beantragung/Verlängerung von geisteswissenschaftlichen Forschungsvorhaben
- In vielen Fällen liegen bereits nur gedruckt erschienen Ergebnisse vor, deren digitale Grundstufe
nicht (mehr) existiert oder veraltet ist
- Bereitstellung von nur gedruckt vorliegenden (älteren) Werken für die digitale
Weiterverarbeitung, bspw.
- für Online-Präsentation
- linguistische Korpusbildung
- Digitale Langzeitarchivierung
Definition
Als Retrodigitalisierung verstehen wir die Überführung analoger
Text- und Bilddaten in ein elektronisches Format
zum Zwecke der computergestützten Bereitstellung und Verarbeitung.
02
Prämissen
Bildmaterial
- Abbildung der Materialität
- Farbtreue durch Abgleich mittels Farbstreifen
- Dokumentation der Proportionen durch Lineale
-
- Zukunftssichere Datenformate, -qualität und -ablagemodalität
- hohe Auflösung (300+ DPI)
- verlustfreies Dateiformat (TIFF)
- Originale und Arbeitskopien
- Metadaten zu Identifikation und Erstellungs-Historie
- Von Ersteller über Lagerort bis Material und Zustand
- Standards
- International Press Telecommunications Council Information Interchange Model (IPTC
IIC)
- IPTC Extensible Metadata Platform (XMP)
- Dublin Core Metadata Initiative (DCMI) Metadata Terms
- Sprechende Dateinamen haben sich für die Übersichtlichkeit als äußerst praktikabel
erwiesen.
Textmaterial
- Allgemeine Vorgaben
- Angabe zur Vorlagengenauigkeit [mehr]
- Erhalt textspezifischer Strukturen (Beispiel: Poesie vs. Archivmaterial)
- Sonderzeichen nach Unicode
- Dateikodierung UTF-8
- Reintextformate
- Projektspezifische Vorgabe
- Seiten- und Zeilengenauigkeit
- Typographie und spezifische Sonderzeichen (Grad der Semi-Diplomatik)
- Markierung von Entitäten (Personen, Orte, …)
Use-Cases
für Bild-, Text- und Misch-Digitalisierung
- Glasfenster, Bilderarchiv, Archivierung ohne Recherchebedarf
- Wissenschaftl. Publikation, Rechnungsbücher, statistisches Material
- Illuminierte Codices, wissenschaftl. Publikation mit Abb.
03
Konzeption und Durchführung
Planung des Digitalisierungs- und Projektworkflows
- intern: Hardwareaustattung (Bibliotheksscanner mit Buchwippe), Software, Arbeitsstunden,
Expertise
- extern: Rundum-sorglos-Paket (externe Anbieter)
- Mischform: Erfassung extern, Aufbereitung intern
- Expertise bedeutet …
- Übersicht über die Besonderheiten des Textes auf Zeichen-, Wort- und Formatierungsebene
(Sonderzeichen, Stand der Orthographie bei Trennungen, Textanordnung).
- mündet in die Erfassungsanweisung
- Hardwarekenntnisse (Scanner); Softwarekenntnisse (OCR-Programm, Tools für die
Aufbereitung des OCR-Ergebnisses).
Wissenschaftliches Digitalisieren: DFG Praxisregeln „Digitalisierung“
DFG-Praxisregeln herunterladen
- Vorlagengenauigkeit auf Zeichenebene: 99,5% besser 99,7% (= Bei einer Stichprobe von 10.000 Zeichen müssen 9990 korrekt sein)
- Editionsvorhaben setzen in der Regel höhere Genauigkeiten von 99,95-99,998% an
- OCR vs. double keying
- Langzeitarchivierung (Datenformat, z.B. XML)
- persistente Adressierung bei Internetresourcen
Selbsthilfe dt. Bibliotheken
„OCR-D ist ein Koordinierungsprojekt, welches auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist.“ (http://www.ocr-d.de/)
Verfahrensweisen
- Double-Keying bzw. Triple-Keying
- benötigt Personal zum Abtippen
- Nachbearbeitung (Prüfen Diff) notwendig
- Optical Character Recognition (OCR)
- benötigt hochauflösende und präparierte Scans
- benötigt spezialisierte Software
- Muss angepasst (Sprache, Typographie) und „trainiert“ werden
- Problematisch bei Mischschriften (Antiqua+Fraktur) oder bei abweichenden Schriftschnitten
Beispiele aus der Praxis
Schule von Salamanca, Goethes Biographica und Grimms Wörterbuch
04
Lernressourcen, Literaturhinweise & Software
Literature
Präsentations-Software
Software (Auswahl)
zur Textaufbereitung
zur Metadatenverwaltung
-
Exiftool (Quellenoffen und betriebssystemübergreifend)
Download
-
Präsentation
-
License: CC-BY 4.0, Hans-Werner Bartz, Dominik Kasper (alle Digitale Akademie der Akademie der Wissenschaften und der Literatur |
Mainz)