Your browser doesn't support the features required by impress.mod.js,
so you are presented with a simplified version of this presentation.
For the best experience please use the latest Chrome, Safari
or Firefox browser.
27.09.2018 | mainzed Lunch Lectures | JGU Mainz
Retro/Digitalisierung
Einblick in Theorie und Praxis - vom Bild des Textes zum Text
Ein Workshop Rahmen der mainzed Lunch Lectures
Die folgenden Folien stellen eine nur in Teilen aktualisierte Fassung der am 7. Dezember 2016 in der HS Mainz zum gleichen Thema gehaltenen Lunch Lecture da.
Table of Contents
-
Einführung
-
Prämissen
- Bildmaterial
- Textmaterial
-
Konzeption und Durchführung
- Planung des Digitalisierungs- und Projektworkflows
- Wissenschaftliches Digitalisieren
- Verfahrensweisen
- Beispiele aus der Praxis
- Lernressourcen, Literaturhinweise & Software
01
Einführung
Warum und wozu wird retrodigitalisiert?
- Eine Strategie für die digitale (Online-)Bereitstellung gilt heute als Grundvoraussetzung bei der
Beantragung/Verlängerung von geisteswissenschaftlichen Forschungsvorhaben
- In vielen Fällen liegen bereits nur gedruckt erschienen Ergebnisse vor, deren digitale Grundstufe
nicht (mehr) existiert, nicht verarbeitbar ist oder nicht vollständig dem publizierten Stand entspricht.
- Bereitstellung von nur gedruckt vorliegenden (älteren) Werken für die digitale
Weiterverarbeitung, bspw.
- für Online-Präsentation
- linguistische Korpusbildung
- Digitale Langzeitarchivierung
-
digitale Abfrage und Visualisierung
Definition
Als Retrodigitalisierung verstehen wir die Überführung analoger
Text- und Bilddaten in ein elektronisches Format
zum Zwecke der computergestützten Bereitstellung und Verarbeitung.
02
Prämissen
Bildmaterial
- Abbildung der Materialität
- Farbtreue durch Abgleich mittels Farbstreifen
- Dokumentation der Proportionen durch Lineale
-
- Zukunftssichere Datenformate, -qualität und -ablagemodalität
- hohe Auflösung (300+ DPI)
- verlustfreies Dateiformat (TIFF)
- Originale und Arbeitskopien
- Metadaten zu Identifikation und Erstellungs-Historie
- Von Ersteller über Lagerort bis Material und Zustand
- Standards
- International Press Telecommunications Council Information Interchange Model (IPTC
IIC)
- IPTC Extensible Metadata Platform (XMP)
- Dublin Core Metadata Initiative (DCMI) Metadata Terms
- Sprechende Dateinamen haben sich für die Übersichtlichkeit als äußerst praktikabel
erwiesen.
Textmaterial
- Allgemeine Vorgaben
- Angabe zur Vorlagengenauigkeit [mehr]
- Erhalt textspezifischer Strukturen (Beispiel: Poesie vs. Archivmaterial)
- Sonderzeichen nach Unicode
- Dateikodierung UTF-8
- Reintextformate
- Projektspezifische Vorgabe
- Seiten- und Zeilengenauigkeit
- Typographie und spezifische Sonderzeichen (Grad der Semi-Diplomatik)
- Markierung von Entitäten (Personen, Orte, …)
03
Konzeption und Durchführung
Planung des Digitalisierungs- und Projektworkflows
- intern: Hardwareaustattung (Bibliotheksscanner mit Buchwippe), Software, Arbeitsstunden,
Expertise
- extern: Rundum-sorglos-Paket (externe Anbieter)
- Mischform: Erfassung extern, Aufbereitung intern
- Expertise bedeutet …
- Übersicht über die Besonderheiten des Textes auf Zeichen-, Wort- und Formatierungsebene
(Sonderzeichen, Stand der Orthographie bei Trennungen, Textanordnung).
- mündet in die Erfassungsanweisung
- Hardwarekenntnisse (Scanner); Softwarekenntnisse (OCR-Programm, Tools für die
Aufbereitung des OCR-Ergebnisses).
Wissenschaftliches Digitalisieren: DFG Praxisregeln „Digitalisierung“
DFG-Praxisregeln herunterladen
- Vorlagengenauigkeit auf Zeichenebene: 99,5% besser 99,7% (= Bei einer Stichprobe von 10.000 Zeichen müssen 9990 korrekt sein)
- Editionsvorhaben setzen in der Regel höhere Genauigkeiten von 99,95-99,998% an
- OCR vs. double keying
- Langzeitarchivierung (Datenformat, z.B. XML)
- persistente Adressierung bei Internetresourcen
-
Metadata Encoding & Transmission Standard und Metadata Object Description Schema (METS/MODS) - Metadaten für bibliographische Zwecke
Wissenschaftliches Digitalisieren: Selbsthilfe dt. Bibliotheken
„OCR-D ist ein Koordinierungsprojekt, welches auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist.“ (http://www.ocr-d.de/)
Bereitgestellte Werkzeuge
Verfahrensweisen
- Double-Keying bzw. Triple-Keying
- benötigt Personal zum Abtippen
- Nachbearbeitung (Prüfen Diff) notwendig
- Optical Character Recognition (OCR)
- benötigt hochauflösende und präparierte Scans
- benötigt spezialisierte Software
- Muss angepasst (Sprache, Typographie) und „trainiert“ werden
- Problematisch bei Mischschriften (Antiqua+Fraktur) oder bei abweichenden Schriftschnitten
Beispiele aus der Praxis
Schule von Salamanca, Goethes Biographica und Grimms Wörterbuch
04
Lernressourcen, Literaturhinweise & Software
Literature
Präsentations-Software
Software und Technologien (Auswahl)
zur Texterkennung/-aufbereitung
zur Metadatenverwaltung
-
Exiftool (Quellenoffen und betriebssystemübergreifend)
Download
-
Präsentation
-
License: CC-BY 4.0, Hans-Werner Bartz, Dominik Kasper (alle Digitale Akademie der Akademie der Wissenschaften und der Literatur |
Mainz)