Modernes Tool für alte Texte

Historische Druckschriften in computerlesbaren Text umwandeln: Dafür sorgt das Werkzeug OCR4all, das sehr zuverlässig arbeitet, leicht zu bedienen und frei verfügbar ist. Wissenschaftler der Uni Würzburg haben es entwickelt.

Nachrichten durchblättern

Seite aus einer französischen Version des "Narrenschiffs". Solche alten Schriften lassen sich mit OCR4all zuverlässig in computerlesbaren Text umwandeln. (Staats- und Universitätsbibliothek Dresden, CC BY-SA 4.0 creativecommons.org/licenses/by-sa/4.0/deed.de)

Historiker, Germanisten und andere Geisteswissenschaftler haben es oft mit schwierigen Forschungsobjekten zu tun: mit jahrhundertealten Druckwerken, die sich nicht leicht entziffern lassen und die oft schlecht erhalten sind. Viele dieser Dokumente sind inzwischen digitalisiert – in der Regel abfotografiert oder eingescannt – und stehen weltweit online zur Verfügung. Für die Forschung ist das schon einmal ein Fortschritt. Es gibt aber immer noch eine Herausforderung zu meistern: die digitalisierten alten Schriften mit Texterkennungs-Software in eine moderne Form zu bringen, die auch für Nicht-Fachleute und für Computer lesbar ist. Auf diesem Gebiet haben Wissenschaftler vom Zentrum für Philologie und Digitalität der Julius-Maximilians-Universität Würzburg (JMU) für eine deutliche Weiterentwicklung gesorgt.

Mit OCR4all stellt das JMU-Forschungsteam der Fachwelt ein neues Werkzeug zur Verfügung. Es setzt digitalisierte historische Drucke mit einer Fehlerquote von weniger als einem Prozent in computerlesbaren Text um. Und es bietet eine grafische Benutzeroberfläche, für deren Bedienung kein Informatik-Fachwissen nötig ist. Bei bisherigen Tools dieser Art war die Nutzerfreundlichkeit nicht sonderlich ausgeprägt, meist musste mit Programmierbefehlen hantiert werden.

Das neue Werkzeug OCR4all wurde unter der Leitung von Christian Reul mit seinen Informatik-Fachkollegen Professor Frank Puppe (Lehrstuhl für Künstliche Intelligenz und angewandte Informatik) und Christoph Wick sowie mit Uwe Springmann, Fachmann für Digital Humanities, und zahlreichen Studierenden und Hilfskräften entwickelt. Bei der Entwicklung von OCR4all haben die Informatiker eng mit geisteswissenschaftlichen Disziplinen der JMU zusammengearbeitet – unter anderem mit der Germanistik und der Romanistik im Projekt "Narragonien digital". Dort ging es darum, das "Narrenschiff" digital aufzubereiten – eine Moralsatire von Sebastian Brant, ein Bestseller des 15. Jahrhunderts, der in viele Sprachen übersetzt wurde.

Die automatische Texterkennung (OCR = Optical Character Recognition = optische Zeichenerkennung) funktioniert für moderne Schrifttypen seit längerer Zeit sehr gut. Für historische Schriften hat das bislang aber noch nicht gegolten. "Eines der größten Probleme war die Typographie", sagt Reul. Das liege unter anderem daran, dass die ersten Druckereien des 15. Jahrhundert keine einheitlichen Schriften verwendeten. "Ihre Druckstempel waren alle selbst geschnitzt, jede Druckerei hatte praktisch ihre jeweils eigenen Buchstaben und Zeichen."

Ob e oder c, ob v oder r – das ist in alten Drucken oft nicht einfach zu unterscheiden. Eine Software kann aber lernen, solche Feinheiten zu erkennen. Doch dafür muss sie zuerst an Beispielmaterial trainiert werden. In seiner Arbeit hat Reul Methoden entwickelt, um dieses Training effizienter zu machen. In einer Fallstudie mit sechs historischen Drucken aus den Jahren von 1476 bis 1572 konnte dadurch die Fehlerquote bei der automatischen Texterkennung im Schnitt von 3,9 auf 1,7 Prozent gesenkt werden.