Veröffentlicht am

Deep Learning in der Filmanalyse

Ein Beitrag unserer Reihe zu «Digital Humanities an der Philosophischen Fakultät». In einem schriftlichen Interview mit Barbara Flückiger hören wir von den Möglichkeiten von Deep Learning in der Filmanalyse – und noch vieles mehr. In der Reihe geben Lehrende und Forschende der PhF einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen.

Frau Flückiger, bitte stellen Sie sich vor!

Mein Name ist Barbara Flückiger und ich bin Professorin für Filmwissenschaft. Vor meiner akademischen Karriere war ich international in der Filmproduktion tätig. Diesen beruflichen Hintergrund in Engineering und in der Filmpraxis bringe ich nun konsequent in meine filmwissenschaftliche Forschung und Lehre ein, in der ich mich schwerpunktmässig mit technologischer Innovation und ihren Konsequenzen für die Filmästhetik auseinandersetze. 2015 habe ich mit einem interdisziplinären Projekt einen Advanced Grant des European Research Council zur Untersuchung von historischen Filmfarben eingeworben. Ein komplementäres SNF-Projekt setzt sich mit kulturellen Faktoren der Technikgeschichte auseinander. Ausserdem nehmen wir physikalische und chemische Untersuchungen von Filmmaterialien vor.

Abb. 1 Multi-spektrale Scanner-Einheit für historische Farbfilme, entwickelt im ERC Proof-of-Concept VeCoScan, siehe Video https://vimeo.com/417111087

Obwohl meine Forschung grundlegende Fragen behandelt, sind die Ergebnisse auch für die Anwendung relevant. So entwickle ich mit meinem interdisziplinären Team wissenschaftlich fundierte Methoden für die Digitalisierung des Filmerbes, die sich in technisch avancierten Workflows umsetzen lassen. 2018 habe ich dafür einen Proof-of-Concept des European Research Council erhalten, um die wissenschaftlichen Erkenntnisse auf ihre praktische Umsetzung hin zu untersuchen. Und schliesslich präsentierten wir unsere Forschung mit einer Förderung durch SNF-Agora im letzten Herbst in einer Ausstellung im Fotomuseum Winterthur sowie mit verschiedenen Filmprogrammen einer breiteren Öffentlichkeit.

Abb. 2 Ausstellung Color Mania im Fotomuseum Winterthur

Was verstehen Sie unter «Digital Humanities»?

Ganz allgemein sind Digital Humanities Verfahren und Werkzeuge, die sich digitaler Methoden zur Bearbeitung geisteswissenschaftlicher Fragestellungen bedienen. Sie haben ihre Grundlagen in computergestützten Analysen, die zunächst in den Sprachwissenschaften für Korpusanalysen Verwendung fanden. Heute sind die Sprachwissenschaften nach wie vor sehr dominant. Ein weiteres relativ gut etabliertes Feld sind digitale Methoden in der Bildwissenschaft. Hingegen ist die Analyse von audio-visuellen Bewegtbildern – also Film und Video – noch wenig verbreitet, obwohl es seit rund 20 Jahren immer wieder Ansätze in diesem Bereich gegeben hat. Wegen des hohen Datenumfangs und des komplexen Zusammenspiels von Bild, Bewegung und Ton sind die Anforderungen in diesem Bereich sehr viel höher, sowohl was die Datenverarbeitung betrifft als auch hinsichtlich der Analyse-Instrumente. In den Digital Humanities kommen sowohl qualitative als auch quantitative Methoden zum Einsatz. Zunehmend basieren diese Werkzeuge auf Deep Learning mit neuronalen Netzen.

Abb. 3 Deep Learning Tool zur Gender-Erkennung in Farbfilmen, hier Une femme est une femme (FRA 1961, Jean-Luc Godard), entwickelt im Rahmen von ERC Advanced Grant FilmColors von Marius Högger and Mirko Serbak, Institut für Informatik, Universität Zürich

Könnten Sie uns eines Ihrer Forschungsprojekte im Bereich Digital Humanities vorstellen?

Derzeit untersuchen wir die Technologie und Ästhetik von historischen Filmfarben sowie die kulturelle Kontextualisierung dieser Entwicklungen mit einem interdisziplinären Ansatz. Im ERC Advanced Grant FilmColors haben wir ein Korpus von mehr als 400 Filmen von 1895 bis rund 1995 mit Ansätzen der Digital Humanities untersucht. In einem weiteren SNF-Projekt kommen nun Animationsfilme und neuere digitale Produktionen dazu, für die wir diese Methoden weiterentwickeln.

Abb. 4 Historische Filmfarben aus den ersten drei Dekaden der Filmgeschichte. Mehr als 200 historische Farbfilmverfahren sind systematisiert präsentiert auf der Online-Plattform Timeline of Historical Film Colors, illustriert mit mehr als 20’000 Fotografien von historischen Farbfilmen aus Archiven in Europa, den USA und Japan.

Was sind die spezifischen Methoden «der Digital Humanities», die Sie in diesem Projekt anwenden?

Das Fundament für die derzeitigen Projekte legte die Online-Plattform Timeline of Historical Film Colors zu historischen Farbfilmprozessen. Ab 2012 habe ich sie als umfassende interaktive Ressource für alle Aspekte der technischen Grundlagen, ästhetischen Erscheinungsbilder, Identifikation, Vermessung, Restaurierung und ästhetische Analyse aufgebaut, zunächst mit einer Crowd-Funding-Kampagne und eigenen finanziellen Mitteln. Sie umfasst heute mehrere Hundert Einzeleinträge zu den mannigfaltigen Farbfilmverfahren. Inzwischen haben mein Team und ich mit einem eigens dafür entwickelten Kamera-Set-up mehr als 20’000 Fotos von historischen Farbfilmen in Filmarchiven in Europa, den USA und Japan aufgenommen, die wir online in Galerien präsentieren. Diese Plattform ist Teil eines sich weiter ausdehnenden digitalen Ökosystems.

Abb. 5 Das digitale Ökosystem mit dem Offline-Analyse-Tool VIAN, der Online-Plattform VIAN WebApp zur Auswertung und Visualisierung auf Korpusebene, der Timeline of Historical Film Colors und der ColorMania-App für die Ausstellung im Fotomuseum Winterthur.

Im ERC Advanced Grant FilmColors entwickeln wir seit 2017 in Zusammenarbeit mit dem Visualization and MultiMedia Lab von Renato Pajarola (IFI UZH) nun das Digital-Humanities-Tool VIAN für die Film-Annotation und -Analyse auch mit Unterstützung durch Digitale Lehre und Forschung, der Digital Society Initiative und Citizen Science. Entwickler ist Gaudenz Halter, der ein fantastisches Werkzeug mit vielen auf die Bedürfnisse der filmästhetischen Forschung zugeschnittenen Features geschaffen hat.

Abb. 6 Analyse- und Annotationssystem VIAN, Interface mit Segmentierungsleiste und Screenshot-Manager. Film: South Pacific (USA 1958, Joshua Logan)

Dieses in Python programmierte Offline-Tool ist mit der Crowdsourcing-Plattform VIAN WebApp verknüpft, die ebenfalls hauptsächlich Gaudenz Halter entwickelt. Dort sind alle Filmanalysen des Korpus für die Auswertung und Visualisierung der Ergebnisse online verfügbar.

Abb. 7 Kolorimetrische Analyse und Extraktion von Farbpaletten in VIAN. Film: Sedmikrásky [Daisies] (CZE 1966, Vera Chytilová), siehe Tutorial zur Kolorimetrie https://vimeo.com/378587418
In VIAN kommen zusätzlich zu manuellen Methoden Deep Learning Tools zum Einsatz, welche unter anderem eine Figur/Grund-Trennung vornimmt oder Figuren und Gender automatisch erkennen kann. Nach und nach implementieren wir zudem automatische Analyse von Bildkompositionen, visueller Komplexität, Farbverteilungen, Mustern und Texturen. Die Filme werden automatisch segmentiert, Screenshots erstellt und gemanagt. Zur Auswertung gehört die Figur-/Grund-Trennung, die kolorimetrische Analyse und viele Visualisierungsmethoden. Diese Features sind in auch in die WebApp integriert, was es ermöglicht, das ganze Korpus oder bestimmte Subkorpora, aber auch einzelne Filme oder Segmente auszuwerten und zu visualisieren. Zu diesem Zweck haben wir im Projekt ERC Advanced Grant FilmColors ein kontrolliertes Vokabular von rund 1’200 analytischen und theoretischen Konzepten definiert. Jedes dieser Konzepte ist in einem Glossar mit exemplarischen Filmbildern dargestellt mit Auswertungen zur Häufigkeit in bestimmten Perioden, Farbprozessen oder Filmgenres.

Abb. 8 Definition und Illustration eines der theoretischen und analytischen Konzepte, die «erdrückende Dominanz der Objektwelt» in der FileMaker-Glossardatenbank. Dieses kontrollierte Vokabular ist nun in VIAN und in die VIAN WebApp integriert.

Für die manuelle Annotation haben wir zunächst ein Netzwerk von relationalen Datenbanken in FileMaker erstellt, das ich weitgehend selbst programmierte. So konnte ich sehr flexibel auf Desiderate aus dem Team reagieren. Aus diesen Analysen sind mehr als 170’000 Screenshots und mehr als eine halbe Million Aufsummierungen von Resultaten entstanden. Anschliessend hat Gaudenz Halter alle Resultate in die VIAN WebApp integriert; sowohl als von Menschen lesbare JSON-Dateien wie auch als numerische Werte in HDF5-Daten-Containern.

Abb. 9 Interaktive Visualisierung von Resultaten auf Korpus-Ebene in der VIAN WebApp, hier Abfrage monochrome Filter in Filmen von 1955–1995, siehe Video https://vimeo.com/402360042

Welchen Mehrwert bringen Ihnen diese Methoden in diesen Projekten, verglichen mit «analogen» Ansätzen?

Der Mehrwert ist enorm. Ohne solche Ansätze wäre die kollaborative Arbeit an so grossen Korpora gar nicht möglich. Um solche Tools zu entwickeln, ist jedoch eine vertiefte interdisziplinäre Zusammenarbeit zwischen den Geisteswissenschaften und der Informatik notwendig, denn alle Konzepte, alle Auswertungs- und Analysemethoden, alle Ansätze zur Visualisierung der Analysen müssen aus beiden Disziplinen theoretisiert und reflektiert werden.

Wenn diese Voraussetzungen gegeben sind, lassen sich über Visualisierungen als diagrammatische Methoden neue Einsichten gewinnen, die den sprachlichen Horizont überschreiten und unmittelbar der Anschauung zugänglich sind. Dies ist für das audio-visuelle Medium Film, aber auch für andere visuelle Gegenstandsbereiche von unschätzbarem Wert; ohne solche Methoden der systematischen Untersuchung bleiben Ergebnisse anekdotisch und abstrakt zugleich. Visualisierungen schaffen also neue Formen von Evidenz.

Allerdings fallen einem die Ergebnisse auch mit solchen hochausdifferenzierten Werkzeugen nicht in den Schoss. Sie bedürfen immer der Reflexion, der Kontextualisierung und der Interpretation. Oftmals sind die Ergebnisse weit weniger eindeutig, als man das gerne hätte, und weder eine reine Auswertung noch eine Visualisierung ist bereits ein Ergebnis, sondern die Resultate bedürfen immer der Interpretation. Als Forschende müssen wir daher Hypothesen bilden und mit neuen Abfragen oder Visualisierungen differenziertere Resultate erzeugen.

Deshalb ist es von entscheidendem Wert, dass wir mit VIAN Ergebnisse und Abfragen interaktiv, basierend auf dem individuellen Forschungsinteresse anpassen können. So erhalten wir nicht nur Übersichtsvisualisierungen, sondern wir können von der Korpusebene in die einzelnen Szenen und Bilder hineinzoomen und sie uns anzeigen lassen, um detailliertere Informationen zu bekommen.

Wären diese Ansätze auch für andere Disziplinen anwendbar?

Ja, wir arbeiten nun mit anderen Fachbereichen aus den Geisteswissenschaften zusammen, unter anderem mit der Kunstgeschichte SARI / Digital Visual Studies von Prof. Dr. Tristan Weddigen und mit der Sprachwissenschaft in LiRI von Prof. Dr. Elisabeth Stark. Diese Tools lassen sich grundsätzlich in allen Disziplinen anwenden, die mit Videos oder grossen Bildersammlungen / Visualisierungen arbeiten, so in der Psychologie / Verhaltensforschung, Ethnologie, Soziologie, Politologie, aber auch in naturwissenschaftlichen Fächern wie der Medizin und den Life Sciences, zum Beispiel der Neurowissenschaft. Es sind derzeit sehr viele solche Kooperationsprojekte national und international in der Pipeline. Da habe ich dieses Jahr eine Menge Arbeit vor mir.

Wie und wo bringen Sie diese Methoden in der Lehre ein?

Wir haben seit letztem Jahr zunehmend externe Nutzer als Betatester integriert. Dies sind Doktorand*innen, PostDocs, aber auch Professor*innen der UZH und ausländischer Universitäten. Die Herausforderung besteht im Support, denn wir müssen einerseits die Usability mit den Betatestern überprüfen, andererseits die Software fortlaufend anpassen. Dafür hat uns DLF eine 20%-Stelle finanziert. Es gibt eine umfassende Dokumentation und wir erstellen Video-Tutorials für die Einführung.

Ich habe soeben einen kompetitiven Lehrkredit beantragt, damit wir VIAN im kommenden Jahr auf Bachelor- und Masterstufe in der Lehre einsetzen können. Denn auch die Dozierenden müssen geschult werden und brauchen Unterstützung. Es ist ein Irrglaube, eine solch differenzierte Software sei selbsterklärend. Obwohl VIAN sehr flexibel und intuitiv ist, muss man den Umgang damit doch lernen, und es braucht etwas Übung, bis man effizient damit arbeiten kann.

Die Studierenden erhalten so Gelegenheit, sich mit digitalen Werkzeugen und Methoden auseinanderzusetzen, neue Kompetenzen in der Anwendung zu erwerben und gleichzeitig aktiv an der Weiterentwicklung mitzuarbeiten, indem sie Feedback geben und ihre Bedürfnisse artikulieren.

Welche technischen Kenntnisse sollten Studierende mitbringen?

Das Interface von VIAN verlangt keine besonderen technischen Kenntnisse, denn es ist spezifisch auf den Einsatz durch Geisteswissenschaftler und für die ästhetische bzw. narratologische Analyse entwickelt worden. Allerdings ist es von Vorteil, wenn man technikaffin ist und gerne am Computer arbeitet. Auch eine Vorstellung von Auswertungen und der Arbeit mit Datenbanken ist von Vorteil, lässt sich aber ohne spezifische Grundkenntnisse im Lauf der Anwendung erwerben.

An der Timeline of Historical Film Colors arbeiten Studierende im Datenmanagement mit und kodieren die Quellen in HTML, die sie danach in das Backend der Plattform einpflegen und mit einem Thesaurus annotieren.

Wo sehen Sie Bedarf an Infrastruktur, Informatik-Grundausbildung oder anderem an der Philosophischen Fakultät, um «Digital Humanities» in Ihrem Fachgebiet betreiben und in der Lehre einbringen zu können?

Die Philosophische Fakultät braucht dringend eine Digital-Humanities-Strategie, sie muss verstehen, dass sie es sich nicht leisten kann, auf diese digitalen Ansätze und Methoden in den Geisteswissenschaften zu verzichten. Diese Strategie muss von der Unileitung gestützt und eingefordert werden, denn die Universität Zürich muss sich im internationalen Feld positionieren. International findet zunehmend ein Wettbewerb um die besten Talente statt; die besten Universitäten der Welt bemühen sich sowohl um die begabtesten Studierenden als auch um herausragende Forschende. Mit der Digital Society Initiative haben wir bereits einen Verbund von exzellenten Professor*innen auf Universitätsebene, in dem ich seit der Gründung dabei bin.

Mit meinem Projekt, SARI / Digital Visual Studies sowie LiRI sind wir in einer guten Ausgangsposition, aber diese Einzelinitiativen müssen in einen übergeordneten institutionellen Rahmen eingebettet werden und vor allem müssen für diese Integration finanzielle Mittel gesprochen werden. Digitale Ansätze sind nicht selbsterhaltend, sie sind einem steten Wandel unterworfen und entwickeln sich dynamisch im Verbund mit Hardware und Trends in anderen Anwendungsbereichen. Um den Erhalt zu garantieren, brauchen wir spezialisierte technische Infrastruktur, wir brauchen Entwickler, die unsere Methoden und Werkzeuge verstehen und umsetzen, wir brauchen interdisziplinär denkende Doktorand*innen und PostDocs, wir brauchen Techniker*innen, die sich mit den Anforderungen der Forschung beschäftigen. Anders als in den Naturwissenschaften, in denen es selbstverständlich ist, dass ein Labor Mittel hat, um die technische Infrastruktur à jour zu halten, sind diese Anforderungen in den Geisteswissenschaften noch wenig präsent. Bei uns ist die Förderung in der Regel projektbasiert. In meinem Fall sind die Mittel aus dem ERC Advanced Grant mittlerweile erschöpft; das bedeutet, dass die Weiterentwicklung des gesamten Ökoystems, das wir um VIAN herum aufgebaut haben, akut gefährdet ist. Dies, obwohl das Interesse an den Werkzeugen – sowohl uniintern als auch international, fachbezogen und fachübergreifend – sehr gross ist. Der Ball liegt nun bei der Universität, die Grundsicherung und langfristige Perspektive für solche Methoden und Tools sicherzustellen. Dafür ist eine strukturierte Kommunikation aller Stufen und Einheiten der Universität notwendig sowie auch die Kommunikation nach aussen, denn dieses Feld ist sehr attraktiv.

Dank meiner Vorarbeiten kommen viele potenzielle nationale und internationale Partner aktiv auf mich zu. Sie wollen sich vernetzen und von den Entwicklungen profitieren. Das begrüsse ich sehr und pflege einen kooperativen und offenen Austausch. Mit dem Joint Digital Humanities Fund haben wir bereits eine etablierte Kooperation mit der FU Berlin sowie neu der Hebrew University in Jerusalem. Wir arbeiten mit einem internationalen Konsortium an Standardisierungen, welche die Interoperabilität der Ansätze und Tools sicherstellen soll und planen ein übergeordnetes Ökosystem, in das diese Werkzeuge integriert werden können.

Das vergangene Semester hat gezeigt, dass die digitale Lehre und Forschung ein unverzichtbarer Baustein für die Weiterentwicklung der Universitäten sind. Die UZH darf den Anschluss nicht verpassen.

Gibt es Fragen, die ich nicht gestellt habe, die für die Diskussion aber wichtig sind?

Ja, meine persönlichen Ressourcen. Ich habe eine Professur ad personam, ohne Stellen. Meine Arbeitsbelastung in den vergangenen Jahren war gigantisch, und es sieht nicht nach Besserung aus. Auch wenn ich über sehr viel Energie verfüge und überraschend zäh bin, muss ich zu viel leisten. Auf Dauer ist das nicht machbar.

Aber ich bin auch eine ziemlich unerschütterliche Optimistin und nehme an, dass sich die Dinge am Ende schon zum Positiven entfalten.

Blog-Post zu VIAN mit weiterführenden Links: https://blog.filmcolors.org/2018/03/08/vian/
VIAN Dokumentation: https://www.vian.app/static/manual/index.html
VIAN Tutorials: https://vimeo.com/user/70756694/folder/1220854
Screenvideos VIAN WebApp:
https://vimeo.com/396548709
https://vimeo.com/402360042
https://vimeo.com/404388151

Veröffentlicht am

Alternative Leistungsnachweise mit digitalen Technologien

Im nächsten Beitrag unserer Reihe zu «Digital Humanities an der Philosophischen Fakultät» erzählt uns Daniel Ursprung, wissenschaftlicher Mitarbeiter am Historischen Seminar, von alternativen Leistungsnachweisen. In der Reihe geben Lehrende und Forschende der PhF uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen. Wir diskutieren den Begriff «Digital Humanities» von ganz verschiedenen Perspektiven aus.

Können Sie sich kurz vorstellen, Herr Ursprung?

Mein Name ist Daniel Ursprung, ich bin wissenschaftlicher Mitarbeiter an der Abteilung für Osteuropäische Geschichte am Historischen Seminar. Dort bin ich in der Forschung und Lehre aktiv – in der letzten Zeit habe ich mich, v.a. im Bereich der Lehre, mit digitalen Technologien und deren Möglichkeiten auseinandergesetzt. Ich möchte den Studierenden einen niederschwelligen Einstieg in diese Technologien ermöglichen.

 

Können Sie uns ein Beispiel geben, was Sie in der Lehre anbieten?

Im Rahmen eines Lehrkredit-Projekts habe ich drei verschiedene Technologien ausprobiert, um damit alternative Formen von Leistungsnachweisen zu erstellen. Das ist einerseits der Einsatz von geospatial technologies, also die Arbeit mit geographischen Informationssystemen, die Raumanalysen und Kartenerstellung ermöglichen, etwa für historische Fragestellungen.

Wir haben andererseits auch Audiopodcasts erstellt – hier interviewten die Studierenden Forschende, die zum Thema der Lehrveranstaltung publiziert haben. Die Aufgabe für den Leistungsnachweis war es dann, aus den Interviews einzelne Sequenzen mit eigenem Input zu einem stimmigen Podcast zusammenzufügen.

In eine ähnliche Richtung gehen Videoessays. Dabei produzierten die Studierenden kurze Videofilme zu verschiedenen Themen der Lehrveranstaltung. Ausgangspunkt waren im Internet gefundene Videosequenzen, die mit zusätzlichen Materialien ergänzt wurden – z.B. Bilder, Statistiken, Karten oder sogar eigenem Videomaterial. Ziel war es, ein eigenes Storytelling zu entwickeln, um das Thema kurz und prägnant thesenartig zu vermitteln.

Belagerung von Sevastopol 1854/55 im Krimkrieg auf einer historischen Karte (Charles Alexandre Fay: Plan des Attaques. In: Ders.: Souvenirs de la guerre de Crimée, 1854-1856, no. 3. Paris 1867), ergänzt um topographische 3D-Angaben aus einem digitalen Höhenmodell

Haben Sie selber in diesen Bereichen gearbeitet – wie kamen Sie auf die Idee, diese Technologien in die Lehre zu bringen?

Das ist teilweise auch aus der Lehre heraus entstanden. In einer früheren Lehrveranstaltung zeigte ich als Auftakt zur Sitzung jeweils ein kurzes Video, quasi als Teaser zum Thema, ohne es aber weiter im Unterricht zu verwenden. Die Evaluation der Lehrveranstaltung zeigte dann, dass die Studierenden gerne mehr mit diesen Sequenzen gearbeitet hätten. So entstand die Idee, das Medium Video stärker und v.a. aktiver zu nutzen. Häufig ist es ja so, dass Videos zwar analysiert und als Quelle verwendet, sie aber in unseren geisteswissenschaftlichen Fächern selten selber produziert werden. Ich denke, es ist wichtig, die Medienkritik auch mal aus einer anderen Perspektive heraus zu stärken: wer selber ein Video produziert hat, sieht mit ganz anderen Augen und weiss aus Erfahrung, welche Grenzen das Medium für die Wissenschaftsvermittlung aufweist.

Bei den Podcasts war es so, dass ich selber gerne Wissenschaftspodcasts höre, zum Beispiel den Kanal New Books in History. Dort sind Interviews mit Autorinnen und Autoren wissenschaftlicher Werke zu finden, in denen man schnell viel darüber erfährt, was in der Forschung aktuell ist. Ich wollte so etwas Ähnliches auf einer niederschwelligen Ebene in der Lehre machen. Hier zeigte sich, dass diese Form ohne grosse technologische Voraussetzungen umsetzbar ist. Durch die Interviews konnten die Studierenden in Interaktion mit Wissenschaftlerinnen und Wissenschaftlern treten und so forschungsnahes Lernen erleben. Vor allem die Vorbereitung der Interviews erforderte eine intensive Beschäftigung mit dem Thema, war aber auch eine grosse Motivation.

Die Studierenden müssen dann auch wissenschaftliche Texte in eine ganz andere Form bringen können…

Genau – neben dem technologischen Aspekt gibt es immer den des Mediums: Was kann ein Medium leisten und wo sind seine Grenzen? Wie lassen sich wissenschaftliche Inhalte vermitteln und wo sind Vor- und Nachteile der einzelnen Kanäle? Hier geht es mir auch immer um eine kritische Haltung: Digitales soll kein Selbstzweck sein, sondern digitale Technologien sind Werkzeuge, bei denen immer zu überlegen ist, ob sie sich für die geplante Arbeit eignen oder ob analoge Methoden vorzuziehen sind.

So ist es etwa bei Podcasts schwierig, Schauplätze im Raum zu verorten: es gibt schlicht keine Möglichkeit, Visuelles wie eine Karte einzublenden. Genau umgekehrt ist es bei den Videos – hier muss der visuelle Raum ständig gefüllt werden, auch wenn kein passendes Bild- oder Videomaterial vorliegt. Das kann u.U. noch schwieriger sein als nichts zeigen zu können und zwingt zur Reflexion unserer Sehgewohnheiten. In der Praxis ist es nicht ganz einfach, all diese verschiedenen Medien wie Ton, Bild, Schrift sinnvoll zu kombinieren, ohne dass es langweilig oder umgekehrt überfordernd oder sogar manipulativ wird. Selber ein Video zu erstellen kann helfen, die Kritikfähigkeit zu schärfen, indem solche Probleme bewusst werden. Nicht so sehr ein professionelles Video ist Ziel dieser Art von Leistungsnachweis, sondern die kritische Reflexion darüber, welche Darstellungsformen in verschiedenen Medien funktionieren und welche Möglichkeiten für die Wissenschaftsvermittlung sich dabei eröffnen. Nicht zuletzt ist es auch eine Motivation für den Lernprozess.

Wissenschaft hat immer auch den Aspekt des Storytellings: Ob ich einen schriftlichen Text produziere oder einen Podcast macht dramaturgisch einen Unterschied. Und ein Storytelling hinzukriegen, das für das jeweilige Medium funktioniert, ist nicht ganz einfach. Die grundsätzlichen Überlegungen etwa zu den eingesetzten Stilmitteln sollen auch helfen, Erfahrungen zu sammeln, die dann auch wieder für das klassische Schreiben hilfreich sein können: welche Vorteile bietet mir der Text und wie gestalte ich ihn interessant, leicht verständlich und dennoch wissenschaftlich adäquat?

Interaktive Karte eines Cholera-Ausbruchs in Soho (London) 1854, Darstellung der Todesfälle mit Heatmap sowie nach Radius und Höhe skalierten räumlichen Säulendiagrammen: digitales Remake einer damals von Hand erstellten Karte von John Snow, ein Klassiker aus der Anfangszeit räumlicher Analysen. Deutlich ist zu erkennen, welche der Wasserpumpen für die Infektion verantwortlich war. Die Karte lässt sich per Mausklick drehen und vergrössern, einzelne Säulen können angewählt werden.

Mich würde auch das Kartenprojekt sehr interessieren – gerade räumliche Daten sind im technischen Umgang ja nicht einfach. Wie führen Sie Studierende an diese Themen heran?

In der Osteuropäischen Geschichte müssen wir fast immer mit Karten arbeiten, weil diese Räume vielen Leuten nicht auf Anhieb bekannt sind. Geschichtskarten aber werden kaum reflektiert und oft unkritisch genutzt: Wie und auf welcher Grundlage sie entstanden sind, ist meist intransparent. Seltsamerweise wird das fast nie thematisiert. Der Aufwand, eine gute Karte zu erstellen, ist mitunter ähnlich hoch wie für einen guten Aufsatz – bei der Karte aber fehlt der wissenschaftliche Apparat. Auch wird selten thematisiert, was eine Karte darstellen kann und was nicht. Wo führt eine kartographische Darstellung in die Irre? In Publikationsprojekten hatte ich schon die Gelegenheit, zu eigenen Texten Karten extern erstellen zu lassen. Damit gebe ich aber einen Teil der Kontrolle an eine/n Kartographin/en ab. Mit den heutigen technischen Möglichkeiten müsste es doch möglich sein, einfache Karten selber zu erstellen, dachte ich mir. In einer Lehrveranstaltung zur Geschichte der Kartographie habe ich dann erstmals digitale Technologien genutzt für die Arbeit mit Karten aus früheren Jahrhunderten. So bin ich dann auf QGIS gestossen, eine open source Software, mit der sich fast alles realisieren lässt, was im Bereich GIS möglich ist. Damit können zwar auch Karten erstellt werden, das Spektrum an Einsatzszenarien aber ist sehr viel breiter. In der Lehre einfache Karten zu erstellen ist ein guter Ausgangspunkt für einen intuitiven Einstieg in die wissenschaftliche Arbeit mit digitalen Technologien. Darauf aufbauend können dann schrittweise zentrale Fragen des Umgangs mit digitalen Technologien generell erarbeitet werden wie Modellierung, Management, Analyse und Visualisierung von Daten, Verständnis und Reflexion digitaler Verarbeitung bis hin zu Computational Thinking und Beurteilung der Folgen, die das dann letztlich wiederum für die eigene wissenschaftliche Arbeit hat.

Von den drei ausprobierten Formaten sehe ich im Bereich der spatial humanities das grösste Potential für die Lehre. Dies aus mehreren Gründen: Alle kennen Karten aus dem Alltag, sei es gedruckt oder auch als Navigation auf dem Handy. Mit einfachen Übungen, ohne grosse technische Kenntnisse, lässt sich mit QGIS bereits ein kleines Einstiegsprojekt erstellen, um die Schwellenangst vor dem Einsatz digitaler Methoden zu überwinden und den Bezug zum Fach aufzuzeigen. Davon ausgehend lässt sich die Komplexität dann steigern.

Wir haben zum Beispiel als Einstieg die Reiseroute einer Pilgerreise aus dem 15. Jahrhundert von Bayern nach Jerusalem auf einer Karte visualisiert. Die Frage war dann, welche Erkenntnisse sich aus einer solchen Visualisierung gewinnen lassen. Sie ermöglichen einen ganz anderen Zugang und machen auf Aspekte aufmerksam, die bei der reinen Textlektüre leicht übersehen werden. Ausserdem liegt eine Karte nicht einfach vor, sondern ist aufgrund eigener Entscheidungen entstanden und kann beliebig verändert werden.

Für die Schulung von digital skills in der akademischen Lehre haben geographische Informationssysteme (GIS) den Vorteil, dass damit fast alle digitalen Kernkompetenzen trainiert werden können: Wie werden z.B. aus historischen Quellen maschinenlesbare Daten für eine Datenbank, d.h. die Frage der Datenmodellierung. Welche Schritte sind hier auch aus methodischer und theoretischer Sicht notwendig? Hier kommt das digitale und fachwissenschaftliche zusammen. Manchmal können bestehende Daten übernommen werden. Da stellen sich Fragen zur Herkunft der Daten, wie vollständig, akkurat und präzise sie sind sowie danach, wer sie warum erstellt hat und was sie repräsentieren. Dann ist natürlich wichtig zu fragen, wie Algorithmen funktionieren – was machen sie mit den Daten, welches sind die einzelnen Schritte? Und wie ist der gesamte Verarbeitungsprozess zu gestalten und kritisch zu bewerten? Auch hinter der Software stehen ja letztlich immer bestimmte gesellschaftliche Interessen und Sichtweisen – welche Implikationen hat das für die wissenschaftliche Arbeit?

Stadtplan von Zürich von 1824 (Heinrich Keller: Grundriss der Stadt Zürich 1824. Zürich 1824), überlagert mit Polygonen der heute existierenden Gebäude sowie dem Verlauf der barocken Befestigungsanlage aus dem 17. Jh., die 1833/34 geschleift wurde.

Könnten Sie uns ein Beispiel geben, wie sie bei der Datenmodellierung konkret vorgegangen sind?

Für das Beispiel der Pilgerreise haben die Studierenden den Quellentext erst einmal ohne Vorgaben aufbereitet. Es handelt sich um kurze Tagebucheinträge, die beschreiben, an welchem Tag die Reisenden wo waren, wie weit sie gereist sind, wo sie übernachtet haben etc. Die Studierenden haben dann die Orte aufgeschrieben und zunächst auf Google Earth visualisiert. Interessant war dann zu sehen, wie unterschiedlich die Ergebnisse ausfallen. Sofort entstand etwa die Frage, wie sich Zeit modellieren lässt: Nehmen wir etwa Zeitpunkte oder Zeiträume? Wie gehe ich damit um, wenn unklar ist, was in der Zwischenzeit passiert ist? Die Frage, wie eine solche Reise visualisiert wird, ist nicht ganz so trivial wie es scheinen mag und öffnet den Blick für grundlegende methodische Fragen. Das ist ein guter Anlass, um über verschiedene Zeitkonzeptionen, ein Thema der Geschichtsphilosophie, zu sprechen. Digitale Arbeitsweisen können also auch Ausgangspunkt sein, sich durchaus auf klassisch-analoge Weise über grundlegende Konzepte des eigenen Fachs Gedanken zu machen.

Gerade bei historischen Fragestellungen existieren oft nur vage Angaben. Bei Reiseberichten sind vielfach nur Etappenorte bekannt, nicht aber der konkrete Verlauf der historischen Verkehrswege. Oder wenn in einer Quelle «hinter dem Hügel» oder «in der Nähe des Baches» steht, ist nicht einmal der Ort ganz klar. Auch hier ist dann zu überlegen, wie solche historische Unschärfe passend zu modellieren ist. Oft merkt man erst, wie viele Informationen eigentlich gar nicht vorhanden sind, wenn man versucht, diese Informationen in eine digitale Form zu bringen. So treten Inkonsistenzen zu Tage, die bei der reinen Lektüre nicht offensichtlich sind.

Die Frage ist immer, was sind die relevanten Informationen, und dies wiederum bedeutet stets: Was ist mein Erkenntnisinteresse? In Übungen mit den Studierenden sollen diese Informationen dann in strukturierter Form erfasst werden. Dabei lässt sich gut zeigen, wie wichtig es ist, die Daten möglichst kleinteilig auf verschiedene Felder aufzuteilen, damit sie in einer Datenbank gut verarbeitet werden können. Hier kann ich dann quasi durch die Hintertür ein wenig Datenbanktheorie einführen, nicht in einem grossen theoretischen Rahmen, sondern immer ausgehend von einem empirischen Fallbeispiel und einer Fragestellung. So lassen sich induktiv und vom fachwissenschaftlichen Kontext ausgehend digitale Themen anschaulich vermitteln.

Verzerrungsanalyse einer Altkarte (Guillaume Sanson, Vincenzo Coronelli: Le Cours Du Danube Depuis Sa Source Iusqu’a ses Embouchures. Paris 1693): das Verzerrungsgitter und die Verschiebungsvektoren geben nicht nur Hinweise darauf, wo die Karte stark verzerrt ist, sondern können auch Aufschlüsse darüber geben, aus welcher Quellen der Kartograph sich bedient hat, um die Karte zu zeichnen und welche Darstellungsabsicht verfolgt wurde: beruhen stark verzerrte Bereiche auf mangelndem Wissen oder stand etwas anderes im Vordergrund?

Denken Sie, dass geisteswissenschaftliche Studierende heute also mit Daten umgehen und algorithmisch denken können sollten?

Das hängt immer von der Fragestellung ab – es gibt nach wie vor viele Bereiche, in denen diese Technologien nicht zwingend notwendig sind. Analoge und digitale Methoden haben beide ihre Daseinsberechtigung. Digitale Technologien sind Werkzeuge, die in gewissen Fällen ganz neuartige Fragestellungen ermöglichen. Es ist zumindest gut zu wissen, was überhaupt möglich ist, welche zusätzlichen Arten des Umgangs mit den vorhandenen Quellen existieren und welches wissenschaftliche und didaktische Potenzial darin steckt. Dabei helfen wenigstens rudimentäre Kenntnisse über oder zumindest ein Verständnis für digitale Technologien und die Chancen, die sie eröffnen, um unser methodisches Repertoire zu erweitern.

Würden Sie auch in diese Richtung argumentieren, wenn Sie den Begriff «Digital Humanities» definieren müssten?

Ich weiss nicht, inwiefern eine Definition sinnvoll ist. Für mich ist es kein geschlossener Ansatz oder eine klare Disziplin, sondern ein kontextbezogener Einsatz von digitalen Technologien, der Hand in Hand geht mit den klassischen Methoden der Fachwissenschaft. In der Geschichtswissenschaft kennen wir die sogenannten Hilfswissenschaften (und das ist nicht despektierlich gemeint) wie Paläographie oder Diplomatik. Ich glaube, das Digitale hat, zumindest in der Geschichtswissenschaft, diese Funktion: Ich suche mir das passende Werkzeug für den jeweiligen wissenschaftlichen Kontext. Wichtig ist es, immer kritisch zu bleiben. Die Frage ist: kann ich die Fragestellung mit einer digitalen besser beantworten als mit einer analogen Methode? Oder kann ich andere Fragen beantworten, wenn ich digital arbeite – Fragen, die ich mit analogen Mitteln so nicht bearbeiten kann?

Um diese Entscheidung zwischen analogen und digitalen Methoden fällen zu können, muss man die Kompetenz aber schon haben…

Wie fast immer in der Wissenschaft ist hier Neugier und Offenheit entscheidend. Gerade in der Geschichtswissenschaft ist das Spektrum methodischer und theoretischer Arbeitsweisen enorm breit, niemand nutzt alle verfügbaren Ansätze. Und Historiker/innen sind in aller Regel keine Programmierer/innen. Aber natürlich ist es so: Je mehr Kompetenzen jemand mitbringt, desto eher können auch innovative Fragestellungen entwickelt werden. Ich vergleiche das in der Geschichtswissenschaft immer mit den Sprachkompetenzen – je mehr Sprachen ich spreche, desto mehr Quellen kann ich nutzen. Im Digitalen ist es genauso. Zumindest ist es hilfreich zu wissen, was mit digitalen Technologien überhaupt möglich ist, ohne das unbedingt selber umsetzten zu können. Gerade in Forschungsteams sind vielleicht Personen dabei, die programmieren können.

Stichwort Forschung: Hier ist es einfacher als in der Lehre, Leute mit Interesse an interdisziplinären Projekten zu finden, weil das Reputation gibt und finanziert wird. Ein gemeinsamer Antrag wird eingereicht und gemeinsame Publikationen verfasst. In der Lehre wird es schwieriger, wenn ich nur punktuell externe technologische Expertise einbeziehen möchte: Wer ist bereit, mir für eine Lehrveranstaltung z.B. eine Netzwerkanalyse zu programmieren? So etwas wird in der Wissenschaftslandschaft kaum honoriert. Und Dozierende können unmöglich neben ihrer eigenen Fachwissenschaft auch noch technologisch breit versiert sein.

Ich sehe das als Herausforderung für die Zukunft der digitalen Lehre – wie geht man auf institutioneller Ebene damit um? Gibt es Lösungen, bei Bedarf auch in der Lehre für spezifische technische Hilfestellung Kompetenzen anderer Fächer niederschwellig abrufen zu können? Denn digitale Methoden sollen in der Lehre nicht als separater Bereich parallel geführt werden, sondern auch punktuell in reguläre Lehrveranstaltungen eingebettet werden – embedded digital teaching sozusagen. Dazu braucht es aber halt oft externe Expertise.

Auf der Ebene der Infrastruktur werden zentrale Dienste wie S3IT langsam aufgebaut, auf die man als Forschende zugreifen kann. Aber Sie reden jetzt eigentlich eher von «Personellem», von Denk- und Arbeitskraft…

Für die Forschung ist das Angebot der S3IT sicher richtig, wenn es um Infrastruktur für Big Data und so weiter geht. Im Bereich Lehre sind es zum Teil andere Herausforderungen.

Ich wünsche mir für die meisten Bereiche eigentlich genau so ein Angebot, wie es das Team DLF anbietet – wo etwa kompetent Fragen beantwortet werden danach, welches Tool sich für Videoschnitt eignet, wie es funktioniert etc. Doch natürlich existieren immer auch spezifische Einsatzszenarien, die so eine Stelle gar nicht alle abdecken kann. Die Universität ist aber so vielfältig, dass bestimmt irgendwo jemand sitzt, die/der genau dabei helfen könnte – eben zum Beispiel, eine Netzwerkanalyse programmieren zu helfen. Die Schwierigkeit besteht darin, die entsprechende Person zu finden und sie dazu zu bringen, interdisziplinäre «Entwicklungshilfe» zu leisten, wenn dabei anders als in der Forschung wenig Aussicht auf Reputation besteht. Mir schwebt etwa vor, dass vielleicht Studierende der Computerwissenschaften in der Funktion «teach the teacher» hier Aufgaben übernehmen könnten und zum Beispiel niederschwellig während ein bis zwei Sitzungen im Semester bei der technischen Umsetzung helfen.

Hinzu kommt, dass ein Semester eigentlich zu kurz ist, um ein geisteswissenschaftliches Modul anzubieten, in dem neben den fachwissenschaftlichen Methoden und Inhalten auch noch substanzielle Software- oder Medien-Skills vermittelt werden müssen. Auch die Unterschiede der Voraussetzungen zwischen den Studierenden sind zum Teil enorm. Wo wäre der ideale Ort im Curriculum für die Vermittlung praktischer Software-Skills? In geisteswissenschaftlichen Fächern wird das ja kaum honoriert und basiert auf dem Engagement und Interessen der Einzelnen.

Die Kurse der Zentralen Informatik bieten hier ein gutes Angebot. Doch sind sie einerseits curricular nicht eingebunden. Andererseits besteht auch Bedarf an stärker fachwissenschaftlich ausgerichteten Angeboten, die spezifisch auf die Humanities und ihre Einsatzszenarien eingehen. Ein Beispiel wäre, die Datenbankprogrammierung ausgehend von Quellentexten zu lernen anstatt vom Klassiker «Adressdatenbank». Oder wieso soll ich als Geisteswissenschaftler Python programmieren lernen? Um diese Frage zu beantworten muss ich die Möglichkeiten kennen, die mir diese Programmiersprache in meinem Fachgebiet eröffnet. In einem traditionellen Python-Kurs erfahre ich dazu wenig. Wenn aber inspirierende Beispiele aus der Wissenschaft existieren, eröffnen sich neue Horizonte. Ein gutes online Selbstlernangebot ist etwa die Seite The Programming Historian – vergleichbare Übungen können auch in Lehrveranstaltungen ohne spezifischen digitalen Fokus eingebaut werden.

Es bräuchte «Forschungsgeschichten» als Vorbilder… und eine Vernetzung von ganz unterschiedlichen Disziplinen, die einander aushelfen können. Für die Lehre wäre auch ein Projektpool interessant, in dem Projekte mit Informatikbedarf und Studierende mit Informatikkenntnissen «gematcht» werden. Mit den Projekten könnten die Studierenden so eine Art «überfakultäre Projektcredits» erwerben. Oft ist es ja auch so, dass man im Rahmen eines Moduls ein Projekt nach technologischen Vorgaben programmieren muss, aber keine inhaltliche Idee hat.

Ich fürchte, dafür bräuchte es dann wohl wieder eine Studienreform… Es ist schon die Frage, ob dies curricular eingebettet werden oder eher über Tutorate und Geldwerte abgewickelt werden soll. Für Studierende ist interdisziplinäre Zusammenarbeit auf Einsteigerlevel in der Lehre vielleicht noch interessanter als für Forschende, die schon etabliert sind. Wichtig ist, dass Ideen entwickelt werden und auch zirkulieren.

Haben wir ein Thema vergessen oder möchten Sie etwas ergänzen?

Wichtig ist, dass gerade die Studierenden in den traditionell wenig technikaffinen Geisteswissenschaften möglichst früh (also bereits im Bachelor) die Gelegenheit erhalten, digitale Technologien im jeweiligen Fach anzuwenden. Mein Anliegen ist es immer, digitale Methoden möglichst niederschwellig einzubringen, um auch Leute anzusprechen, die keine Technikfreaks sind. Im weiteren Studienverlauf ist dann noch genügend Zeit, das bei Interesse selber zu vertiefen. Nach einer ersten Einführung ist die Schwellenangst hoffentlich überwunden.

Allerdings finde ich es auch ganz wichtig, dass kein Zugzwang entsteht: Der Einsatz digitaler Werkzeuge soll nicht überhöht oder gegen klassische Arbeitsweisen ausgespielt werden. Die akademische Lehrfreiheit muss unbedingt auch die Methodenfreiheit umfassen, stets das jeweils passende Instrument zu wählen.

 

Foto Titelbild (Portrait): Frank Brüderli

Im Beitrag erwähnte Links und Technologien:

https://newbooksnetwork.com/category/history/

https://www.qgis.org/de/site/

https://programminghistorian.org/

 

 

Veröffentlicht am

Digital Humanities als Denkstil

Dieser Beitrag entstand im Rahmen einer kleinen Reihe zu «Digital Humanities an der Philosophischen Fakultät». Lehrende und Forschende der PhF geben uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen. Wir diskutieren den Begriff «Digital Humanities» von ganz verschiedenen Perspektiven aus. Heute stellt uns Noah Bubenhofer, Professor am Deutschen Seminar, eine digitale Korpuslinguistik vor.

Herr Bubenhofer, vielen Dank, dass Sie bei dieser Reihe mitmachen – bitte stellen Sie sich kurz vor!

Ich bin germanistischer Linguist, seit September 2019 Professor am Deutschen Seminar der UZH. Ich interessiere mich für eine kultur- und sozialwissenschaftlich orientierte Linguistik, die davon ausgeht, dass Sprache und gesellschaftliches Handeln in einem engen Verhältnis stehen und dass man deshalb über linguistische Analysen etwas darüber lernen kann, wie eine Gesellschaft oder eine Kultur funktioniert.

Ich arbeite sehr stark korpuslinguistisch – ein Korpus ist letztlich eine Sammlung von Textdaten, die meist linguistisch aufbereitet sind und linguistisch analysiert werden. In der Korpuslinguistik verbinde ich quantitative mit qualitativen Methoden, um grössere Textdatenmengen auf Musterhaftigkeit hin analysieren zu können – hier verwende ich natürlich digitale Methoden. Korpuslinguistik gibt es schon sehr lange; mit der Digitalisierung hat sie einen neuen Drive erhalten, weil es sehr viel einfacher geworden ist, sehr grosse Textdatenmengen zu verarbeiten.

Was verstehen Sie unter «Digital Humanities», auch in Bezug zu Ihrem Forschungsgebiet?

Ich erlebe «Digital Humanities» als extrem heterogen, und manchmal ist es gar nicht so klar, ob ich das, was ich mache, auch dazu zählen kann – gerade weil die Korpuslinguistik eigentlich schon eine sehr lange Tradition in der Linguistik hat.

Einerseits bedeutet «Digital Humanities» für mich, digitale Methoden auf digitalen Daten anzuwenden und letztlich geisteswissenschaftliche Fragestellungen zu verfolgen. Andererseits reflektiert man «Digitalität per se» mit geisteswissenschaftlichen Theorien: Was macht «Verdatung» mit Informationen, was ist eigentlich ein Algorithmus, und so weiter.

Die Kombination dieser beider Aspekte macht das Alleinstellungsmerkmal von «Digital Humanities» im Vergleich zu anderen Disziplinen aus, die auch mit digitalen Daten und Methoden arbeiten, wie z.B. Informatik, Data Mining o.ä.

Sie sagten «Disziplin» im Zusammenhang mit Digital Humanities …

[lacht] Dieselbe Debatte gibt es auch in der Korpuslinguistik – ist sie eine Subdisziplin der Linguistik oder ist sie eher ein Denkstil? Ich argumentiere immer für Letzteres, da es eine bestimmte Art und Weise ist, Sprache anzusehen.

Ferdinand de Saussure führte die Unterscheidung von «langue» und «parole» ein, dabei ist «langue» sozusagen das Sprachsystem und «parole» die tatsächlich geäusserte Sprache. Lange interessierte sich die Linguistik hauptsächlich für die «langue». Die Korpuslinguistik machte erst den Fokus auf die «parole» stark, indem die Musterhaftigkeit in der gesprochenen und geschriebenen Sprache untersucht wurde.

Diese Verschiebung der Perspektive findet man in den Digital Humanities teilweise wieder. Man ist an anderen Aspekten der Daten interessiert und hat dadurch auch ein anderes theoretisches Modell im Hintergrund. Deshalb sind die Digital Humanities für mich auch eine Denkrichtung, die versucht, mit spezifischen Methoden einen neuen Blick auf die vorhandenen Daten zu erhalten.

Können Sie uns ein Beispiel geben, vielleicht an einem Ihrer Forschungsprojekte?

In einem Projekt habe ich Alltagserzählungen, genauer Geburtsberichte gesammelt. In diesen schrieben Mütter nieder, wie sie die Geburt ihres Kindes erlebt hatten. Die Berichte stammen aus Threads in Online-Foren, die genau für dieses Genre vorgesehen sind. Ich habe nun 14’000 Berichte aus sechs unterschiedlichen deutschsprachigen Foren gesammelt, analysiert und dabei eine Diskrepanz zwischen diesem sehr individuellen Erlebnis und der Erzählung darüber aufgezeigt: In der Erzählung konnte eine extreme Musterhaftigkeit mit einem bestimmten erzähltypischen Ablauf festgestellt werden, mit bestimmten Themen und Motiven, die sich wiederholten. Die Musterhaftigkeit dieser Erzählungen konnte mit Hilfe digitaler Methoden freigelegt werden.

Genau hier kommt auch wieder der Unterschied z.B. zu reinem Data Mining ins Spiel, wo Fragen wie Narrativität und Sequenzialität zu kurz kommen. In den Geisteswissenschaften ist es uns dagegen klar, dass diese Aspekte eine Rolle spielen: Man kann einen Text nicht einfach als «Sack von Wörtern» (bag of words) auffassen, sondern es spielt eine Rolle, in welcher Sequenz diese Wörter vorkommen.

Es ging in diesem Projekt also auch darum, die Methodik so anzupassen, dass man diese narrativen Strukturen identifizieren kann.

Wie gehen Sie (technisch) vor, um eine solche Analyse durchzuführen?

Zunächst müssen die Daten «gecrawlt», d.h. automatisiert vom Web heruntergeladen werden. In einem aktuellen Projekt zu COVID19 News-Kommentaren haben wir z.B. mit Python und Selenium gearbeitet. Dabei übernimmt Selenium die «Benutzerinteraktion» auf einer dynamischen Webseite – diese sind heute ja nicht mehr einfach statisches HTML.

Diese Daten werden nun linguistisch, d.h. mit Wortarten-Tagging, syntaktischem Parsing, semantischen Annotationen etc. versehen. Dafür verwenden wir an unserem Lehrstuhl das UIMA-Framework, das mit Modulen oder eigenen Python-Skripts erweitert werden kann, die das Tagging oder andere Verarbeitungsschritte auf diesen Textdaten durchführen.

Im nächsten Schritt gehen diese verarbeiteten Daten in die Corpus Workbench, eine Datenbank, die spezialisiert ist, korpuslinguistisch annotierte Daten zu verwalten und zu analysieren. Für die Analyse wichtig sind in unserem Gebiet die n-Gramme – Gruppen von n Wörtern, sprachliche Muster –, die wir mit unserer selbst entwickelten Software cwb-n-grams berechnen können. Wie diese n-Gramme berechnet werden, kann dabei ganz unterschiedlich sein: Nimmt man als Basis die Grundformen der Wörter, reduziert man Redundanzen, behält man «Füllwörter» oder nicht, wie lange soll das n-Gramm sein, etc. Wir haben die Methodik zudem so erweitert, dass wir zusätzlich auch die erstellten Annotationen mit einbeziehen.

Die (statistische) Analyse selber kann man schliesslich z.B. mit R und plotly durchführen, für das ein Paket existiert, das direkt auf die Corpus Workbench zugreifen kann. Hier vergleichen wir die Häufigkeiten jeweils mit einem Referenzkorpus, um statistisch signifikante n-Gramme finden zu können. Signifikant heisst in dem Zusammenhang: Welche n-Gramme sind typisch für Geburtsberichte und nicht aus anderen Gründen häufig vorgekommen.

Der Output kann z.B. eine interaktive Grafik sein – hier das Beispiel zum Projekt «Geburtsgeschichten», das typische Positionen der n-Gramme im Verlauf der Erzählung darstellt. Man sieht an den n-Grammen, dass diese sprachlichen Muster über die 14’000 Texte hinweg immer wieder gleich und an ähnlichen Positionen in der Erzählung vorkommen. Die y-Achse zeigt die Standardabweichung bezüglich Position in der Geschichte: Je weiter oben ein n-Gramm erscheint, desto variabler war die Position im Verlauf. Auf der Grafik sind bestimmte Cluster von n-Grammen sichtbar, die aber weniger variabel waren, gegen Ende der Erzählung z.B. das n-Gramm «gleich auf den Bauch gelegt».

Eine rhetorische Frage: Was ist der Mehrwert gegenüber analogen Methoden?

[lacht] … Genau, was bringt’s wirklich? Zum einen, 14’000 Geschichten kann ich nicht einfach durchlesen. Aber im Ernst: Es zeigt sich eine Musterhaftigkeit in der Sprache, die nicht auffallen kann, wenn man nur Einzeltexte vor sich hat. Ich finde dieses datengeleitete Paradigma wichtig: Welche Strukturen ergeben sich eigentlich datengeleitet und nicht theoriegeleitet? Sehr wichtig ist dabei, dass wir im Anschluss eine geisteswissenschaftliche Interpretation davon machen. Man hat nicht zuerst eine theoriegeleitete Hypothese, die man stützen oder verwerfen kann, sondern generiert die Hypothese vielleicht erst durch diese Interpretation. Natürlich muss man dann wieder zurück in die Daten und prüfen, ob diese Hypothese wirklich stimmt – und man darf nicht vergessen, dass man trotz des induktiven Vorgehens noch Prämissen gesetzt hat: Allein die Definition, was als Wort aufgefasst wird, welche Daten wähle ich aus, etc.

Eine Challenge in der Linguistik ist heute, dass die Informatik uns neuronale Lernmethoden gibt, die statistische Modelle aus den praktisch unverarbeiteten Daten lernen. Der Algorithmus muss gar nicht mehr wissen, was ein Wort oder eine Wortart ist. Die Idee ist dann, dass sich die Musterhaftigkeit und allenfalls Kategorien wie Wortarten aus den Daten ergeben. Dies stellt natürlich die klassische Linguistik in Frage – wir experimentieren aber damit und fragen uns, inwiefern linguistische Theorien helfen zu verstehen, warum solche Methoden überhaupt funktionieren und wie sie verbessert werden können. Und doch ist es auch hier wichtig zu sehen, dass neuronale Lernmethoden keinesfalls objektive, neutrale Modellierungen von Sprache darstellen, sondern mit der Datenauswahl und den gewählten Parametern eben spezifischen Sprachgebrauch abbilden. Die Modelle sind genauso voller Verzerrungen – wir würden sagen: diskursiv geprägt – wie ihre Datengrundlage, was z.B. bei AI-Anwendungen problematische Folgen haben kann.

Für die Bearbeitung dieser Fragestellungen werden sehr viele verschiedene Technologiekenntnisse, aber auch sehr viel theoretisches Wissen vorausgesetzt – wie kann man die Studierenden da heranführen?

Man kann heute nicht Linguistik studieren, ohne eine Vorstellung zu haben, was algorithmisch möglich ist. Sie müssen verstehen, was ein Skript machen kann, wie HTML, XML und Datenbanken funktionieren, oder auch, was Machine Learning ist.

Als ich noch in Dresden war, haben wir eine Einführung in die Programmierung für Germanistinnen und Germanisten gegeben, die sich sehr bewährt hat. Der Kurs war sehr niederschwellig, die Studierenden sollten ein kleines Skript zu einem linguistischen Projekt schreiben. Einige Studierende vertiefen diese Kenntnisse weiter, andere nicht – doch zumindest können sie auf Augenhöhe mit Personen sprechen, die sie vielleicht in weiteren Projekten unterstützen.

Hier an der UZH plane ich gerade, hoffentlich mit einem Lehrkredit, ein E-Learning Modul zu Programmierkompetenzen für Geisteswissenschaftlerinnen und Geisteswissenschaftler. Das Modul soll aus Bausteinen bestehen, die man auch gut in andere, bereits bestehende Module einbinden kann und die teilweise auch curricular verpflichtend sind.

Heisst das, dass die Programmierkenntnisse disziplinär gebunden unterrichtet werden sollen? Oder lernt man besser Python in einem Pythonkurs, SQL in einem SQL-Kurs etc.?

Es gibt natürlich unterschiedliche Lerntypen, doch m.E. ist eine disziplinäre Verortung für die Mehrheit der Studierenden in den Geisteswissenschaften wichtig, weil man an den geisteswissenschaftlichen Fragen interessiert ist. Sonst hätte man vielleicht Informatik studiert. Es ist viel einfacher, wenn man eine konkrete Forschungsfrage hat, der man nachgehen kann und entlang derer man die nötigen Kenntnisse erwirbt. Man ist so einfach viel motivierter.

Hier schliesst sich auch der Bogen zur Frage, was «Digital Humanities» sein könnten…

Ja, denn für uns Geisteswissenschaftlerinnen und Geisteswissenschaftler ist eine Methode dann interessant, wenn sie «nahrhaft» für Interpretation ist, d.h. wenn ich daraus etwas machen kann, das mir in meinen Fragen weiterhilft. Es ist eine andere Art von Nützlichkeit als eine rein technologische für eine Anwendung, aber natürlich benötigen wir die Hilfe von anderen Disziplinen, wir haben das Know-How nicht, z.B. einen Part-of-speech-Tagger oder statistische Methoden zu verbessern.

Haben wir ein wichtiges Thema in der Diskussion ausgelassen, haben Sie eine Ergänzung oder einen Ausblick?

In meiner Habilitationsschrift, die demnächst erscheint, geht es um die «Diagrammatik», nämlich wie Darstellungen und Visualisierungen helfen, Daten anders zu verstehen. Es geht hier nicht nur um quantitative Aspekte, sondern darum, wie verschiedene Darstellungsformen neue Sichtweisen auf Daten ermöglichen.

Ein Beispiel ist die «Konkordanzliste»: Man hat hier einen Suchausdruck und sieht dessen unmittelbaren Kontext in verschiedenen Texten. Die Konkordanzdarstellung gibt es schon seit dem Mittelalter, er bricht die Einheit des Textes auf und versucht, einen Blick auf Fundstellen listenförmig darzustellen. Dadurch wird der Text «zerstört», aber gleichzeitig gewinnt man ganz viel, weil man eine neue Sicht erhält.

Für mich ist auch das auch eine Frage für die Digital Humanities, weil wir eigentlich ständig versuchen, unsere Daten in andere Ansichten zu transformieren, um etwas Neues daraus zu gewinnen. Viele dieser Visualisierungen sind erst mit den digitalen Mitteln möglich geworden.

In diesem Beispiel werden Gesprächstranskripte visualisiert: Die drei Gesprächsteilnehmerinnen und Gesprächsteilnehmer sind als Kreiszentren dargestellt. Die Jahresringe stellen einzelne Beiträge der Teilnehmenden dar. Je mehr Ringe, desto mehr sogenannte „turns“ wurden von dieser Person beigetragen. Die verschiedenen Durchmesser der Jahresringe ergeben sich aus den Beitragslängen. Einige Beispiele können auf Noah Bubenhofers Seite gleich ausprobiert werden.

Herr Bubenhofer, ich danke Ihnen für dieses Gespräch!

 

Im Beitrag erwähnte Technologien und Seiten:

https://www.python.org/

https://www.selenium.dev/projects/

https://uima.apache.org/

http://cwb.sourceforge.net/

https://plotly.com/r/

http://www.bubenhofer.com/jahresringe/index.html