Veröffentlicht am

Voyant

Voyant Tools ist eine browserbasierte open-source Umgebung für die Textanalyse und -visualisierung. Es wurde hauptsächlich konzipiert, um „leichtgewichtige“ Textanalysen schnell und unkompliziert anzubieten, v.a. Worthäufigkeiten, Beziehungen uvm.

Ein hochgeladener Text kann mit unzähligen Methoden des Natural Language Processings (NLP) ausgewertet und visualisiert werden, z.B. mit

  • Wortwolken oder Worttrauben
  • Begriffhäufigkeiten
  • Beziehungsgraphen
  • Korrelationen
  • Kontexten
  • Trends
  • Bubblelines
  • uvm.

Fünf Blöcke können auf der Seite frei konfiguriert werden. Dabei wird für jeden Block gewählt, welche Methode bzw. welche Visualisierung dargestellt werden soll. So kann man sich schnell und unkompliziert eine Auswahl zusammenstellen.

Die Visualisierungen werden anschliessend einfach exportiert – als Bild oder HTML snippet, um sie in bestehende Webseiten einbetten zu können

  • Systemvoraussetzungen: Keine, da browserbasiert. Funktioniert auf jedem Browser.
  • Vorausgesetzte Kenntnisse: Keine. Die Oberfläche ist intuitiv und auch für Einsteiger geeignet. Will man genauer wissen, wie die Visualisierungen entstehen, sollte man sich ein wenig in NLP auskennen.

Die Server von Voyant Tools liegen in Canada. Es bietet sich daher an, nur

Veröffentlicht am

Data Crunching für Texte aller Art – eine neue Dienstleistung an der Philosophischen Fakultät

Das neue Text Crunching Center (TCC) hilft bei Textanalysen und bei Fragen wie: Wie komme ich zu meinen Daten? Wie muss ich sie für meine Forschungsfrage aufbereiten, oder – welche Fragen kann ich an meine Daten stellen? Angesiedelt am Institut für Computerlinguistik und konzipiert als Dienstleistungszentrum – wir hören in diesem Beitrag, für wen das TCC gedacht ist und welche Dienstleistungen angeboten werden.

Bitte stellen Sie sich vor!

[Tilia Ellendorff, TE]: Mein Name ist Tilia Ellendorff. Ursprünglich habe ich Grundschullehramt mit den Fächern Englisch und Deutsch studiert an der Universität Paderborn. Anschliessend habe ich mich aber entschlossen, mich auf Linguistik und Computerlinguistik zu konzentrieren – zunächst mit einem Bachelor in Linguistik, dann mit einem Internationalen Masterstudium in Computerlinguistik in Wolverhampton (GB) und Faro (P), über Erasmus Mundus. Schliesslich bin ich für das Doktorat in Computerlinguistik nach Zürich gekommen. Mein Thema war Biomedical Text Mining – in meinem Projekt ging es darum, in medizinischen Publikationen die Beziehung zwischen ätiologischen, also auslösenden, Faktoren von psychiatrischen Erkrankungen zu extrahieren. Hier besteht nämlich das Problem, dass es unmöglich ist, die gesamte Literatur auf diesem Gebiet zu lesen. Es ist schwierig, so einen Überblick über alle Faktoren zu gewinnen. Ich habe dazu ein System gebaut, das dies unterstützt und automatisch aus den Texten extrahiert.

[Gerold Schneider, GS]: Ich habe Englische Literatur- und Sprachwissenschaft und Computerlinguistik an der Universität Zürich studiert. Während des Doktorats habe ich einen syntaktischen Parser für Englisch entwickelt. Es ist ein System, das eine syntaktische Analyse eines Texts liefert: Was ist das Subjekt, was das Objekt, welches die untergeordneten Sätze, etc. Mit der Anwendung dieses Tools bin ich schliesslich in das Gebiet des Text Minings gelangt. Zunächst habe ich das auch zu Fachliteratur im biomedizinischen Bereich angewendet. Die gleichen Methoden konnte ich später in weiteren Disziplinen verwenden, z.B. in Projekten mit dem Institut für Politikwissenschaft im NCCR Democracy zu Demokratieforschung, oder auch in einem Projekt zu Protestforschung. Dabei geht es ja nicht nur um eine Faktensammlung, sondern meist um Meinungen, Stimmungen oder Assoziationen, die aus den Medien extrahiert werden müssen: Gerade da braucht man statistische Methoden, mit logikbasierten stösst man nur auf Widersprüche. Somit sind auch die Methoden des maschinellen Lernens unerlässlich. Die Daten und Ergebnisse müssen zum Schluss aber auch interpretiert werden können – sonst nützt die Datensammlung nicht viel. Mein breiter Hintergrund ist hier sicher von Vorteil – ich sehe mich auch als Brückenbauer zwischen Disziplinen.

Vielen Dank für die Vorstellung – wie ist denn nun das Text Crunching Center entstanden?

[GS] Entstanden ist das Text Crunching Center dadurch, dass das Institut für Computerlinguistik bzw. Martin Volk inzwischen so viele Anfragen im Gebiet Text Mining und Textanalyse erhält, dass es nicht mehr länger möglich ist, diese alle selbst zu bearbeiten.
Das Text Crunching Center bietet in diesem Gebiet Dienstleistungen an: Bei allem, was mit Text Mining, Sentimentanalyse, Textanalyse im Allgemeinen – generell mit Methoden der Digital Humanities oder Machine Translation – zu tun hat, können wir Projekte unterstützen. Auch allgemeine Unterstützung für Digitalisierungsprozesse oder Textverarbeitung wie OCR, aber auch Beratung zu Tools, Software oder Best Practices bieten wir an. Wir helfen ebenfalls gerne beim Schreiben von Projektanträgen, geben Coaching und Unterricht in der Textanalyse, oder können fertige (Software-)Lösungen anbieten.
[TE] Wir sind die Ansprechpartner für alle, die in ihren Projekten mit viel Text umgehen müssen, das technische Knowhow aber nicht haben und nicht genau wissen, wo sie anfangen sollen. Man kann z.B. zu uns kommen, wenn man einfach Text vor sich hat und eine Idee braucht, was man damit mit der Maschine alles anfangen könnte.

Könnten Sie mir ein konkretes Beispiel einer Anfrage geben – wie muss man sich den Ablauf vorstellen, wenn man auf Sie zukommt?

[TE] Wenn z.B. jemand aus einem bestimmten Forschungsgebiet untersuchen möchte, was der öffentliche Diskurs zu einem Thema ist – nehmen wir mal das Thema «Ernährung». Dazu möchten sie dann gerne Social Media Daten auswerten, die technische Umsetzung ist gehört aber nicht zu ihrem Fachgebiet. In dem Fall kann man zu uns gelangen und wir beraten in einem ersten Schritt: Wir klären die Fragen, wie man überhaupt an Daten gelangen kann, was man mit den Daten machen könnte. Es kann so weit gehen, dass wir einen Prototypen erstellen, mit dem sie dann direkt ihre Daten auswerten und Forschungsergebnisse erhalten können.

Welche konkreten Möglichkeiten würden Sie in den Personen in diesem Beispiel vorschlagen und wie würden sie es umsetzen?

[GS] In diesem konkreten Beispiel haben wir Twitter-Daten mit Hilfe von Text Mining gesammelt und ein Coaching angeboten. Die R Skripts haben wir ebenfalls geschrieben, die Personen aber zusätzlich so weit gecoacht, dass sie diese schliesslich selbst anwenden konnten. Die über das Text Mining erhaltenen Daten werden mit den Skripts exploriert und verschiedene Outputs generiert. Dabei haben wir «klassische» Digital Humanities Methoden angewendet wie z.B. Distributionelle Semantik, Topic Modeling, oder auch analysiert, wie in den Tweets bestimmte linguistische Merkmale gebraucht werden.
[TE] Es kommt immer auf die Kunden darauf an: In diesem Beispiel wollten die Kunden die Anwendung gerne selber lernen. Wenn sie dafür aber keine Zeit oder kein Interesse daran gehabt hätten, hätten wir auch alles selbst implementieren können: Also das fertige System oder die aufbereiteten Daten.
[GS] Ein Produkt, das dabei entstanden ist, ist eine «konzeptuelle Karte» von Bier, Cidre und Wein. Es ist eine semantische Karte, in der ähnliche Konzepte näher beieinander liegen als Konzepte, die inhaltlich weiter voneinander entfernt sind. Rund um den Cidre liegen beispielsweise die Begriffe «Äpfel», «Jahreszeit», «Wärme» usw. Man sieht auch, dass die Essenskultur mit «dinner», «cooking», etc. viel näher am Konzept «Wein» liegt als bei «Bier» oder «Cidre». Solche automatisch erstellten Karten vereinfachen stark, sind aber anschaulich und gut interpretierbar, deshalb zeigen wir sie als ein Beispiel unter vielen.

Eine ähnliche Karte etwa entstand in einem anderen Projekt aufgrund von Daten ausgewählter Reden von Barack Obama und Donald Trump. Barack Obama spricht etwa mehr von «opportunity» oder «education», während Donald Trump davon eher weiter weg ist und eher über China und Deals spricht, und wer ihm alle angerufen haben. «Peace and Prosperity» als Vision versprechen natürlich beide.

Nun rein technisch gefragt – wie entsteht so eine konzeptuelle Karte? Die Verbindungen stellen die Distanzen zwischen den Konzepten dar, nehme ich an – mit welcher Methode bestimmen Sie denn die Ähnlichkeiten?

[GS] Es handelt sich um eine Methode der distributionellen Semantik: Man lernt aus dem Kontext. D.h. dass Wörter, die einen ähnlichen Kontext haben, auch semantisch ähnlich sind. Gerade bei grossen Textmengen führt so ein Ansatz zu guten Ergebnissen. Es gibt da verschiedene Methoden, um dies zu bestimmen – gemeinsam ist ihnen jedoch der kontextuelle Ansatz.
In diesem konkreten Beispiel wurde mit Kernel Density Estimation gearbeitet. Man zerlegt dafür den Korpus zunächst in kleine Teile – hier waren es etwas 2000. Für jedes Wort prüft man dann, wie das gemeinsame Auftreten in den 2000 «Teilen» ist. Wörter, die sehr häufig miteinander auftreten, kommen dann das Modell. Dabei werden nicht die absoluten Zahlen verwendet, sondern Kernel-Funktionen gleichen die Zahlen etwas aus. Daraus kann schliesslich die Distanz zwischen den einzelnen Konzepten berechnet werden. In diesem Prozess entsteht ein sehr hochdimensionales Gebäude, das für die Visualisierung auf 2D reduziert werden muss, um es plotten zu können. Da dies immer eine Vereinfachung und Approximierung ist, braucht es immer die Interpretation.

Wie wichtig ist es für Ihre Aufgabe, dass Sie einen breiten disziplinären Hintergrund haben?

[TE] Man darf nicht denken, dass die Texttechnologie das «Wunderheilmittel» für alle Probleme ist. In einer Beratung geben wir immer eine realistische Einschätzung darüber ab, was möglich ist und was nicht.
Daher ist die Frage sehr relevant. Man muss einen gemeinsamen Weg zwischen der computerlinguistischen und der inhaltlichen Seite finden. Es ist wichtig, dass wir beide durch unseren Werdegang viele Disziplinen abdecken und schon in vielen verschiedenen Bereichen mitgearbeitet haben.
Gerade in einem Projekt aus der Biomedizin, in dem es darum ging, welche Auswirkungen bestimmte Chemikalien auf gewisse Proteine haben, hat mein biologisches Wissen aus dem Biologie-Leistungskurs und einem Semester Studium sehr geholfen. Als Laie würde man diese Texte überhaupt nicht verstehen, deshalb könnte man auch keine geeignete Analyse entwerfen. Insbesondere auch auf der Ebene der Fehleranalyse ist das Disziplinen-Wissen wichtig: Möchte man herausfinden, warum das entwickelte System in manchen Fällen nicht funktioniert hat, hat man ohne disziplinäres Wissen wenig Chancen.
Deshalb ist es wichtig, dass wir realistische Einschätzungen darüber abgeben können, was umsetzbar ist – manche Fragen sind aus computerlinguistischer Sicht schlicht nicht auf die Schnelle implementierbar.
[GS] Dennoch können oft neue Einsichten generiert werden, oder auch nur die Bestätigung der eigenen Hypothesen aus einer neuen Perspektive… Die datengetriebenen Ansätze ermöglichen auch eine neue Art der Exploration: Man überprüft nicht nur eine gegebene Hypothese, sondern kann aus der Datenanalyse neue Hypothesen generieren, indem man Strukturen und Muster in den Daten erkennt.
Hier hat sich bei mir ein Kreis geschlossen: Aus der Literaturwissenschaft kenne ich das explorative Vorgehen sehr gut. Dagegen ist ein rein computerlinguistisches Vorgehen schon sehr anders. Mit Ansätzen der Digital Humanities kommt nun wieder etwas Spielerisches in die Technologie zurück. Die Verbindung von beidem erlaubt einen holistischeren Blick auf die Daten.

Wie würden Sie denn Digital Humanities beschreiben?

[GS] Es ist wirklich die Kombination der beiden Ansätze: «Humanities» kann man durchaus wortwörtlich nehmen. Gerade in der Linguistik ist damit auch ein Traum wahr geworden, wenn man an Ferdinand de Saussures Definition von Bedeutung denkt. «La différence», die Bedeutung, ergibt sich nicht daraus, was etwas «ist», sondern was es im Zusammenhang, im Ähnlich-Sein, im «Nicht-genau-gleich-sein» mit anderen Dingen ist. In der Literaturwissenschaft wird dieser Umstand in der Dekonstruktion mit der «différance» von Jacques Derrida wieder aufgenommen. Die distributionale Semantik hat genau das berechenbar gemacht. Es ist zwar einerseits sehr mathematisch, andererseits ist für mich dieser spielerische Zugang sehr wichtig.
Die genaue philosophische Definition von Digital Humanities ist für mich dagegen nicht so wichtig: Doch die Möglichkeiten, die sich mit den digitalen Methoden ergeben – die sind toll und so viel besser geworden.
[TE] Die Humanities, die bisher vielleicht noch nicht so digital unterwegs waren, geraten momentan auch etwas unter Druck, etwas Digitales zu benutzen…

Mein Eindruck war bisher nicht nur der eines «Müssens», sondern auch eines «Wollens» – doch der Einstieg in die Methodik ist einfach sehr schwierig, die Schwelle sehr hoch.

[TE] … und gerade hier können wir einen sehr sanften Einstieg mit unseren Beratungen bieten: Wenn jemand noch gar keine Erfahrung hat, aber ein gewisses Interesse vorhanden ist. So muss niemand Angst vor der Technologie haben – wir begleiten das Projekt und machen es für die Kunden verständlich.
[GS] Aber auch Kunden, die schon ein Vorwissen haben und bereits etwas programmieren können, können wir immer weiterhelfen…

Gilt Ihr Angebot nur für Lehrende und Forschende oder auch für Studierende?

[TE] Das Angebot gilt für alle, auch für externe Firmen. Für wissenschaftliche Projekte haben wir aber natürlich andere, günstigere Tarife.
[GS] Die Services werden zum Selbstkostenpreis angeboten. Ein Brainstorming, d.h. ein Einstiegsgespräch können wir sogar kostenlos anbieten. Auch für die anschliessende Beratungs- oder Entwicklungsarbeit verlangen wir keine überteuerten Preise. Für unser Weiterbestehen müssen wir allerdings eine gewisse Eigenfinanzierung erreichen.

Wo soll das Text Crunching Center in einigen Jahren stehen?

[TE] Natürlich möchten wir personell noch wachsen können… Wir bilden uns dauernd weiter, um state-of-the-art-Technologien anbieten zu können. Die Qualität der Beratung soll sehr hoch sein – das wünschen wir uns.
[GS] … und wir wollen die digitale Revolution unterstützen, Workshops anbieten, das Zusammenarbeiten mit dem LiRI oder mit Einzeldisziplinen verstärken. Letztlich können alle von der Zusammenarbeit profitieren, indem man voneinander lernt und Best Practices und Standardabläufe für gewisse Fragestellungen entwickelt. Auch die Vernetzung ist ein wichtiger Aspekt – wir können helfen, für ein bestimmtes Thema die richtigen Experten hier an der UZH zu finden.

Ich drücke Ihnen die Daumen! Vielen Dank für Ihr Gespräch!

Links:

Text Crunching Center: https://www.cl.uzh.ch/en/TCC.html
Ein Anwendungsbeispiel aus Projekten des TCC: https://www.cl.uzh.ch/en/TCC/Teasers.html
Openbook zu Statistik für Linguisten (Gerold Schneider und Max Lauber): https://dlf.uzh.ch/openbooks/statisticsforlinguists/
Ferdinand de Saussure: https://de.wikipedia.org/wiki/Ferdinand_de_Saussure
Jacques Derrida: https://de.wikipedia.org/wiki/Jacques_Derrida
Kernel Density Estimation: https://de.wikipedia.org/wiki/Kerndichteschätzer
NCCR Democracy: http://pwinfsdw.uzh.ch/
LiRi: https://www.liri.uzh.ch/en.html

Off Topic:

Ein eigenes Openbook bei Digitale Lehre und Forschung publizieren: https://dlf.uzh.ch/openbooks/erste-schritte/

Veröffentlicht am

«Doing New Things with Old Texts» oder Digital Humanities aus Sicht der Computerlinguistik

Was haben Vektoren mit Sprache zu tun? Martin Volk, Rico Sennrich und Simon Clematide sprechen mit mir über Methoden der Computerlinguistik. In dieser Reihe geben Lehrende und Forschende der PhF uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen. Wir diskutieren den Begriff «Digital Humanities» von ganz verschiedenen Perspektiven aus.

Wir sprechen heute zu viert über Computerlinguistik und Digital Humanities – können Sie sich alle kurz vorstellen?

[Martin Volk, MV]: Starten wir in alphabetischer Reihenfolge…

[Simon Clematide, SC]: Ich bin wissenschaftlicher Mitarbeiter am Institut für Computerlinguistik, ursprünglich studierte ich Germanistik, Informatik und Philosophie. Ich habe also humanistisch angefangen und wurde immer technischer – mein Doktorat machte ich dann in der Computerlinguistik. Ich habe den Wandel der Computerlinguistik mitgemacht von eher wissensbasierten Systemen, in denen man linguistische Kenntnisse brauchte, zu eher statistischen und maschinellen Lernverfahren. Ich sehe mich als Brückenbauer zwischen den geisteswissenschaftlichen und den eher technischen Ansätzen.

Aktuell arbeiten Martin Volk und ich zusammen mit Forschenden aus den digitalen Geschichtswissenschaften am Projekt Impresso, einem vom SNF unterstütztes Sinergia Projekt, in dem Techniken der Textanalyse, die v.a. für zeitgenössische Dokumente entwickelt wurden, in grossem Stil auf schweizerische und luxemburgische Zeitungen aus den letzten 250 Jahren angewendet werden. Dabei werden die mehrsprachigen Inhalte der Zeitungen möglichst gut indiziert, damit interessierte Personen diese effizient durchsuchen können.

Media Monitoring of the Past: Ausschnitt aus dem Impresso-Projekt

Media Monitoring of the Past: Über 5 Mio. Seiten wurden gescannt, fast 50 Mio. Items identifiziert.

Ein weiteres laufendes Projekt ist der Stellenmarkt-Monitor Schweiz  zusammen mit Prof. Marlis Buchmann vom Soziologischen Institut im Rahmen des (Nationalen Forschungsprogramms 77 „Digitale Transformation“): Hier analysieren wir Stellenanzeigen inhaltlich – welche Fähigkeiten werden verlangt, welche Aufgaben werden beschrieben, wie widerspiegelt sich die Technologieentwicklung der letzten Jahre, wie haben sich die Berufe verändert?

Beiden Projekten ist gemeinsam, dass sie eine Textanalyse brauchen und der Text für die Maschine lesbar und interpretierbar gemacht werden muss: Dieses Fachwissen bringen wir mit.

Rico Sennrich

[Rico Sennrich, RS]: Ich bin SNF-Förderprofessor am Institut für Computerlinguistik – meine Forschungsinteressen sind die Anwendung und Entwicklung maschineller Lernverfahren für die Sprachverarbeitung, insbesondere im Bereich Multilingualität. Einerseits geht es hier um die maschinelle Übersetzung, andererseits aber darum, Modelle zu entwickeln, die multilingual funktionieren: Konkret wird ein Modell auf mehreren Sprachen trainiert, so dass es schliesslich besser funktioniert, als wenn man separate Modelle für jede Sprachen trainieren würde. Sogar der Transfer zu Sprachen, für die keine oder nur wenige Texte für eine Anwendung vorhanden sind, ist möglich.

Ich bearbeite nicht direkt geisteswissenschaftliche Fragestellungen, aber die Methoden, an denen ich arbeite, können durchaus auch in den Geisteswissenschaften Anwendung finden. Im Projekt x-stance mit dem Doktoranden Jannis Vamvas ging es dieses Jahr z.B. darum, zunächst Datensätze zu generieren und Modelle zu entwickeln, die multilingual sind. Die Datensätze bestanden aus Kommentaren von Politiker/-innen, die mit Annotationen «positiv/negativ» in Bezug auf bestimmte Fragestellungen versehen wurden. Wir konnten dann zeigen, dass das Modell auf verschiedene Fragestellungen und verschiedene Sprachen trainiert werden kann: D.h. wurde es auf deutsche und französische Kommentare trainiert, hat die Analyse danach auch für die italienischen gut funktioniert.

Gerade solche Methoden können z.B. auch für die Politikwissenschaften interessant sein: Mit wenig Annotationsaufwand können dann Analysen über mehrere Sprachen hinweg betrieben werden.

Martin Volk

[Martin Volk, MV]: Ich studierte in den 80er Jahren Informatik und Computerlinguistik, war in den 90er Jahren Postdoc an der UZH und konnte in dieser Zeit schon mit Simon Clematide zusammenarbeiten. Später war ich einige Jahre als Professor in Stockholm, seit 2008 bin ich als Professor und Institutsleiter am Institut für Computerlinguistik wieder an der UZH. Rico Sennrich war bei uns am Institut Doktorand – wir drei kennen uns also schon einige Jahre.

Meine Forschungsschwerpunkte haben sich über die Jahre etwas verschoben. In den 90er Jahren hatten wir wissens- und regelbasierte Systeme und versuchten, Grammatiken zu schreiben, um die grammatische Struktur von Sätzen z.B. automatisch zu bestimmen: Wo ist ein Prädikat, wo ist ein Subjekt, ein Objekt? Als später die statistischen Verfahren kamen, merkten wir, dass es mit diesen Verfahren viel besser funktioniert.

Eine der Ideen, mit denen ich 2008 aus Schweden zurückgekommen bin, war, die Arbeit an der maschinellen Übersetzung zu intensivieren. Früher war der Aufwand dafür schlicht zu gross: Man musste zehntausende von Wörtern in ein Lexikon eintragen, um Sätze analysieren zu können. Nun können wir Systeme für die Analyse selbst bauen.

Ob dies zum Bereich der Digital Humanities gehört, ist die Frage. Und wenn es schon um Definitionen geht – in Diskussionen über Digital Humanities habe ich einmal gesagt, es sei «doing new things with old texts». Eine Person meldete sich und fragte, was denn mit neuen Texten sei? Meine Antwort war: «Doing new things with new texts» – das ist Computerlinguistik! Das ist aber natürlich meine ganz eigene Sicht auf die Welt…

Ein konkretes Projekt im Bereich Digital Humanities, an dem ich gerade arbeite, ist die Digitalisierung des Bullinger-Briefwechsels: Von Heinrich Bullinger sind ca. 12’000 Briefe erhalten, von denen einige Tausend von der Theologischen Fakultät bereits ediert worden sind – wir versuchen nun, den Rest auch noch zu digitalisieren. Dies geschieht mit automatischer Handschriftenerkennung und maschineller Übersetzung der frühneuhochdeutschen und lateinischen Texte in modernes Deutsch.

Der Übergang von wissensbasierten Systemen zu statistischen – ist dies genau der Wandel von den Lexika mit zehntausenden Einträgen zu maschinellen Methoden, auch Machine Learning Methoden?

[MV]: Genau, und dies kann man gerade am Beispiel der maschinellen Übersetzung gut sehen. In den wissensbasierten, d.h. regelbasierten Systemen musste man diese grossen Lexika, Wörterbücher haben, um überhaupt analysieren zu können, wie ein Eingabesatz aufgebaut ist. Im nächsten Schritt wurde er dann erst in die Zielsprache transferiert, um dann schliesslich einen «gültigen» Satz daraus zu generieren. Da war unglaublich viel Handarbeit involviert, um die Wörterbücher und die Entsprechungsregeln zu erstellen.

Heute braucht man dagegen eigentlich «nur» grosse Mengen an bereits erfolgten Übersetzungen, z.B. zehn Millionen Sätze, die in einer hohen Qualität bereits übersetzt wurden. Daraus kann der Computer dann lernen, wie Übersetzungen zu machen sind.

Entwickeln Sie in der Computerlinguistik diese Modelle für das Maschinelle Lernen selbst?

[RS]: Das ist eine Gemeinschaftsarbeit der Community, und es freut mich sehr, wie offen das Wissen geteilt wird. Es werden stetig kleine Verbesserungen am Werkzeugkasten des Maschinellen Lernens vorgenommen – auch das Institut für Computerlinguistik hat schon Teile dazu beigetragen, die nun auch von anderen Gruppen verwendet werden. Umgekehrt verwenden wir Sachen, die andere beigetragen haben.

Welches «Werkzeug» haben Sie da konkret entwickelt?

[RS]: Bei unserem Beitrag ging es darum, wie Texte für die maschinellen Lernverfahren repräsentiert werden. Intern werden die Texte als Vektoren, also als Zahlen repräsentiert. Aus technischen Gründen muss man dann mit relativ kleinen Vokabularen, d.h. ca. 10’000 Wörtern arbeiten – für die Sprachverarbeitung reicht das nirgends hin, weil wir bei Sprachen mit hunderttausenden oder gar Millionen unterschiedlichen Wörtern arbeiten möchten. Wir haben dann einen Algorithmus entwickelt, um Wörter in kleinere Stücke aufzuteilen, sogenannte «Subworteinheiten», mit denen man später alle Wörter im Vokabular repräsentieren kann. Dieses Tool wird nun fast überall in der Community eingesetzt, wenn es um die Verarbeitung von Sprachen in neuronalen Netzen geht.

[MV]: Dieses Verfahren des «Byte Pair Encoding» wurde am Institut für Computerlinguistik und der Universität in Edinburgh entwickelt – das Paper von Rico Sennrich ist derzeit übrigens eines der meistzitierten Papers in der Computerlinguistik.

[RS]: Das Paper heisst Neural Machine Translation of Rare Words with Subword Units, das tönt vielleicht etwas spezifisch, doch das Verfahren wird auch ausserhalb der maschinellen Übersetzung verwendet, oder auch, wenn es nicht speziell um seltene Wörter geht. Es geht darum, ein offenes Vokabular haben zu können, d.h. alle Wörter repräsentieren zu können, und das mit einem beschränkten Vokabular von Symbolen.

Herr Clematide – verwenden Sie ähnliche Methoden in Ihren Projekten?

[SC]: Nicht konkret dieses Verfahren… Was uns aber verbindet, sind die Vektorrepräsentationen der Wörter, die es nicht einfach gibt, sondern aus grossen Textsammlungen «gelernt» werden müssen. Dies ist sicher die grosse Erfindung der Sprachtechnologie und war ein grosser Treiber des Fortschritts. Es ist ein grosser Bruch in der Art und Weise, wie wir mit Sprache umgehen – mathematische Modelle haben «Überhand» gewonnen.

[MV]: Dazu möchte ich ein Beispiel geben. Auch vor 20 Jahren wurde ein Wort numerisch im Computer repräsentiert. Nimmt man z.B. die Wörter «Haus» und «Gebäude», wurden diese mit einer Bytesequenz repräsentiert – heute haben wir aber eine numerische Repräsentation, mit der man automatisch berechnen kann, dass «Haus» und «Gebäude» bedeutungsmässig sehr eng beieinander liegen, während «Haus» und «Fussball» sehr viel weiter auseinander liegen. Das Neue ist also eine numerische Repräsentation, die die Bedeutungsähnlichkeit repräsentiert – und dies nicht manuell zu machen, sondern aus grossen Textmengen automatisch zu erschliessen.

Was ist eigentlich der Unterschied zwischen Supervised und Unsupervised Learning? Können Sie das für Laien erklären?

[RS]: Der Hauptunterschied ist der, ob man dem Modell schon vorgibt, was es zu suchen hat, oder ob das Modell dies selbst herausfindet. Konkret heisst das: Beim Supervised Learning gebe ich dem Modell ein Set von Annotationen – nur dieses Set kann es als Output produzieren. Beim Unsupervised Learning wird eine Datenmenge eingegeben, das Modell findet dann vorhandene Strukturen selbst, nimmt also ein Clustering ähnlicher Wörter vor.

[MV]: Wenn der Computer lernen soll, wo im Text ein Personenname steht, kann man entweder hingehen und in einigen Texten manuell sagen: Das ist ein Personenname, das ist einer, etc., markiert also um die 10’000 Personennamen. Dies ist dann ein supervisiertes Datenset. Der Computer kann daraus dann lernen, was Personennamen sind und in welchen Kontexten sie vorkommen. Dadurch kann er schliesslich Namen erkennen, die so noch nie vorgekommen sind – weil sie in ähnlichen Kontexten vorgekommen sind.

Was ist die spezielle Schwierigkeit bei einer multilingualen Analyse, oder besser gesagt: Was ist anders als bei einsprachigen Modellen?

[RS] Es geht um die Frage, wie man zu den Annotationen kommt. Wir haben gehört, dass hier oft die Arbeit von Menschen dahintersteckt, das macht es manchmal etwas unausgewogen: Bei gewissen Sprachen gibt es annotierte Daten für verschiedenste Fragestellungen, bei anderen wiederum fast gar nichts. Im Projekt x-stance, von dem wir bereits gehört haben, haben wir die Annotationen bestehender Datensätze extrahiert: In der smartvote-Plattform, von der die politischen Kommentare stammen, gibt es eine numerische Klasse für die Aussagen «Ja, ich stimme zu», «Nein, ich stimme nicht zu». Für Deutsch konnten wir 50’000 Kommentare extrahieren, für Französisch 15’000, bei Italienisch waren es dann nur noch 1000. Mengenmässig gibt es also einen grossen Unterschied. Maschinelle Lernverfahren sind recht datenhungrig – wenn wir uns nur auf Italienisch stützen würden, hätten wir Schwierigkeiten. Was Martin Volk mit «Haus» und «Gebäude» zuvor angesprochen hat, kann man auch mehrsprachig machen: So sind «Haus» und «casa» inhaltlich ebenfalls sehr nahe beieinander. Wenn man die Ähnlichkeiten einmal hat, kann man das Modell auf den deutschen und französischen Daten trainieren und bekommt recht gute Ergebnisse auch für die italienischen Datensätze. Im Moment sind die Ergebnisse für Italienisch 70% korrekt, das ist wahrscheinlich für Politikwissenschaftler/-innen noch nicht gut genug – aber wir machen Fortschritte.

Können diese Modelle für die geistes- oder sozialwissenschaftlichen Disziplinen ohne Anpassungen weiterverwendet werden oder muss da jede Disziplin ein spezifisches Modell entwickeln?

[SC] Die Geisteswissenschaften gehen häufig mit traditionellen intellektuellen Methoden an ein Thema heran, manchmal denken sie dann, man könne mit den Methoden der Sprachtechnologie «die mühsamen Arbeiten» effizienter erledigen. Wir wissen, dass die Methoden aber immer auch Fehler produzieren – die Sprache ist einfach zu kompliziert. Deshalb ist das Stichwort «Co-Design» in diesem Zusammenhang wichtig: Wir, die «Technologen», müssen die Methoden auf die echten Probleme und Fragestellungen der Geisteswissenschaftler/-innen hin anpassen. Sie müssen im Gegenzug sehen, dass man ihre Forschungstradition nicht immer «tel quel» automatisieren kann.

[MV] Wir können natürlich nicht über geisteswissenschaftliche Fragestellungen entscheiden, doch dazu einladen, die Chancen zu sehen, wenn wir ihnen helfen, z.B. nicht nur 100 Bullinger-Briefe zu analysieren, sondern 12’000.

Würden Sie denn auch sagen, dass der Mehrwert für die Geistes- und Sozialwissenschaften dann ist, dass man einerseits diese riesige Menge verarbeiten kann, aber auch ganz neue Cluster erkennt, die man mit einer kleinen Auswahl nicht erkannt hätte?

[MV] «Menge» klingt immer ein wenig nach quantitativ statt qualitativ… Ich würde eher argumentieren, dass die grosse Menge besser empirisch abgestützte Ergebnisse ermöglicht. Bei 100 Briefen kann man sicher eine sehr genaue Aussage über diese 100 Briefe machen, aber über die Gesamtheit der Briefe kann man gar keine Aussage machen, höchstens spekulieren. Durch die Verfahren, die wir einbringen, wird das Ergebnis fundierter, weil man die Hypothesen über die Gesamtheit prüfen kann.

Wie kommen die Kollaborationen mit den anderen Instituten überhaupt zustande – funktioniert das über einzelne Forschungsprojekte oder gibt es eine Plattform, wo man sich vernetzen kann?

[MV] Ich bekomme ungefähr jede zweite Woche eine Anfrage für Kollaborationen innerhalb und ausserhalb der UZH. Viele Anfragen müssen wir ablehnen – allein aus Ressourcengründen. Glücklicherweise hat uns die Universitätsleitung eine Förderung für eine Sprachtechnologie-Beratungsstelle zugestanden. Diese hat am 1. September ihre Arbeit aufgenommen, das Text Crunching Center unter der Leitung von Gerold Schneider. Diese Stelle ist dafür da, andere Institute und Seminare der UZH, aber auch Partner von ausserhalb zu unterstützen, Dienstleistungen anzubieten, Projekte aufzugleisen…

Sehr schön, darüber werden wir sicher in einem späteren Beitrag noch berichten! Wie sieht es denn mit der Infrastruktur aus, gibt es eine Zusammenarbeit mit S3IT, die an der UZH «Rechenpower» anbietet?

[MV] Ja, Rico Sennrich ist dort im Aufsichtsrat mit dabei… S3IT kann Hardware zur Verfügung stellen oder eine Software-Empfehlung geben, doch die Art von Knowhow, die wir in der Sprachtechnologie anbieten können, wird nicht von S3IT abgedeckt. Diese Lücke wollten wir mit dem Text Crunching Center füllen. Dabei soll erwähnt werden, dass auch LiRI, die Linguistic Research Infrastructure, ähnliche Dienstleistungen und Beratung anbietet.

In der Computerlinguistik werden Programmierkenntnisse schon auf Bachelorstufe unterrichtet – natürlich. Denken Sie, dass dies auch für andere Disziplinen wichtig wäre?

[MV] Wir beobachten hier schon einen Wandel an der UZH. Alle Studierenden, die den Monomaster Linguistik absolvieren – selbst, wenn sie sich z.B. eher für Historische Sprachwissenschaften interessieren – müssen jetzt neu Programmieren lernen. Auch in der Weiterbildung, z.B. im Studiengang Bibliotheks- und Informationswissenschaft, den die Zentralbibliothek Zürich durchführt, wird ab dem nächsten Durchgang Programmieren gelernt: Von der Einführung in Python bis hin zu Datenstrukturen, etc. Die Anzahl der Personen, die zumindest ein technisches Grundwissen haben werden, wird sich vergrössern.

Wie grenzen Sie sich von der Linguistik ab, wenn dort nun auch programmieren gelernt wird?

[MV] Unsere Fragestellungen sind sehr ingenieurwissenschaftlich ausgerichtet: Wie kann ich einen Algorithmus effizienter machen, wie kann ich eine Repräsentation mächtiger machen, etc.? Das interessiert die Linguisten nicht unbedingt, wenn die Fragestellung ist, ob Sprache X in Indonesien mit Sprache Y in Indien verwandt ist. Das heisst, dass die grundlegenden Fragestellungen andere sind. Uns geht es um die Werkzeugentwicklung und die Effizienz der Werkzeuge. In der Anwendung dieser Werkzeuge in den unterschiedlichen Szenarien, die wir eben vorgestellt haben, gibt es dann Bereiche, die sich überschneiden.

Wir haben zu Beginn schon eine Definition von Digital Humanities von Martin Volk gehört – wie sehen Sie das, Simon Clematide und Rico Sennrich? Was ist das für Sie und «machen» Sie überhaupt Digital Humanities?

[RS] Für mich sind Digital Humanities geisteswissenschaftliche Fragestellungen mit digitalen Methoden, vielleicht mit der Ausnahme der Linguistik. Wenn es linguistische Fragestellungen mit digitalen Methoden sind, passt das auch in die Computerlinguistik. Die Fragestellungen, mit denen ich mich beschäftige, gehören nicht direkt zu den Digital Humanities, da ich eher an den Werkzeugen arbeite.

[MV] Die Arbeiten zur maschinellen Übersetzung, die wir in den letzten 15 Jahren gemacht haben, kann man nicht zu den Digital Humanities im engeren Sinne rechnen, das sind z.T. sehr anwendungsbezogene Fragestellungen, teilweise haben wir auch Grundlagenforschung gemacht. Wird die maschinelle Übersetzung aber angewendet, um die Bullinger-Briefe zu übersetzen, würde ich sagen, dass dies eine Fragestellung der Digital Humanities ist. Für mich ist es immer am Nützlichsten, mir die historische Dimension vorzustellen: Dort sind wir im Bereich der DH, während wir eher im Bereich Computerlinguistik sind, wenn wir an kontemporären Materialien arbeiten. Doch ich weiss, dass viele gerne das Label «Digital Humanities» auch für aktuelle Fragestellungen bzw. Fragestellungen zu aktuellen Texten verwenden – da will ich mich nicht streiten.

Ich habe ursprünglich Germanistik, Neuere Literatur studiert. Gehören dann z.B. textanalytische Fragen im Bereich der Neueren Literatur für Sie auch nicht zu den Digital Humanities?

[MV] Die Arbeiten, die wir Computerlinguisten für die Fragestellung machen würden, sicher nicht, dies wäre eine sprachtechnologische Fragestellung. Was aber für Sie als Germanistin interessant ist, das kann dann durchaus Digital Humanities sein, weil das vielleicht ganz neue Zugänge in Ihrem Feld sind…

Herr Clematide, möchten Sie dazu auch etwas ergänzen?

[SC] Wenn wir Methodenentwicklung machen, ist das Interesse, welche konkrete Fragestellung damit gelöst wird, nicht ganz so wichtig für uns. Man zeigt mit einem Datenset, dass die Methode z.B. 2% besser funktioniert als die andere – das Forschungsinteresse ist ein anderes.

Zum Glück ist «Digital Humanities» ein Kaugummi-Begriff, es gibt eine Community, die sich an Digital Humanities Konferenzen trifft. Die Richtung wird eher sein – denke ich -, dass es in Richtung «Digital Scholarship» geht und jedes Fach ein digitales Toolset aufbauen und in ihre Grundlagenmethoden einbauen wird.

Auch wenn wir eher Methodenentwickler sind, sind wir doch transdisziplinär interessiert – unsere Forschung soll ja nicht für die Schublade sein, sondern auf die Bedürfnisse unseres Gegenübers angepasst werden. Was den Prozess des «Co-Designs» betrifft, sehen wir im Moment sicher eine Professionalisierung und Institutionalisierung an der UZH: Mit dem Institut für Computerlinguistik für die Methodenentwicklung, dem Text Crunching Center für Beratungen, S3IT für die Hardware – die ganze Landschaft hat sich wirklich professionalisiert, und es wird spannend sein zu sehen, wie das Früchte trägt.

Haben wir etwas noch nicht besprochen?

[MV] Ja, eine Sache möchte ich noch unterbringen. Es ist ein Projekt, das uns im Bereich Digital Humanities ein wenig bekannt gemacht hat: Text+Berg digital. Dabei handelt es sich um ein Digitalisierungsprojekt, das wir 2008 gestartet haben. Wir haben die Jahrbücher des Schweizer Alpen-Clubs SAC digitalisiert und aufbereitet. Es entstanden daraus schöne Kooperationen, einerseits mit dem SAC, aber auch mit dem Geographischen Institut, die vor allem an den geographischen Referenzen in den Texten interessiert waren: Gletschernamen, Bergnamen usw.

Aus dem Text+Berg-Projekt entstanden: Die Crowdsourcing-Applikation GeoKokos mit den Texten der Jahrbücher, in der Toponyme annotiert und mit geographischen Referenzen verknüpft werden können.

Patricia Scheurer hat dazu in der Germanistik eine schöne Dissertation verfasst, in der sie sich mit den Metaphern rund um den Begriff «Berg» beschäftigt hat. Ebenso gab es eine Reihe schöner Arbeiten in der Computerlinguistik selbst. Für mich ist es ein schönes Beispiel, wie die Ressourcenerstellung durch uns (die Aufbereitung der Texte) zu einer unglaublichen Menge von Kollaborationen in verschiedenen Disziplinen geführt hat.

Vielen Dank für das Gespräch!

Im Text erwähnte Projekte und Technologien:

https://impresso-project.ch/

https://www.stellenmarktmonitor.uzh.ch/de/research/projects/digital-transformation-nrp77.html

https://github.com/ZurichNLP/xstance

http://bullinger-digital.ch/

https://www.aclweb.org/anthology/P16-1162/

https://github.com/rsennrich/subword-nmt

https://www.cl.uzh.ch/en/TCC.html

https://textberg.ch/site/de/willkommen/

https://geokokos.ch

Veröffentlicht am

Digital Humanities als Denkstil

Dieser Beitrag entstand im Rahmen einer kleinen Reihe zu «Digital Humanities an der Philosophischen Fakultät». Lehrende und Forschende der PhF geben uns einen Einblick in Forschungsprojekte und Methoden «ihrer» Digital Humanities und zeigen uns, welche Technologien in ihrer Disziplin zum Einsatz kommen. Wir diskutieren den Begriff «Digital Humanities» von ganz verschiedenen Perspektiven aus. Heute stellt uns Noah Bubenhofer, Professor am Deutschen Seminar, eine digitale Korpuslinguistik vor.

Herr Bubenhofer, vielen Dank, dass Sie bei dieser Reihe mitmachen – bitte stellen Sie sich kurz vor!

Ich bin germanistischer Linguist, seit September 2019 Professor am Deutschen Seminar der UZH. Ich interessiere mich für eine kultur- und sozialwissenschaftlich orientierte Linguistik, die davon ausgeht, dass Sprache und gesellschaftliches Handeln in einem engen Verhältnis stehen und dass man deshalb über linguistische Analysen etwas darüber lernen kann, wie eine Gesellschaft oder eine Kultur funktioniert.

Ich arbeite sehr stark korpuslinguistisch – ein Korpus ist letztlich eine Sammlung von Textdaten, die meist linguistisch aufbereitet sind und linguistisch analysiert werden. In der Korpuslinguistik verbinde ich quantitative mit qualitativen Methoden, um grössere Textdatenmengen auf Musterhaftigkeit hin analysieren zu können – hier verwende ich natürlich digitale Methoden. Korpuslinguistik gibt es schon sehr lange; mit der Digitalisierung hat sie einen neuen Drive erhalten, weil es sehr viel einfacher geworden ist, sehr grosse Textdatenmengen zu verarbeiten.

Was verstehen Sie unter «Digital Humanities», auch in Bezug zu Ihrem Forschungsgebiet?

Ich erlebe «Digital Humanities» als extrem heterogen, und manchmal ist es gar nicht so klar, ob ich das, was ich mache, auch dazu zählen kann – gerade weil die Korpuslinguistik eigentlich schon eine sehr lange Tradition in der Linguistik hat.

Einerseits bedeutet «Digital Humanities» für mich, digitale Methoden auf digitalen Daten anzuwenden und letztlich geisteswissenschaftliche Fragestellungen zu verfolgen. Andererseits reflektiert man «Digitalität per se» mit geisteswissenschaftlichen Theorien: Was macht «Verdatung» mit Informationen, was ist eigentlich ein Algorithmus, und so weiter.

Die Kombination dieser beider Aspekte macht das Alleinstellungsmerkmal von «Digital Humanities» im Vergleich zu anderen Disziplinen aus, die auch mit digitalen Daten und Methoden arbeiten, wie z.B. Informatik, Data Mining o.ä.

Sie sagten «Disziplin» im Zusammenhang mit Digital Humanities …

[lacht] Dieselbe Debatte gibt es auch in der Korpuslinguistik – ist sie eine Subdisziplin der Linguistik oder ist sie eher ein Denkstil? Ich argumentiere immer für Letzteres, da es eine bestimmte Art und Weise ist, Sprache anzusehen.

Ferdinand de Saussure führte die Unterscheidung von «langue» und «parole» ein, dabei ist «langue» sozusagen das Sprachsystem und «parole» die tatsächlich geäusserte Sprache. Lange interessierte sich die Linguistik hauptsächlich für die «langue». Die Korpuslinguistik machte erst den Fokus auf die «parole» stark, indem die Musterhaftigkeit in der gesprochenen und geschriebenen Sprache untersucht wurde.

Diese Verschiebung der Perspektive findet man in den Digital Humanities teilweise wieder. Man ist an anderen Aspekten der Daten interessiert und hat dadurch auch ein anderes theoretisches Modell im Hintergrund. Deshalb sind die Digital Humanities für mich auch eine Denkrichtung, die versucht, mit spezifischen Methoden einen neuen Blick auf die vorhandenen Daten zu erhalten.

Können Sie uns ein Beispiel geben, vielleicht an einem Ihrer Forschungsprojekte?

In einem Projekt habe ich Alltagserzählungen, genauer Geburtsberichte gesammelt. In diesen schrieben Mütter nieder, wie sie die Geburt ihres Kindes erlebt hatten. Die Berichte stammen aus Threads in Online-Foren, die genau für dieses Genre vorgesehen sind. Ich habe nun 14’000 Berichte aus sechs unterschiedlichen deutschsprachigen Foren gesammelt, analysiert und dabei eine Diskrepanz zwischen diesem sehr individuellen Erlebnis und der Erzählung darüber aufgezeigt: In der Erzählung konnte eine extreme Musterhaftigkeit mit einem bestimmten erzähltypischen Ablauf festgestellt werden, mit bestimmten Themen und Motiven, die sich wiederholten. Die Musterhaftigkeit dieser Erzählungen konnte mit Hilfe digitaler Methoden freigelegt werden.

Genau hier kommt auch wieder der Unterschied z.B. zu reinem Data Mining ins Spiel, wo Fragen wie Narrativität und Sequenzialität zu kurz kommen. In den Geisteswissenschaften ist es uns dagegen klar, dass diese Aspekte eine Rolle spielen: Man kann einen Text nicht einfach als «Sack von Wörtern» (bag of words) auffassen, sondern es spielt eine Rolle, in welcher Sequenz diese Wörter vorkommen.

Es ging in diesem Projekt also auch darum, die Methodik so anzupassen, dass man diese narrativen Strukturen identifizieren kann.

Wie gehen Sie (technisch) vor, um eine solche Analyse durchzuführen?

Zunächst müssen die Daten «gecrawlt», d.h. automatisiert vom Web heruntergeladen werden. In einem aktuellen Projekt zu COVID19 News-Kommentaren haben wir z.B. mit Python und Selenium gearbeitet. Dabei übernimmt Selenium die «Benutzerinteraktion» auf einer dynamischen Webseite – diese sind heute ja nicht mehr einfach statisches HTML.

Diese Daten werden nun linguistisch, d.h. mit Wortarten-Tagging, syntaktischem Parsing, semantischen Annotationen etc. versehen. Dafür verwenden wir an unserem Lehrstuhl das UIMA-Framework, das mit Modulen oder eigenen Python-Skripts erweitert werden kann, die das Tagging oder andere Verarbeitungsschritte auf diesen Textdaten durchführen.

Im nächsten Schritt gehen diese verarbeiteten Daten in die Corpus Workbench, eine Datenbank, die spezialisiert ist, korpuslinguistisch annotierte Daten zu verwalten und zu analysieren. Für die Analyse wichtig sind in unserem Gebiet die n-Gramme – Gruppen von n Wörtern, sprachliche Muster –, die wir mit unserer selbst entwickelten Software cwb-n-grams berechnen können. Wie diese n-Gramme berechnet werden, kann dabei ganz unterschiedlich sein: Nimmt man als Basis die Grundformen der Wörter, reduziert man Redundanzen, behält man «Füllwörter» oder nicht, wie lange soll das n-Gramm sein, etc. Wir haben die Methodik zudem so erweitert, dass wir zusätzlich auch die erstellten Annotationen mit einbeziehen.

Die (statistische) Analyse selber kann man schliesslich z.B. mit R und plotly durchführen, für das ein Paket existiert, das direkt auf die Corpus Workbench zugreifen kann. Hier vergleichen wir die Häufigkeiten jeweils mit einem Referenzkorpus, um statistisch signifikante n-Gramme finden zu können. Signifikant heisst in dem Zusammenhang: Welche n-Gramme sind typisch für Geburtsberichte und nicht aus anderen Gründen häufig vorgekommen.

Der Output kann z.B. eine interaktive Grafik sein – hier das Beispiel zum Projekt «Geburtsgeschichten», das typische Positionen der n-Gramme im Verlauf der Erzählung darstellt. Man sieht an den n-Grammen, dass diese sprachlichen Muster über die 14’000 Texte hinweg immer wieder gleich und an ähnlichen Positionen in der Erzählung vorkommen. Die y-Achse zeigt die Standardabweichung bezüglich Position in der Geschichte: Je weiter oben ein n-Gramm erscheint, desto variabler war die Position im Verlauf. Auf der Grafik sind bestimmte Cluster von n-Grammen sichtbar, die aber weniger variabel waren, gegen Ende der Erzählung z.B. das n-Gramm «gleich auf den Bauch gelegt».

Eine rhetorische Frage: Was ist der Mehrwert gegenüber analogen Methoden?

[lacht] … Genau, was bringt’s wirklich? Zum einen, 14’000 Geschichten kann ich nicht einfach durchlesen. Aber im Ernst: Es zeigt sich eine Musterhaftigkeit in der Sprache, die nicht auffallen kann, wenn man nur Einzeltexte vor sich hat. Ich finde dieses datengeleitete Paradigma wichtig: Welche Strukturen ergeben sich eigentlich datengeleitet und nicht theoriegeleitet? Sehr wichtig ist dabei, dass wir im Anschluss eine geisteswissenschaftliche Interpretation davon machen. Man hat nicht zuerst eine theoriegeleitete Hypothese, die man stützen oder verwerfen kann, sondern generiert die Hypothese vielleicht erst durch diese Interpretation. Natürlich muss man dann wieder zurück in die Daten und prüfen, ob diese Hypothese wirklich stimmt – und man darf nicht vergessen, dass man trotz des induktiven Vorgehens noch Prämissen gesetzt hat: Allein die Definition, was als Wort aufgefasst wird, welche Daten wähle ich aus, etc.

Eine Challenge in der Linguistik ist heute, dass die Informatik uns neuronale Lernmethoden gibt, die statistische Modelle aus den praktisch unverarbeiteten Daten lernen. Der Algorithmus muss gar nicht mehr wissen, was ein Wort oder eine Wortart ist. Die Idee ist dann, dass sich die Musterhaftigkeit und allenfalls Kategorien wie Wortarten aus den Daten ergeben. Dies stellt natürlich die klassische Linguistik in Frage – wir experimentieren aber damit und fragen uns, inwiefern linguistische Theorien helfen zu verstehen, warum solche Methoden überhaupt funktionieren und wie sie verbessert werden können. Und doch ist es auch hier wichtig zu sehen, dass neuronale Lernmethoden keinesfalls objektive, neutrale Modellierungen von Sprache darstellen, sondern mit der Datenauswahl und den gewählten Parametern eben spezifischen Sprachgebrauch abbilden. Die Modelle sind genauso voller Verzerrungen – wir würden sagen: diskursiv geprägt – wie ihre Datengrundlage, was z.B. bei AI-Anwendungen problematische Folgen haben kann.

Für die Bearbeitung dieser Fragestellungen werden sehr viele verschiedene Technologiekenntnisse, aber auch sehr viel theoretisches Wissen vorausgesetzt – wie kann man die Studierenden da heranführen?

Man kann heute nicht Linguistik studieren, ohne eine Vorstellung zu haben, was algorithmisch möglich ist. Sie müssen verstehen, was ein Skript machen kann, wie HTML, XML und Datenbanken funktionieren, oder auch, was Machine Learning ist.

Als ich noch in Dresden war, haben wir eine Einführung in die Programmierung für Germanistinnen und Germanisten gegeben, die sich sehr bewährt hat. Der Kurs war sehr niederschwellig, die Studierenden sollten ein kleines Skript zu einem linguistischen Projekt schreiben. Einige Studierende vertiefen diese Kenntnisse weiter, andere nicht – doch zumindest können sie auf Augenhöhe mit Personen sprechen, die sie vielleicht in weiteren Projekten unterstützen.

Hier an der UZH plane ich gerade, hoffentlich mit einem Lehrkredit, ein E-Learning Modul zu Programmierkompetenzen für Geisteswissenschaftlerinnen und Geisteswissenschaftler. Das Modul soll aus Bausteinen bestehen, die man auch gut in andere, bereits bestehende Module einbinden kann und die teilweise auch curricular verpflichtend sind.

Heisst das, dass die Programmierkenntnisse disziplinär gebunden unterrichtet werden sollen? Oder lernt man besser Python in einem Pythonkurs, SQL in einem SQL-Kurs etc.?

Es gibt natürlich unterschiedliche Lerntypen, doch m.E. ist eine disziplinäre Verortung für die Mehrheit der Studierenden in den Geisteswissenschaften wichtig, weil man an den geisteswissenschaftlichen Fragen interessiert ist. Sonst hätte man vielleicht Informatik studiert. Es ist viel einfacher, wenn man eine konkrete Forschungsfrage hat, der man nachgehen kann und entlang derer man die nötigen Kenntnisse erwirbt. Man ist so einfach viel motivierter.

Hier schliesst sich auch der Bogen zur Frage, was «Digital Humanities» sein könnten…

Ja, denn für uns Geisteswissenschaftlerinnen und Geisteswissenschaftler ist eine Methode dann interessant, wenn sie «nahrhaft» für Interpretation ist, d.h. wenn ich daraus etwas machen kann, das mir in meinen Fragen weiterhilft. Es ist eine andere Art von Nützlichkeit als eine rein technologische für eine Anwendung, aber natürlich benötigen wir die Hilfe von anderen Disziplinen, wir haben das Know-How nicht, z.B. einen Part-of-speech-Tagger oder statistische Methoden zu verbessern.

Haben wir ein wichtiges Thema in der Diskussion ausgelassen, haben Sie eine Ergänzung oder einen Ausblick?

In meiner Habilitationsschrift, die demnächst erscheint, geht es um die «Diagrammatik», nämlich wie Darstellungen und Visualisierungen helfen, Daten anders zu verstehen. Es geht hier nicht nur um quantitative Aspekte, sondern darum, wie verschiedene Darstellungsformen neue Sichtweisen auf Daten ermöglichen.

Ein Beispiel ist die «Konkordanzliste»: Man hat hier einen Suchausdruck und sieht dessen unmittelbaren Kontext in verschiedenen Texten. Die Konkordanzdarstellung gibt es schon seit dem Mittelalter, er bricht die Einheit des Textes auf und versucht, einen Blick auf Fundstellen listenförmig darzustellen. Dadurch wird der Text «zerstört», aber gleichzeitig gewinnt man ganz viel, weil man eine neue Sicht erhält.

Für mich ist auch das auch eine Frage für die Digital Humanities, weil wir eigentlich ständig versuchen, unsere Daten in andere Ansichten zu transformieren, um etwas Neues daraus zu gewinnen. Viele dieser Visualisierungen sind erst mit den digitalen Mitteln möglich geworden.

In diesem Beispiel werden Gesprächstranskripte visualisiert: Die drei Gesprächsteilnehmerinnen und Gesprächsteilnehmer sind als Kreiszentren dargestellt. Die Jahresringe stellen einzelne Beiträge der Teilnehmenden dar. Je mehr Ringe, desto mehr sogenannte „turns“ wurden von dieser Person beigetragen. Die verschiedenen Durchmesser der Jahresringe ergeben sich aus den Beitragslängen. Einige Beispiele können auf Noah Bubenhofers Seite gleich ausprobiert werden.

Herr Bubenhofer, ich danke Ihnen für dieses Gespräch!

 

Im Beitrag erwähnte Technologien und Seiten:

https://www.python.org/

https://www.selenium.dev/projects/

https://uima.apache.org/

http://cwb.sourceforge.net/

https://plotly.com/r/

http://www.bubenhofer.com/jahresringe/index.html