Die neue Oralität: «Text-to-speach» (TTS) und «Speach-to-text» (STT)

von Christian Schorno

Ich stelle mir eine Szene vor. Sie spielt in den 50er- oder 60er-Jahren, vor langer Zeit also. Ein Direktor ruft: «Fräulein Hugentobler zum Diktat!» Fräulein Hugentobler stellt sich bewaffnet mit einem spitzen Bleistift und mit ihrer jahrelangen Erfahrung in Stenographie vor den massiven Schreibtisch des stattlichen Mannes und er beginnt zu diktieren: «Sehr geehrter Herr Doktor Müller, bezugnehmend auf Ihr Schreiben vom …» – Lassen wir es gut sein! Es gibt heute keine Fräuleins mehr und Direktoren schreiben ihre Briefe selbst, spätestens seit Personal Computer, die mit Microsoft Word beladen sind, in der Chefetage angekommen sind.
Als ich vor Jahren mein iPhone 4 kaufte, war ich gespannt darauf, Siri auszuprobieren. Ich kam mir ein Bisschen wie ein alter Direktor vor, der Fräulein Siri zum Diktat ruft. «Siri, schreibe eine Mail an …». Doch die Enttäuschung war groß. Meine Siri war Analphabetin und im wesentlichen eine Dada-Maschine. Siri erhielt folglich keine Anstellung bei mir.
Neulich fand ich mich vor mein erstes Text-to-speech-Problem an der Philosophischen Fakultät gestellt. Das ist nun genau der umgekehrte Fall, in dem ein geschriebener Text von einem Synthesizer gesprochen wird. Solche Systeme sind bei Menschen mit einer Sehbehinderung schon lange im Gebrauch und haben sich zwischenzeitlich zur Standardapplikation entwickelt. Frau Bachour, die Arabisch-Lektorin am AOI verwendet eine Datenbank (Kalimat), mit der Studierende das Vokabular trainieren können. Bei der Abfrage eines Wortes gab die Datenbank in OLAT einen Link aus, der zu Google führte, wo ein Sprachsynthese-Service das Wort nahezu perfekt artikulierte. Doch leider ist diese Funktionalität von Google vor einigen Monaten eingestellt worden und die Frage lautete nun, ob es eine Alternative gäbe. Mit etwas Recherche fand ich rasch heraus, dass TTS heute tendenziell im Browser selbst als Addon installiert wird. Für Firefox gibt es beispielsweise Google™ Text-to-Speech (TTS) und für Chrome die Talking-Web-Erweiterung. Die Liste der verfügbaren Addons ist lang. Ich denke, es gibt hier keinen Marktführer oder ich habe ihn noch nicht erkannt. Sie müssen auf der Suche nach «Ihrem» TTS-Addon eines wählen, das in Ihrem Standardbrowser funktioniert, das Sie mühelos verstehen können und das möglichst alle für Sie relevanten Sprachen abdeckt. Praktisch ist auch, wenn Sie die Sprechgeschwindigkeit einstellen können. Meine Kurzrecherche und die ersten Tests erstaunten mich, wie gut die Technologie inzwischen geworden ist.
Etwa zur selben Zeit, Ende Februar, kam Google mit dem Voice-Typing-Feature in Google-Docs heraus. Damit lassen sich Texte über das Mikrofon schreiben. Als ich die neue Funktionalität ausprobierte, war ich vollends vom Fortschritt der TTS- und STT-Technologie überzeugt. Vorlesen und Diktat könnten nun wieder zur gängigen kulturellen und arbeitstechnischen Praxis werden. Dass elektronische Medien eine neue Oralität mit sich bringen, beobachtete bereits der kanadische Medientheoretiker Marshall McLuhan. Nun ist diese Oralität in unseren Geräten angekommen. Die Uni wird mir deswegen allerdings keinen Mahagony-Schreibtisch mehr anschaffen.

PS: Dieser Text ist natürlich mit dem Google Voice-Typing-Feature geschrieben bzw. gesprochen worden. Ehrensache! Aber ich muss zugeben: So leicht wie dem stattlichen Mann in den 50er Jahren fällt es mir nicht, einen Text druckreif zu diktieren. Meine Gedanken stolpern im Reden, mir kommt es vor, als könne ich keinen geraden Satz mehr sprechen. Ich bin es mir offenbar schon zu lang gewohnt, Satzstellung, Logik und Stil meiner Texte im Editor statt im Kopf herzustellen. Ich habe den Text also nacheditieren müssen. Er war aber, abgesehen von meinen Versprechern, fast fehlerfrei!