Maschinen verstehen nun auch Mundart
Gemeinsam mit der Walliser Firma recapp IT und der Universität Genf hat SRF eine Speech-to-Text-Lösung realisiert, die nicht nur das Leben von Medienschaffenden einfacher macht, sondern auch die Barrierefreiheit für das Publikum erhöhen wird.
Das Leben von Journalistinnen und Journalisten könnte so schön sein: recherchieren, rausgehen, Menschen interviewen, einen interessanten Beitrag gestalten. Wäre da nicht die leidige Transkriptionsarbeit, die nötig ist, um aus dem gesammelten Ton- und Bildmaterial eine Geschichte zu machen. Künstliche Intelligenz übernimmt diese Fleissarbeit mittlerweile in vielen Sprachen. Auch der SRF-interne Speech-to-Text-WebEditor verschriftlicht Videos und Audios aus über 30 Sprachen, darunter auch Rätoromanisch. Wenn es aber um die relevanteste Sprache in der Deutschschweiz geht, Mundart, hinkte die künstliche Intelligenz bisher massiv hinterher. Der offensichtliche Grund: Der kleine Markt ist für grosse Firmen nicht interessant genug, um in die Erkennung einer Sprache zu investieren. Die zahlreichen Dialekte stellen eine zusätzliche Hürde dar.
Diese hat SRF gemeinsam mit dem Walliser Unternehmen recapp IT nun überwunden. 2014 gegründet, hatte die Firma zunächst einen Transkriptionsservice für Walliser Dialekt aufgebaut. Mit SRF als Partner, arbeitete Recapp IT seit Mitte 2019 an einem Algorithmus, der nun, gut zwei Jahre später, alle Schweizerdeutschen Mundarten versteht. SRF hatte dafür insgesamt 500 Stunden Trainingsmaterial zur Verfügung gestellt. Herausgekommen ist ein Tool, das Mundart mit einer Wortfehlerquote von zwölf Prozent ins Hochdeutsche übersetzt. «Das ist ein unglaublicher Erfolg, wenn man bedenkt, wie wenig Material recapp IT im Vergleich zu internationalen Tech-Firmen zur Verfügung hatte», erklärt Christian Vogg, Chief Data Officer SRG, der als ehemaliger Leiter Dokumentation und Archive SRF mit seinem Team dieses Projekt angestossen und betreut hat.
Das Speech-to-Text-Tool hat viele Einsatzmöglichkeiten: Es erleichtert nicht nur den journalistischen Arbeitsablauf, auch die Archivierung profitiert enorm davon. So sollen künftig etwa schweizerdeutsche Diskussionssendungen, die heute aus Kapazitätsgründen nur oberflächlich archivarisch erschlossen werden können, automatisch transkribiert und so in der Archivdatenbank schneller und gezielter auffindbar gemacht werden. Bei einem Mundart-Sendeanteil bei SRF von geschätzten 50 Prozent würde das eine markante Verbesserung des Archivs bringen und mehr Inhalte ohne grossen Aufwand zugänglich machen.
Gleichzeitig wird auch die Untertitelung von TV-Beiträgen und Online-Videos effizienter werden. Während heute schweizerdeutsche Programme auf Hochdeutsch nachgesprochen und dann von einer Spracherkennungssoftware als Untertitel ausgespielt werden, können die Mundarttexte künftig direkt von der Software erkannt und aufbereitet werden. Das ist nicht nur günstiger, sondern ermöglicht auch, im Sinne der Barrierefreiheit, mehr Programminhalte untertitelt anzubieten. Bereits heute werden gut 70 Prozent der Fernsehprogramme untertitelt, was rund 17 000 Fernsehstunden entspricht. Auch ein Grossteil der im Internet angebotenen Programme ist mit Untertiteln versehen. Diese Quote wird auch aufgrund entsprechender Gesetze noch erhöht und dürfte dank der neuen Sprachtechnologien vergleichsweise preiswert umzusetzen sein.
Damit das alles einwandfrei funktioniert, wird das Tool von recapp IT kontinuierlich weiterentwickelt. Denn während die Software bereits eine effiziente Alternative zum mühsamen, manuellen Transkribieren darstellt, ist sie noch nicht reif, um gänzlich fehlerfreie Texte auszuspucken. «In den Feedbacks, die wir diesen Sommer bei den SRF-Mitarbeitenden eingeholt haben, zeigen sich die meisten zwar überrascht von dem, was das Tool schon kann, sagen aber auch, dass noch Nachbearbeitung nötig ist, um die Texte publikationsreif zu machen», erzählt Vogg. Das liegt vor allem daran, dass aktuell eine 1:1-Transkription stattfindet. «Weil sich der schweizerdeutsche und hochdeutsche Satzbau wesentlich voneinander unterscheiden, erzeugt das Tool noch Texte, die grammatikalisch holprig sein können», erklärt Vogg. Genau hier soll die Universität Genf weiterhelfen. Das Departement Traitement Informatique Multilingue unterstützt in einem seit einem Jahr laufenden Projekt recapp IT und SRF bei der Weiterentwicklung.
Ziel: Die Speech-to-Text-Software spuckt automatisch korrekte Volltexte aus, egal zu welchem Thema und aus welchem schweizerdeutschen Dialekt. «Wir sind auf dem richtigen Weg und freuen uns, dass das Tool schon heute im journalistischen Alltag gewinnbringend eingesetzt wird», zeigt sich Vogg optimistisch. Übrigens: Sollte sich in der Praxis herausstellen, dass gewisse Dialekte weniger gut erkannt werden als andere, so könne in solchen Fällen auch «nachtrainiert» werden. Derzeit scheint es Nachholbedarf beim Appenzeller Dialekt zu geben, was aber durch Tests noch genauer belegt werden müsse, erklärt Vogg weiter. Ohne Lehrmaterial keine Lernfortschritte – das gilt eben nicht nur für den Menschen, sondern auch für Maschinen.
Kommentar
Kommentarfunktion deaktiviert
Uns ist es wichtig, Kommentare möglichst schnell zu sichten und freizugeben. Deshalb ist das Kommentieren bei älteren Artikeln und Sendungen nicht mehr möglich.