Mozillas Arbeit auf dem Gebiet der Sprachtechnologie

Mozilla ist vor allem für seine Arbeit an Firefox bekannt. Tatsächlich macht Mozilla aber viel mehr als nur Firefox. Gerade in aufstrebenden Technologie-Märkten wie Virtual Reality oder Sprache ist Mozilla sehr engangiert. Welchen wichtigen Beitrag Mozilla in diesen Bereichen leistet, wird von vielen unterschätzt. Dieser Artikel soll auf Mozillas mittlerweile zahlreiche Bestrebungen im Bereich der Sprachtechnologie aufmerksam machen und zeigen, wieso Mozillas Arbeit in diesem Bereich zu einem der wichtigsten Projekte von Mozilla neben Firefox gezählt werden darf.

Inhaltsverzeichnis [Verbergen Anzeigen]

Mozilla Common Voice
Weltweit größter Sprach-Datensatz
Mozilla DeepSpeech
DeepSpeech im produktiven Einsatz
Firefox Listen: Sprachtechnologie in Pocket
Firefox-Erweiterung: Voice Fill
Firefox-Erweiterung: Firefox Voice
Web Speech API in Firefox
EU-Projekt Bergamot
Kooperation mit SYSTRAN
Zusammenarbeit mit BMZ
Fazit

Mozillas Arbeit im Gebiet der Spracherkennung kann neben der Arbeit an Firefox durchaus zu einem der wichtigsten Projekte der Not-for-Profit-Organisation Mozilla gezählt werden. Immer mehr Geräte sind miteinander vernetzt und lassen sich über Sprache steuern. Was vor Jahren noch nach Science Fiction geklungen hätte, ist mittlerweile für immer mehr Menschen Realität.

Mozilla Common Voice

Der Markt für Spracherkennung wird von den ganz großen Namen kommerzieller Anbieter dominiert: Amazon, Apple, Google, Microsoft. Darum hat Mozilla im Juni 2017 das Projekt Common Voice gestartet. Mit Common Voice versucht Mozilla, eine kostenlose Alternative zu etablieren, zu der jeder beitragen kann und die jedem zur Verfügung steht, denn nach Ansicht von Mozilla sollte diese Technologie für jeden zugänglich sein und nicht den großen Anbietern vorbehalten sein.

Es befinden sich derzeit 45 Sprachen in der Aufnahmephase, darunter Deutsch mit aktuell bereits 455 Stunden gesprochenen Sätzen von 9.251 Sprechern. Weitere 69 Sprachen befinden sich in der Vorbereitungphase und könnten dazu kommen, sobald die Website-Lokalisierung sowie die Sammlung von Sätzen in jeder jeweiligen Sprache abgeschlossen sind.

Zu Common Voice kann jeder durch das Sprechen von Sätzen oder das Bestätigen bereits gesprochener Sätze beitragen, wahlweise über die Website oder über eine App für Apple iOS.

Weltweit größter Sprach-Datensatz

Im März 2019 hat Mozilla auf Grundlage von Common Voice den weltweit größten Sprach-Datensatz kostenlos zur Verfügung gestellt, zu welchem mehr als 42.000 Menschen beigetragen haben. Die aktuelle Version von Juni 2019, welche noch einmal deutlich gewachsen ist, besteht aus 2.454 aufgenommenen Stunden, davon 1.965 Stunden bestätigt, in insgesamt 29 Sprachen. Alleine für die deutsche Sprache wurden insgesamt 9 GB an Daten beigetragen. Insgesamt 5.007 Stimmen haben 340 Stunden an Sätzen eingesprochen, von denen 325 Stunden bestätigt sind.

Alle Datensätze stehen unter der Creative Commons-Lizenz CC0, befinden sich also in der sogenannten Public Domain.

Mozilla DeepSpeech

Unter dem Namen DeepSpeech entwickelt Mozilla eine Open Source Spracherkennungs-Engine, welche ein durch maschinelles Lernen trainiertes Sprachmodell nutzt und auf der Forschung von Baidu zu diesem Thema basiert. Mozilla stellt außerdem ein bereits vor-trainiertes englisches Sprachmodell zur Verfügung. Dabei macht Mozilla große Fortschritte. Im Dezember 2019 erst hat Mozilla mit der Unterstützung von TensorFlow Lite einen neuen Meilenstein für DeepSpeech erreicht: Die Paketgröße von DeepSpeech konnte gegenüber der Vorversion von 98 MB auf 3,7 MB reduziert werden, die Größe des englischen Sprachmodells von 188 MB auf 47 MB. Die neue Version benötigt 22 Mal weniger Arbeitsspeicher und startet über 500 Mal schneller. Auf einem Single Core Raspberry Pi 4 arbeitet DeepSpeech nun schneller als in Echtzeit.

DeepSpeech im produktiven Einsatz

Bereits im Januar 2018 hat Mycroft angekündigt, DeepSpeech zur Standard-Engine des Open Source Sprachassistenten zu machen. Auch der Assistent Leon und das Telefonvermittlungssystem FusionPBX nutzen DeepSpeech. In Zukunft soll DeepSpeech auch in Smartphones und In-Car-Systemen zum Einsatz kommen.

Firefox Listen: Sprachtechnologie in Pocket

Das im Februar 2017 von Mozilla für 30 Millionen Dollar erworbene Pocket ist ein Online-Service inklusive dazugehöriger Apps für Android und Apple iOS zum Speichern von Artikeln zum späteren Lesen sowie Entdecken von Inhalten. Mit Firefox Listen kommt darin Sprachtechnologie von Mozilla zum Einsatz, um die gespeicherten Artikel vorlesen zu lassen.

Firefox-Erweiterung: Voice Fill

Mozillas Firefox-Erweiterung Voice Fill fügt den Suchmaschinen von Google, Yahoo und DuckDuckGo die Möglichkeit hinzu, diese per Sprache zu bedienen.

Firefox-Erweiterung: Firefox Voice

Firefox Voice ist eine neues experimentelles Add-on von Mozilla, welches Firefox um die Möglichkeit erweitert, diesen per Sprache zu steuern.

Web Speech API in Firefox

Weiter arbeitet Mozilla an der Unterstützung der Web Speech API für Firefox. Diese soll es Website-Betreibern ermöglichen, eine Sprach-Eingabe für Websites zu implementieren. Mozilla sendet die Audio-Spur dafür zunächst an die Google Cloud Speech API‎, da Google hierfür Industrieführer ist und den Service für 120 Sprachen anbietet. Bevor die Daten an Google gesendet werden, gehen diese allerdings über einen Server von Mozilla, der als Proxy fungiert. Außerdem ist es Google untersagt, die Daten zu speichern. Das heißt, obwohl Firefox den gleichen Dienst wie Chrome nutzen wird, werden Firefox-Nutzer die bessere Privatsphäre bei Nutzung dieses Feature haben, verglichen mit Nutzern von Google Chrome. Langfristig soll aber Mozillas eigene DeepSpeech-Technologie die Nutzung von Google ersetzen – zumindest für die englische Sprache und eventuell weitere Sprachen, in denen dies auch qualitativ eine Option ist. Mozilla sieht es durchaus als Option, unterschiedliche Engines für verschiedene Sprachen zu nutzen.

EU-Projekt Bergamot

im Rahmen des von der Europäischen Union geförderten Bergamot Projects arbeitet Mozilla gemeinsam mit mehreren europäischen Universitäten daran, maschinelle Übersetzungen ganz ohne Cloud in den Browser zu bringen.

Die clientseitige Durchführung der Übersetzung soll einerseits der Privatsphäre dienen, da kein Datenriese wie Google involviert ist, andererseits aber auch die Verbreitung von Sprachtechnologie in Europa fördern, und zwar in Bereichen, welche Vertraulichkeit erfordern und wo es dementsprechend keine Option ist, die Übersetzung in der Cloud durchzuführen.

Kooperation mit SYSTRAN

SYSTRAN ist der Anbieter eines Softwaresystems zur neuronalen maschinellen Übersetzung. Im Oktober 2019 hat Mozilla eine Kooperation mit SYSTRAN angekündigt, in deren Rahmen Mozilla den für das Mozilla-Projekt getätigten Übersetzungen eine zweite Verwendung hinzufügt. Auch Übersetzungen alter Produkte wie denen für Firefox OS erhalten so eine neue Bedeutung. Dabei werden die über Mozillas Übersetzungs-Tool Pontoon erstellten Übersetzungen genutzt, um Sprachmodelle zu trainieren, welche dann über den SYSTRAN Marketplace an deren Kunden lizenziert werden. Dies bringt Mozilla nicht nur eine zusätzliche Einnahmequelle, sondern durch die kostenlose Nutzung der trainierten Modelle auch im eigenen Pontoon-Tool wiederum bessere, auf maschinellem Lernen basierte automatisierte Übersetzung-Vorschläge. Kunden von SYSTRAN profitieren durch Mozillas Sprachmodelle von der Möglichkeit, ihre Produkte schneller in weitere Sprachen übersetzen zu können, insbesondere Sprachen, für welche ansonsten nicht genug Ressourcen vorhanden sind. Außerdem nimmt Mozilla damit auch Einfluss darauf, wie wichtige Privatsphäre- und Sicherheits-Features in anderen Produkten bezeichnet werden, was für eine gewisse Art von Standardisierung sorgt.

Zusammenarbeit mit BMZ

Im November 2019 hat Mozilla gemeinsam mit dem deutschen Bundesministerium für wirtschaftliche Zusammenarbeit und Entwicklung (BMZ) eine neue Allianz zur Förderung offener Sprachtechnologien für afrikanische Sprachen ins Leben gerufen. Das Ziel ist es, Sprachdaten in afrikanischen Sprachen zu sammeln und diese afrikanischen Start-ups zur Verfügung zu stellen, damit diese zur Entwicklung von lokalen sprachbasierten Technologien und Produkten genutzt werden können, um so schließlich die Ziele für nachhaltige Entwicklung zu erreichen. Ziel ist es auch, dass sich weitere Organisationen und Unternehmen dieser Allianz anschließen.

Fazit

Wie man sieht, ist das Thema Sprachtechnologie alles andere als klein für Mozilla. Vor allem die Steuerung von Software und Geräten per Sprache wird in Zukunft eine immer größere Rolle spielen. Darum kann man gar nicht genug betonen, wie wichtig Mozillas Arbeit auch in diesem Bereich und eben nicht nur am Firefox-Browser ist, vor allem langfristig – im Sinne eines fairen Wettbewerbes, der es jedem erlaubt, Sprachtechnologie ohne hohe Lizenzierungskosten nutzen zu dürfen, und natürlich auch der Einhaltung von Privatsphäre-Standards, bei denen Mozilla traditionell einen hohen Maßstab pflegt. Mozilla kann hier eine ganz zentrale Rolle spielen, Sprachtechnologie zum Positiven zu beeinflussen.

Der Beitrag Mozillas Arbeit auf dem Gebiet der Sprachtechnologie erschien zuerst auf soeren-hentzschel.at.