Laut einer AWS-Studie sind 57,1 % der Inhalte im Internet von künstlicher Intelligenz übersetzt worden – und das in schlechter Qualität. Vor allem in weniger verbreiteten Sprachen sind maschinelle Übersetzungen schlecht und verbreiten Sorge für das zukünftige Training von Large Language Models.
Die AWS-Studie zu KI-Übersetzungen
Die AWS-Studie zu KI-Übersetzungen wurde von Forschenden mit AI Labs durchgeführt. Um verwertbare Ergebnisse zu bekommen, werteten sie 6,38 Milliarden Sätze aus Inhalten im Internet aus.
Die Erkenntnis: Mehr als die Hälfte des Text-Contents im Internet sind schlechte, maschinelle Übersetzungen. Die meisten Inhalte liegen in zwei oder mehr Sprachen vor. Die Qualität ist dabei bestenfalls bescheiden.
Auf die Idee zu der AWS-Studie kamen die Forschenden von AI Labs, weil sie von Kollegen und Kolleginnen in der Branche darauf hingewiesen wurden, dass vor allem bei den nicht so weit verbreiteten Sprachen viele Texte im Internet offensichtlich maschinell übersetzt wurden.
Um herauszufinden, wie weit maschinelle Übersetzungen in weniger verbreiteten Sprachen reichen, führten sie die AWS-Studie durch und kamen zu dem Ergebnis, dass 57,1 % der textlichen Inhalte im Internet aus maschinellen Übersetzungen stammen.
Dafür wurden die 6,38 Milliarden für die Studie ausgewählten Sätze auf direkte Übersetzungen in mehr als eine Sprache überprüft. Dabei fiel auf, dass vor allem weniger verbreitete Sprachen unter schlechten Übersetzungen leiden.
Risiken bei KI-Übersetzungen laut der AWS-Studie
Generell werden Texte laut der AWS-Studie zu KI-Übersetzungen viel häufiger in die Weltsprachen übersetzt. Ganz vorne Englisch und Französisch. Hier gab es die meisten Parallelen zwischen den überprüften Texten. Viele der Sätze lagen in vier Sprachen vor. Ein Original und drei Übersetzungen.
Bei den Sprachen, die kaum verbreitet sind, sieht das Ergebnis anders aus. Beispielsweise wurden die afrikanischen Sprachen Wolfo und Xhosa überprüft und dabei festgestellt, dass sie im Verhältnis nur halb so oft vorkommen und die Qualität der maschinellen Übersetzungen in diese Sprachen mangelhaft ist.
Insgesamt ging aus der AWS-Studie zudem hervor, dass die Qualität der Übersetzungen abnimmt, je mehr Sprachen übersetzt werden.
Die Probleme, die daraus entstehen können, finden sich im weiteren Training von KI-Modellen für maschinelle Übersetzungen. Lernen diese künstlichen Intelligenzen von den schlechten Übersetzungen, nehmen sie diese schlechte Qualität ebenfalls an. Da ein Großteil der Texte vor allem in den weniger bekannten Sprachen aber ausschließlich aus diesen schlechten Übersetzungen bestehen, fehlt eine Basis für ein besseres maschinelles Training in diesen Sprachen.
KI-Modelle werden mit Milliarden von Daten trainiert, damit sie auf dem uns derzeit bekannten Level performen können. Diese Trainingsdaten stammen aus dem Internet. Entwickler von KI-Modellen müssten also eine bessere Qualitätskontrolle der Trainingsdaten vornehmen. Aber auch das ist ein gewaltiger Aufwand. Vor allem dann, wenn man die Sprachen nicht selbst spricht.
Wir werden sehen, ob in Zukunft bessere Trainingsmethoden entwickelt werden, die für höhere Qualität bei den Übersetzungen sorgen.
AWS Machine Learning & AI lernen mit skill it
Willst du dich mehr mit Machine Learning und den Trainingsmethoden für KI-Modelle beschäftigen, haben wir die passenden Seminare für dich.
Im viertägigen Kurs The Machine Learning Pipeline on AWS setzt du selbst ein Projekt mit der Hilfe von KI um, das ein vorgegebenes Problem lösen soll.
Mit dem Amazon SageMaker Studio for Data Scientists entwickelst du selbst Machine Learning Modelle. In unserem Kurs lernst du, wie du das in der Praxis anwendest.
Diese Kurse setzen gute Englischkenntnisse voraus.