Wissen Sie, künstliche Intelligenz ist das Thema dieser Monate: Eine Explosion hat gerade erst begonnen, deren Auswirkungen sich uns erst in den nächsten Jahren zeigen werden.
Auch Microsoft steckt hinter den Segeln dieser Technologie: Das Unternehmen nutzte kürzlich KI, um die Funktionalität seiner Apps zu verbessern, und könnte nun bis zu 10 Milliarden Dollar in OpenAI investieren, das Unternehmen, das ChatGPT entwickelt hat. Heute höre ich jedoch von einem anderen Microsoft-Projekt, SENKE, was unglaublich ist.
Dieses hochmoderne Tool wurde anhand einer riesigen Menge an Sprachdaten und über 60.000 Stunden Englischunterricht trainiert. Ein Datensatz, der ihn nach Angaben des Redmonder Unternehmens „hundertmal größer macht als bestehende Systeme“. Inbegriffen die fortgeschritteneren.
Und was hat VALL-E gelernt? Nichts, eine Kleinigkeit. Es reproduziert und imitiert jede Stimme perfekt, nachdem es nur drei Sekunden lang angehört wurde.
Ein Sprachreplikator?
Es ist nicht nur das. VALL-E ist eine echte Revolution auf dem Gebiet der künstlichen Stimmintelligenz. Denn es reproduziert mit außergewöhnlicher Präzision die Emotionen, Stimmtöne und die akustische Umgebung einer bestimmten Probe und stellt einen riesigen Fortschritt im Vergleich zu bestehenden Text-to-Speech-Systemen (TTS) dar. Mit anderen Worten: Die Stimme von VALL-E klingt viel mehr nach der eines Menschen als nach der einer künstlichen Intelligenz.
Auf seinem Linkedin-Profil (Besuche es), der digitale Stratege Alberto Giacobone Links zu einer kleinen Bibliothek mit Vocal-Samples, erstellt von VALL-E e online stellen auf der GitHub-Plattform. Das Ergebnis ist überraschend: In vielen Clips werden Intonation und Akzentuierung der Stimmen der Sprecher perfekt wiedergegeben.
Einige Beispiele sind weniger überzeugend und das zeigt, dass VALL-E noch kein fertiges Produkt ist. Das Gesamtergebnis ist jedoch so überzeugend, dass es uns sprachlos macht.
Große Risiken, großes Potenzial
Es liegt auf der Hand, dass diese Technologie Anlass zur Sorge hinsichtlich potenzieller Missbrauchsrisiken wie Identitätsdiebstahl gibt. VALL-E wird in der Lage sein, Stimm-Deepfakes zu erstellen, die nicht von echten Menschen zu unterscheiden sind und die dazu verwendet werden könnten, Menschen in vielen Fällen und auf viele Arten zu täuschen.
Um dieser Bedrohung entgegenzuwirken, wurde im VALL-E-Präsentationsdokument (Ich verlinke es hier) Microsoft sagt, dass es an der Entwicklung eines Erkennungsmodells arbeitet, das eine echte Stimme von einer synthetischen Stimme unterscheiden kann.
Trotz der (großen) Risiken könnten Tools wie VALL-E jedoch besonders nützlich sein, um Menschen nach einem Unfall dabei zu helfen, ihre Stimme wiederzufinden, mühelos natürlichere Podcasts und Hörbücher zu erstellen und ... wie immer sind Ihrer Fantasie keine Grenzen gesetzt.