Wissen Sie, künstliche Intelligenz ist das Thema dieser Monate: Sie hat gerade eine Explosion begonnen, die uns erst in den nächsten Jahren all ihre Auswirkungen zeigen wird.
Auf den Segeln dieser Technologie liegt auch der Atem von Microsoft: Es hat kürzlich KI verwendet, um die Funktionalität seiner Apps zu verbessern, und jetzt könnte es bis zu 10 Milliarden Dollar in OpenAI, den Schöpfer von ChatGPT, investieren. Aber heute erfahre ich von einem anderen Microsoft-Projekt, SENKE, was unglaublich ist.
Dieses hochmoderne Tool wurde mit einer riesigen Menge an Sprachdaten trainiert, über 60.000 Stunden Englisch sprechen. Ein Datensatz, der nach Angaben des Unternehmens aus Redmond „hundertmal größer als bestehende Systeme“ ist. Inbegriffen die fortgeschritteneren.
Und was hat VALL-E gelernt? Nichts, eine Kleinigkeit. Es reproduziert und imitiert jede Stimme perfekt, nachdem es nur drei Sekunden lang angehört wurde.

Ein Sprachreplikator?
Es ist nicht nur das. VALL-E ist eine echte Revolution im Bereich der vokalen künstlichen Intelligenz. Weil es die in einem bestimmten Sample vorhandenen Emotionen, Stimmtöne und die akustische Umgebung mit außergewöhnlicher Präzision reproduziert und im Vergleich zu bestehenden Text-to-Speech-Systemen (TTS) einen riesigen Sprung nach vorne darstellt. Mit anderen Worten, die Stimme von VALL-E klingt viel mehr nach der eines Menschen als nach der einer künstlichen Intelligenz.
Auf seinem Linkedin-Profil (Besuche es), der digitale Stratege Alberto Giacobone Links zu einer kleinen Bibliothek mit Vocal-Samples, erstellt von VALL-E e online stellen auf der GitHub-Plattform. Die Ergebnisse sind verblüffend: Viele der Clips geben die Intonation und den Akzent der Sprecherstimmen perfekt wieder.
Einige Beispiele sind weniger überzeugend, und dies zeigt, dass VALL-E noch kein fertiges Produkt ist. Die Gesamtleistung ist jedoch so überzeugend, dass sie uns umhaut.
Große Risiken, großes Potenzial
Es liegt auf der Hand, dass diese Technologie Anlass zur Sorge hinsichtlich potenzieller Missbrauchsrisiken wie Identitätsdiebstahl gibt. VALL-E wird in der Lage sein, Stimm-Deepfakes zu erstellen, die nicht von echten Menschen zu unterscheiden sind und die dazu verwendet werden könnten, Menschen in vielen Fällen und auf viele Arten zu täuschen.
Um dieser Bedrohung entgegenzuwirken, wurde im VALL-E-Präsentationsdokument (Ich verlinke es hier) Microsoft sagt, dass es an der Entwicklung eines Erkennungsmodells arbeitet, das eine echte Stimme von einer synthetischen Stimme unterscheiden kann.
Trotz der (großen) Risiken könnten Tools wie VALL-E jedoch besonders nützlich sein, um Menschen nach einem Unfall dabei zu helfen, ihre Stimme wiederzufinden, mühelos natürlichere Podcasts und Hörbücher zu erstellen und … wie immer sind der Fantasie keine Grenzen gesetzt.