VALL-E, die KI von Microsoft, die Ihre Stimme in 3 Sekunden „stiehlt“.

10. Januar 2023

Technologie

Das neue künstliche Intelligenzsystem reproduziert eine menschliche Stimme ab einigen Sekunden Audio. Großes Potenzial (und große Risiken).

Wissen Sie, künstliche Intelligenz ist das Thema dieser Monate: Eine Explosion hat gerade erst begonnen, deren Auswirkungen sich uns erst in den nächsten Jahren zeigen werden.

Auch Microsoft steckt hinter den Segeln dieser Technologie: Das Unternehmen nutzte kürzlich KI, um die Funktionalität seiner Apps zu verbessern, und könnte nun bis zu 10 Milliarden Dollar in OpenAI investieren, das Unternehmen, das ChatGPT entwickelt hat. Heute höre ich jedoch von einem anderen Microsoft-Projekt, SENKE, was unglaublich ist.

Dieses hochmoderne Tool wurde anhand einer riesigen Menge an Sprachdaten und über 60.000 Stunden Englischunterricht trainiert. Ein Datensatz, der ihn nach Angaben des Redmonder Unternehmens „hundertmal größer macht als bestehende Systeme“. Inbegriffen die fortgeschritteneren.

Und was hat VALL-E gelernt? Nichts, eine Kleinigkeit. Es reproduziert und imitiert jede Stimme perfekt, nachdem es nur drei Sekunden lang angehört wurde.

KI-Stimme — VALL-E, das heißt: 3 Sekunden und sie klonen deine Stimme.

Ein Sprachreplikator?

Es ist nicht nur das. VALL-E ist eine echte Revolution auf dem Gebiet der künstlichen Stimmintelligenz. Denn es reproduziert mit außergewöhnlicher Präzision die Emotionen, Stimmtöne und die akustische Umgebung einer bestimmten Probe und stellt einen riesigen Fortschritt im Vergleich zu bestehenden Text-to-Speech-Systemen (TTS) dar. Mit anderen Worten: Die Stimme von VALL-E klingt viel mehr nach der eines Menschen als nach der einer künstlichen Intelligenz.

Auf seinem Linkedin-Profil (Besuche es), der digitale Stratege Alberto Giacobone Links zu einer kleinen Bibliothek mit Vocal-Samples, erstellt von VALL-E e online stellen auf der GitHub-Plattform. Das Ergebnis ist überraschend: In vielen Clips werden Intonation und Akzentuierung der Stimmen der Sprecher perfekt wiedergegeben.

Einige Beispiele sind weniger überzeugend und das zeigt, dass VALL-E noch kein fertiges Produkt ist. Das Gesamtergebnis ist jedoch so überzeugend, dass es uns sprachlos macht.

Ein Beispiel für die ersten Ergebnisse von VALL-E. Oben das Original-Hörbeispiel. Unten die „geklonte“ Stimme.

Große Risiken, großes Potenzial

Es liegt auf der Hand, dass diese Technologie Anlass zur Sorge hinsichtlich potenzieller Missbrauchsrisiken wie Identitätsdiebstahl gibt. VALL-E wird in der Lage sein, Stimm-Deepfakes zu erstellen, die nicht von echten Menschen zu unterscheiden sind und die dazu verwendet werden könnten, Menschen in vielen Fällen und auf viele Arten zu täuschen.

Um dieser Bedrohung entgegenzuwirken, wurde im VALL-E-Präsentationsdokument (Ich verlinke es hier) Microsoft sagt, dass es an der Entwicklung eines Erkennungsmodells arbeitet, das eine echte Stimme von einer synthetischen Stimme unterscheiden kann.

Trotz der (großen) Risiken könnten Tools wie VALL-E jedoch besonders nützlich sein, um Menschen nach einem Unfall dabei zu helfen, ihre Stimme wiederzufinden, mühelos natürlichere Podcasts und Hörbücher zu erstellen und ... wie immer sind Ihrer Fantasie keine Grenzen gesetzt.

Gianluca Riccio, Kreativdirektorin von Melancia adv, Texterin und Journalistin. Es ist Teil des italienischen Instituts für Zukunft, der World Future Society und H+. Seit 2006 leitet er Futuroprossimo.it, die italienische Ressource für Zukunftsforschung.

Um über Forschungen, Entdeckungen und Erfindungen zu berichten, Kontaktieren Sie die Redaktion! Folgen Sie Futuro Prossimo auf WhatsApp: exklusive Neuigkeiten und Updates (kostenlos).

FP über Fatto Quotidiano
Alberto Robiati und Gianluca Riccio führen die Leser durch Zukunftsszenarien: die Chancen, Risiken und Möglichkeiten, die wir haben, um ein mögliches Morgen zu schaffen.

Zum gleichen Thema:

Das Letzte

VALL-E, die KI von Microsoft, die Ihre Stimme in 3 Sekunden „stiehlt“.

Technologie

Teilen

Wissen Sie, künstliche Intelligenz ist das Thema dieser Monate: Eine Explosion hat gerade erst begonnen, deren Auswirkungen sich uns erst in den nächsten Jahren zeigen werden.

Ein Sprachreplikator?

Große Risiken, großes Potenzial

Orwell Supermarkt: Einkaufen mit Gesichtserkennung muss neu gedacht werden

VASA-1, die KI von Microsoft, erstellt aus nur einem Foto superrealistische Charaktere

Amodei, Anthropic: „KI wird bald in der Lage sein, sich autonom zu replizieren und zu überleben“

Overtourism: Ist der Eintrittspreis für Venedig die Zukunft der Kunststädte?

Batterierecycling 2.0, der Grabstein zum Thema „Elektroauto ja oder nein?“

Synthetisch, aber lebendig: Zellen, die die Grenze zwischen künstlich und biologisch herausfordern

Deutschland, vor einem Jahr haben wir uns von der Atomkraft verabschiedet: Warum sie nicht zurückkehren werden

Herculaneum enthüllt Platons Geheimnisse: Sein Ende wird rekonstruiert