Voice Engine, OpenAI klont eine Stimme mit nur 15 Sekunden Audio

30. März 2024

Technologie

Die eigene Stimme übersetzen, Patienten Sprache zurückgeben, Hörbücher mit ausdrucksstarken Stimmen erstellen: Das sind einige der Versprechen der Voice Engine von OpenAI. Der Weg zu einer groß angelegten Einführung führt jedoch über eine ethische und regulatorische Reflexion synthetischer Stimmen.

„Das ist meine Stimme. Oder zumindest war es so. Jetzt gehört es auch zu einem Algorithmus, der mich dazu bringen kann, Dinge zu sagen, die ich nie gesagt habe.“. Der Beginn eines Science-Fiction-Romans? Nein. Das Szenario, das sich mit der Verbreitung synthetischer Gerüchte abzeichnet. Technologien, die in der Lage sind, unsere Stimmen ausgehend von wenigen Audiobeispielen zu klonen, wie z Sprachmaschine von OpenAI. Ein ehrgeiziges Projekt, gerade vorgestellt, das verspricht, Bereiche wie Unterhaltung, Bildung und Gesundheitswesen zu revolutionieren. Aber es wirft auch beunruhigende Fragen über die Kontrolle unserer Identität im Zeitalter der künstlichen Intelligenz auf.

Die Präsentation von Voice Engine auf dem offiziellen Blog von OpenAI.

Gestohlene Stimmen im digitalen Äther

In Zukunft wird Ihre Stimme nicht mehr Ihnen gehören. Es wird eine Welt sein, in der jeder Sie mit ein paar Klicks dazu bringen kann, etwas zu sagen. Nie gesprochene Sätze, nie geäußerte Meinungen, nie gelüftete Geheimnisse. Ein dystopischer Albtraum, der mit dem Vormarsch synthetischer Stimmen am Horizont auftaucht.

Wohlgemerkt, die Möglichkeit von künstliche Stimmen erzeugen es ist nichts neues. Seit Jahrzehnten gibt es Software, die Text in Sprache umwandeln kann, mit mehr oder weniger mechanischen und unangenehmen Ergebnissen. Doch die neuen Grenzen der KI versprechen, die Spielregeln zu ändern. Immer ausgefeiltere Algorithmen, die auf riesigen Datensätzen und neuronalen Netzen basieren, lernen, die subtilen Nuancen der menschlichen Sprache zu imitieren und nähern sich der Perfektion. Klangfarbe, Intonation, Rhythmus, Pausen: Alle Elemente, die eine Stimme einzigartig und erkennbar machen, sind jetzt für Maschinen erreichbar.

Voice Engine von OpenAI ist die neueste Inkarnation dieses Trends. Ein Model ist in der Lage, bereits ab einem sehr kurzen Audiobeispiel von nur 15 Sekunden realistische und natürliche Stimmen zu erzeugen. Ein kleines Wunder (oder ein kleiner Horror, je nach Sichtweise), das Szenarien eröffnet, die bis vor Kurzem noch Science-Fiction waren.

Voice Engine: Vokalsymphonien oder künstliche Kakophonien?

Die möglichen Einsatzgebiete sind vielfältig und faszinierend. Denken Sie an die Unterhaltungsindustrie: Mit synthetischen Stimmen könnten Schauspieler Figuren in Animationsfilmen oder Videospielen ihre Stimme leihen, ohne stundenlang im Aufnahmestudio zu verbringen. Synchronsprecher arbeiten möglicherweise in Sprachen, die sie nicht beherrschen, und verlassen sich dabei auf maschinelle Übersetzung. Hörbücher könnten mit ausdrucksstarken und einnehmenden Stimmen erzählt werden, die eine Vielzahl von Akzenten und Stilen repräsentieren.

Und wie sieht es mit der Gesundheitsversorgung aus? Dank Tools wie Voice Engine können Patienten mit Sprach- oder Phonationsproblemen eine natürliche und personalisierte Stimme finden. Wer blind ist oder Leseschwierigkeiten hat, könnte leichter auf in Audio umgewandelte Textinhalte zugreifen. Sprachbarrieren könnten abgebaut werden, mit Sprachassistenten, die in der Lage wären, jede Sprache fließend zu sprechen.

Ganz zu schweigen vom Bildungspotenzial: Lernen Sie eine Fremdsprache, indem Sie mit einer synthetischen, aber realistischen Stimme sprechen, erhalten Sie korrigierendes Feedback von einem virtuellen Tutor mit Ihrer eigenen Stimme, erstellen Sie anpassbare mehrsprachige Lerninhalte. Die Möglichkeiten sind endlos und verlockend.

Aber jede Medaille hat ihre Kehrseite.

Stimmidentitäten in der Deepfake-Ära

Das erste und offensichtlichste Risiko besteht in Fehlinformationen und Manipulation. Mit Tools wie Voice Engine für Audio und Sora für das Video, könnte jeder gefälschte, aber glaubwürdige Clips von Persönlichkeiten des öffentlichen Lebens oder Privatpersonen erstellen. Gefälschte politische Reden, erfundene Aussagen, erpresste Geständnisse: Fake News würden in synthetischen Stimmen einen gewaltigen Verbündeten finden. In einer Zeit, die bereits von Misstrauen gegenüber Medien und Institutionen geprägt ist, ist die Aussicht, nicht einmal mehr dem vertrauen zu können, was wir mit unseren eigenen Ohren hören, erschreckend.

Dann gibt es noch die Frage der Privatsphäre und der Kontrolle über die eigenen biometrischen Daten. Unsere Stimme ist ein charakteristisches Merkmal unserer Identität, wie Fingerabdrücke oder die Netzhaut. Aber im Gegensatz zu anderen biometrischen Daten sind sie ohne unser Wissen relativ einfach zu erfassen und zu reproduzieren. Ein paar Sekunden gestohlener Aufzeichnung, vielleicht von einem Telefonanruf oder einem öffentlichen Video, reichen aus, um einen Algorithmus wie Voice Engine zu versorgen. Und voilà, unsere Stimme gehört nicht mehr uns. Es kann genutzt, missbraucht und dekontextualisiert werden, ohne dass wir viel dagegen tun können.

Allerdings ist sich OpenAI dieser Risiken bewusst und versucht, ihnen mit einem verantwortungsvollen Ansatz zu begegnen. Partner, die Voice Engine testen, müssen sich an strenge ethische Richtlinien halten: Nein zur Nachahmung realer Menschen ohne Zustimmung, Ja zur ausdrücklichen Erlaubnis von Stimmspendern, maximale Transparenz über die künstliche Natur synthetischer Stimmen. Sie sind Schritte in die richtige Richtung, lösen aber nicht die Wurzel des Problems.

Denn letztlich ist das Problem philosophischer Natur, noch bevor es technologisch ist. Es geht um unsere Beziehung zur Stimme als Ausdruck des Selbst, als Zeichen der Authentizität in einer zunehmend vermittelten und künstlichen Welt. Es geht um den Wert, den wir der individuellen Einzigartigkeit und Autonomie beimessen, und um die Angst, sie im verschwommenen Meer aus Deepfakes und fließenden Identitäten auflösen zu sehen.

Voice Engine: Hat die Zukunft (noch) eine Stimme?

Angesichts dieser Fragen könnte die Versuchung darin bestehen, lüstern zu verweigern: synthetische Stimmen zum Schweigen bringen, sie als „perverse“ Technologie betrachten, Zuflucht in der vermeintlichen Reinheit „natürlicher“ Stimmen suchen. Aber es wäre eine kurzsichtige und kontraproduktive Reaktion. Synthetische Stimmen sind wie jede Technologie an sich weder gut noch schlecht: Es kommt darauf an, wie wir sie nutzen.

Die Herausforderung besteht also darin, einen ethischen und regulatorischen Rahmen zu schaffen, der die Entwicklung auf das Gemeinwohl ausrichtet. Definieren Sie gemeinsame Standards und Protokolle für die Erfassung und Nutzung von Sprachdaten. Sensibilisierung der Bürger für die Risiken und Chancen synthetischer Stimmen und Bereitstellung wichtiger Orientierungshilfen. Investieren Sie in die Erforschung zuverlässiger Methoden zur Authentifizierung von Stimmen und zur Rückverfolgung der Herkunft von Audioinhalten. Fördern Sie eine offene und informierte öffentliche Debatte zu diesen Themen, an der alle Beteiligten beteiligt sind.

Es wird keine einfache oder kurze Reise sein. Es erfordert Vision, Entschlossenheit und den Geist der Zusammenarbeit. Aber es ist ein notwendiger Weg, denn es geht hier nicht nur um die Technologie. Es ist existenziell. Es geht um die eigentliche Bedeutung unserer Individualität in einer Welt, in der die Grenzen zwischen real und virtuell, zwischen authentisch und künstlich immer verschwimmender und durchlässiger werden.

Eine Welt, in der unsere Stimme, der Klangspiegel unserer Seele, Gefahr läuft, in einem Wirbel synthetischer Echos verloren zu gehen.

Gianluca Riccio, Kreativdirektorin von Melancia adv, Texterin und Journalistin. Es ist Teil des italienischen Instituts für Zukunft, der World Future Society und H+. Seit 2006 leitet er Futuroprossimo.it, die italienische Ressource für Zukunftsforschung.

Um über Forschungen, Entdeckungen und Erfindungen zu berichten, Kontaktieren Sie die Redaktion! Folgen Sie Futuro Prossimo auf WhatsApp: exklusive Neuigkeiten und Updates (kostenlos).

FP über Fatto Quotidiano
Alberto Robiati und Gianluca Riccio führen die Leser durch Zukunftsszenarien: die Chancen, Risiken und Möglichkeiten, die wir haben, um ein mögliches Morgen zu schaffen.

Zum gleichen Thema:

Das Letzte

Voice Engine, OpenAI klont eine Stimme mit nur 15 Sekunden Audio

Technologie

Teilen

Gestohlene Stimmen im digitalen Äther

Voice Engine: Vokalsymphonien oder künstliche Kakophonien?

Stimmidentitäten in der Deepfake-Ära

Voice Engine: Hat die Zukunft (noch) eine Stimme?

Arthrose: AI-Bluttest schlägt Röntgenstrahlen und sagt sie 10 Jahre früher voraus

Ich entführe Sie in die Zukunft der „automatisierten“ und KI-generierten Unterhaltung

Wie KI das Potenzial von Schülern mit Legasthenie und ADHS freisetzen wird

Können wir die Lichtgeschwindigkeit wirklich nicht überschreiten?

Die Energiewende wird die Weltwirtschaft zerstören. Oder nicht?

Nur 125 kg, keine Kupplung: Mit DAB 1α geht das Elektromotorrad neue Maßstäbe

Sie hat Karriere, er arbeitet klug: Das Aufkommen des „entfernten Ehemanns“

Apophis, 5 Jahre bis heute: Alle planen, es genau zu studieren

1 Kommentar zu „Voice Engine, OpenAI klont eine Stimme mit nur 15 Sekunden Audio“