AudioLM, die KI von Google, hört sich ein Fragment eines Liedes an und vervollständigt es

8. Oktober 2022

Technologie

Ein neues KI-System ist in der Lage, Musik (und Wörter) aus Klängen zu erstellen, nachdem man sich einige Sekunden Audio oder Lied angehört hat

AudioLM, das von den Google-Forschern entwickelte System, erzeugt alle Arten von Klängen, einschließlich komplexer Klänge wie Klaviermusik in einem Lied oder Menschen, die sich unterhalten, und die kaum von dem ursprünglichen Fragment zu unterscheiden sind, das ihm übermittelt wird.

Die Technik ist wirklich vielversprechend und könnte in vielerlei Hinsicht nützlich sein. Es wird beispielsweise in der Lage sein, den Trainingsprozess für künstliche Intelligenz zu beschleunigen oder automatisch Musik zu Videos zu generieren. Aber es ist viel mehr als das.

Spiel es noch mal, Sam

Wir sind es bereits gewohnt, von künstlicher Intelligenz erzeugte Audiosignale zu hören. Wer täglich mit Alexa oder Google Nest streitet, weiß es: Unsere Sprachassistenten verarbeiten natürliche Sprache.

Gewiss, es gibt auch auf Musik trainierte Systeme: Erinnere dich Musikbox von OpenAI? Ich habe dir hier davon erzählt. Alle diese Systeme basieren jedoch auf einem langen und komplexen „Training“, das die Katalogisierung und Verwaltung vieler „Hinweise“ erfordert. Unsere künstlichen Intelligenzen sind datengierig und wollen immer mehr.

Der nächste Schritt besteht darin, die KI zum „Denken“ zu bringen, indem man ihr ermöglicht, die gehörten Informationen schneller zu verarbeiten, ohne dass eine lange Schulung erforderlich ist. Etwas Ähnliches wie wir es mit selbstfahrenden Systemen versuchen.

Wie AudioLM funktioniert

Um den Ton zu erzeugen, werden ein paar Sekunden Lied oder Ton in AudioLM eingespeist, das buchstäblich vorhersagt, was als nächstes kommt. Es ist kein Shazam, es sucht nicht nach dem gesamten Song und spielt ihn ab. Er macht keine Collagen aus Geräuschen, die er im Gedächtnis hat. Er baut sie. Der Vorgang ist ähnlich wie ich Sprachliche Modelle wie GPT-3 sagen sie Sätze und Wörter voraus.

Die vom Google-Team veröffentlichten Audioclips klingen sehr natürlich. Insbesondere die von AudioLM erzeugte Klaviermusik wirkt flüssiger als die, die mit aktuellen künstlichen Intelligenzen erzeugt wird. Mit anderen Worten, er ist besser darin, die Art und Weise einzufangen, wie wir einen Song oder einen Sound produzieren.

„Das ist wirklich beeindruckend, auch weil es darauf hinweist, dass diese Systeme eine Art mehrschichtige Struktur erlernen“, sagt er Roger Danenberg, ein Forscher für computergenerierte Musik an der Carnegie Mellon University.

Song oder Sound, die KI spielt alles — AudioLM verarbeitet und prognostiziert Klänge auf beispiellose Weise

Nicht nur ein Lied

Stellen Sie sich vor, Sie sprechen mit AudioLM, zwei Worte und das war’s. Das System setzt die Rede fort, indem es Ihren Rhythmus, Ihren Akzent, Ihre Pausen und sogar Ihre Atmung lernt. Zusammenfassend, genau Ihre Art zu sprechen. Es ist keine spezielle Schulung erforderlich: Er kann es fast alleine tun.

Wie ein Papagei, der die Dinge wiederholt, die Sie hören. Nur dies ist ein Papagei, der in der Lage ist, jeden Ton zu empfangen und zu produzieren und die in der Mitte verbleibenden autonom zu vervollständigen.

Zusammenfassend? Wir werden sehr bald (und in diesen Fällen bedeutet es sehr bald) Systeme haben, die in der Lage sind, viel natürlicher zu sprechen und einen Song zu komponieren oder genau so zu klingen Ab E2, MidjourneyAI und andere erstellen Bilder, oder Mach ein Video erstellt Clips basierend auf unseren Eingaben.

Wem gehören die Rechte an einem Song?

Selbst wenn diese Systeme in der Lage sein werden, Inhalte fast selbstständig zu erstellen, macht das „fast“ immer noch den entscheidenden Unterschied in der Welt und macht es notwendig, die ethischen Implikationen dieser Technologie zu berücksichtigen.

Wenn ich sage „Ding, mach mir ein anderes Ende für Bohemian Rhapsody“ und dieses Ding macht ein Lied in dieser Richtung, wer wird dann in der Lage sein, die Rechte zu beanspruchen und die Tantiemen für das Lied zu kassieren? Ganz zu schweigen von der Tatsache, dass Geräusche und Reden, die heute nicht mehr von menschlichen zu unterscheiden sind, viel überzeugender sind und eine beispiellose Verbreitung von Fehlinformationen ermöglichen.

In dem zur Vorstellung dieser KI veröffentlichten Dokument (Ich verlinke es hier), schreiben die Forscher, dass sie bereits darüber nachdenken, wie diese Probleme gemildert werden können, indem Wege eingefügt werden, um natürliche Klänge von denen zu unterscheiden, die mit AudioLM erzeugt werden. Ich glaube wenig. Viele der Zwecke, für die diese KI geschaffen wurde, würden verloren gehen.

Generell besteht die Gefahr, dass ein Phänomen entsteht, das ich als „Misstrauen gegenüber der Realität“ bezeichnen würde. Wenn alles wahr sein kann, kann nichts wahr sein. Nichts hat Wert.

Wir versuchen, unsere natürliche Intelligenz für diese Veränderungen zu trainieren und denken gleichzeitig darüber nach, wie künstliche Intelligenz sie bewirken kann. Wenn wir das nicht tun, bekommen wir ein Lied mit einem sehr bitteren Ende.

Gianluca Riccio, Kreativdirektorin von Melancia adv, Texterin und Journalistin. Es ist Teil des italienischen Instituts für Zukunft, der World Future Society und H+. Seit 2006 leitet er Futuroprossimo.it, die italienische Ressource für Zukunftsforschung.

Um über Forschungen, Entdeckungen und Erfindungen zu berichten, Kontaktieren Sie die Redaktion! Folgen Sie Futuro Prossimo auf WhatsApp: exklusive Neuigkeiten und Updates (kostenlos).

FP über Fatto Quotidiano
Alberto Robiati und Gianluca Riccio führen die Leser durch Zukunftsszenarien: die Chancen, Risiken und Möglichkeiten, die wir haben, um ein mögliches Morgen zu schaffen.

Zum gleichen Thema:

Das Letzte

AudioLM, die KI von Google, hört sich ein Fragment eines Liedes an und vervollständigt es

Technologie

Teilen

Spiel es noch mal, Sam

Wie AudioLM funktioniert

Nicht nur ein Lied

Wem gehören die Rechte an einem Song?

Wir versuchen, unsere natürliche Intelligenz für diese Veränderungen zu trainieren und denken gleichzeitig darüber nach, wie künstliche Intelligenz sie bewirken kann. Wenn wir das nicht tun, bekommen wir ein Lied mit einem sehr bitteren Ende.

Mysteriöse supermächtige KI erscheint und verschwindet sofort: Handelt es sich um einen GPT-5-Test?

Autonome Waffen, Wiener Konferenz: „Jetzt handeln, um die Menschheit zu schützen“

Arthrose: AI-Bluttest schlägt Röntgenstrahlen und sagt sie 10 Jahre früher voraus

Chinesische Atomkraftwerke im Südchinesischen Meer: Amerikas Albtraum

Mysteriöse supermächtige KI erscheint und verschwindet sofort: Handelt es sich um einen GPT-5-Test?

Vaulted Deep: Injizieren Sie organischen Abfall in den Boden, um CO2 einzufangen

99 % erneuerbare Energien und wilde Wälder: Was ist das Geheimnis von Costa Rica?

Umwelttechnischer Durchbruch: Kunststoff geschaffen, der sich dank spezieller Sporen selbst zerstört