AudioLM, das von den Google-Forschern entwickelte System, erzeugt alle Arten von Klängen, einschließlich komplexer Klänge wie Klaviermusik in einem Lied oder Menschen, die sich unterhalten, und die kaum von dem ursprünglichen Fragment zu unterscheiden sind, das ihm übermittelt wird.
Die Technik ist wirklich vielversprechend und könnte in vielerlei Hinsicht nützlich sein. Es wird beispielsweise in der Lage sein, den Trainingsprozess für künstliche Intelligenz zu beschleunigen oder automatisch Musik zu Videos zu generieren. Aber es ist viel mehr als das.
Spiel es noch mal, Sam
Wir sind es bereits gewohnt, von künstlicher Intelligenz erzeugte Audiosignale zu hören. Wer täglich mit Alexa oder Google Nest streitet, weiß es: Unsere Sprachassistenten verarbeiten natürliche Sprache.
Gewiss, es gibt auch auf Musik trainierte Systeme: Erinnere dich Musikbox von OpenAI? Ich habe dir hier davon erzählt. Alle diese Systeme basieren jedoch auf einem langen und komplexen „Training“, das die Katalogisierung und Verwaltung vieler „Hinweise“ erfordert. Unsere künstlichen Intelligenzen sind datengierig und wollen immer mehr.
Der nächste Schritt besteht darin, die KI zum „Denken“ zu bringen, indem man ihr ermöglicht, die gehörten Informationen schneller zu verarbeiten, ohne dass eine lange Schulung erforderlich ist. Etwas Ähnliches wie wir es mit selbstfahrenden Systemen versuchen.
Wie AudioLM funktioniert
Um den Ton zu erzeugen, werden ein paar Sekunden Lied oder Ton in AudioLM eingespeist, das buchstäblich vorhersagt, was als nächstes kommt. Es ist kein Shazam, es sucht nicht nach dem gesamten Song und spielt ihn ab. Er macht keine Collagen aus Geräuschen, die er im Gedächtnis hat. Er baut sie. Der Vorgang ist ähnlich wie ich Sprachliche Modelle wie GPT-3 sagen sie Sätze und Wörter voraus.
Die vom Google-Team veröffentlichten Audioclips klingen sehr natürlich. Insbesondere die von AudioLM erzeugte Klaviermusik wirkt flüssiger als die, die mit aktuellen künstlichen Intelligenzen erzeugt wird. Mit anderen Worten, er ist besser darin, die Art und Weise einzufangen, wie wir einen Song oder einen Sound produzieren.
„Das ist wirklich beeindruckend, auch weil es darauf hinweist, dass diese Systeme eine Art mehrschichtige Struktur erlernen“, sagt er Roger Danenberg, ein Forscher für computergenerierte Musik an der Carnegie Mellon University.
Nicht nur ein Lied
Stellen Sie sich vor, Sie sprechen mit AudioLM, zwei Worte und das war’s. Das System setzt die Rede fort, indem es Ihren Rhythmus, Ihren Akzent, Ihre Pausen und sogar Ihre Atmung lernt. Zusammenfassend, genau Ihre Art zu sprechen. Es ist keine spezielle Schulung erforderlich: Er kann es fast alleine tun.
Wie ein Papagei, der die Dinge wiederholt, die Sie hören. Nur dies ist ein Papagei, der in der Lage ist, jeden Ton zu empfangen und zu produzieren und die in der Mitte verbleibenden autonom zu vervollständigen.
Zusammenfassend? Wir werden sehr bald (und in diesen Fällen bedeutet es sehr bald) Systeme haben, die in der Lage sind, viel natürlicher zu sprechen und einen Song zu komponieren oder genau so zu klingen Ab E2, MidjourneyAI und andere erstellen Bilder, oder Mach ein Video erstellt Clips basierend auf unseren Eingaben.
Wem gehören die Rechte an einem Song?
Selbst wenn diese Systeme in der Lage sein werden, Inhalte fast selbstständig zu erstellen, macht das „fast“ immer noch den entscheidenden Unterschied in der Welt und macht es notwendig, die ethischen Implikationen dieser Technologie zu berücksichtigen.
Wenn ich sage „Ding, mach mir ein anderes Ende für Bohemian Rhapsody“ und dieses Ding macht ein Lied in dieser Richtung, wer wird dann in der Lage sein, die Rechte zu beanspruchen und die Tantiemen für das Lied zu kassieren? Ganz zu schweigen von der Tatsache, dass Geräusche und Reden, die heute nicht mehr von menschlichen zu unterscheiden sind, viel überzeugender sind und eine beispiellose Verbreitung von Fehlinformationen ermöglichen.
In dem zur Vorstellung dieser KI veröffentlichten Dokument (Ich verlinke es hier), schreiben die Forscher, dass sie bereits darüber nachdenken, wie diese Probleme gemildert werden können, indem Wege eingefügt werden, um natürliche Klänge von denen zu unterscheiden, die mit AudioLM erzeugt werden. Ich glaube wenig. Viele der Zwecke, für die diese KI geschaffen wurde, würden verloren gehen.
Generell besteht die Gefahr, dass ein Phänomen entsteht, das ich als „Misstrauen gegenüber der Realität“ bezeichnen würde. Wenn alles wahr sein kann, kann nichts wahr sein. Nichts hat Wert.