Können Sie sich eine graue Katze vorstellen? Gut. Stellen Sie sich ihn jetzt mit weißem Fell vor. Stellen Sie sich nun vor, er geht auf der Chinesischen Mauer. Erledigt? Hier erzeugte in diesen Momenten eine schnelle Reihe neuronaler Aktivierungen in Ihrem Gehirn Variationen des präsentierten Bildes, basierend auf Ihrem bisherigen Wissen über die Welt.
Für uns Menschen leicht vorstellbar. Für eine künstliche Intelligenz ist das jedoch eine ganz andere Geschichte. Trotz der Fortschritte bei neuronalen Netzen, die bei bestimmten Aktivitäten der menschlichen Leistung entsprechen oder diese übertreffen, sind Computer noch weit von der menschlichen Fähigkeit entfernt, sich Dinge vorzustellen.
Sich vorstellen? Unmöglich für eine KI. Zumindest bis gestern.
Jetzt hat ein USC-Forschungsteam künstliche Intelligenz entwickelt, die menschenähnliche Fähigkeiten nutzt, um sich ein noch nie dagewesenes Objekt mit unterschiedlichen Attributen vorzustellen. Das Dokument mit dem Titel "Zero-Shot Synthesis with Group-Supervised Learning", wurde im Mai veröffentlicht, und seither floriert die Kollateralforschung.
„Wir haben uns von menschlichen Fähigkeiten zur visuellen Verallgemeinerung inspirieren lassen, um zu versuchen, die menschliche Vorstellungskraft in Maschinen zu simulieren“, sagt Hauptautor der Studie. Yunhao Ge. „Der Mensch kann sein erlerntes Wissen nach Attributen wie Form, Pose, Position, Farbe trennen und es dann neu kombinieren, um sich ein neues Objekt vorzustellen. Unser Artikel versucht diesen Vorgang mit neuronalen Netzen zu simulieren.
Das Problem der Verallgemeinerung der Künstlichen Intelligenz
Angenommen, wir möchten ein System mit künstlicher Intelligenz entwickeln, das Bilder von Autos generiert. Zunächst stellen wir dem Algorithmus einige Bilder eines Autos zur Verfügung. Die Aufgabe wäre es, viele Arten von Autos in jeder Farbe aus mehreren Blickwinkeln zu generieren. Dies ist eine ernsthafte Herausforderung: Erstellen neuronaler Netze, die in der Lage sind, die zugrunde liegenden Regeln zu extrahieren und sie auf eine Vielzahl neuer, noch nie dagewesener Beispiele anzuwenden. Heutzutage werden Netzwerke jedoch anhand von Stichprobenmerkmalen trainiert, ohne die Attribute eines Objekts zu berücksichtigen.
In dieser neuen Studie versuchten die Forscher, diese Einschränkung zu überwinden.
Das Geheimnis? Es heißt entwirren
Die Arbeit des Forschungsteams basierte auf der Anwendung einer Methode namens Entwirrung. Entwirrung kann verwendet werden, um Deepfake, zum Beispiel das Synthetisieren neuer Bilder und Videos, die die Identität einer Person durch eine andere Person ersetzen, aber die ursprüngliche Bewegung beibehalten.
Der neue Ansatz verwendet eine Gruppe von Beispielbildern, nicht eine Probe nach der anderen wie bei herkömmlichen Algorithmen. Dd extrahiert die Ähnlichkeit zwischen ihnen, um etwas zu erhalten, das als "kontrollierbares unverwirrtes Repräsentationslernen" bezeichnet wird.
Dann kombiniert es dieses Wissen, um eine "neue kontrollierbare Synthese von Bildern" zu erhalten. Wir könnten das Verb "vorstellen" verwenden.
Es ist ein sehr ähnlicher Prozess wie wir Menschen extrapolieren: Wenn ein Mensch die Farbe eines Objekts sieht, können wir sie leicht auf jedes andere Objekt anwenden, indem wir die ursprüngliche Farbe durch die neue ersetzen. Mit der Entwirrungstechnik generierte das Team einen neuen Datensatz mit 1,56 Millionen Bildern, der die zukünftige Forschung auf diesem Gebiet unterstützen könnte.
Vorstellen hilft, die Welt zu verstehen
Obwohl das Entwirren keine neue Idee ist, sagen die Forscher, dass ihre Struktur mit fast jeder Art von Daten oder Wissen kompatibel sein kann. Dies erweitert die Möglichkeiten für Bewerbungen.
Auf dem Gebiet der Medizin könnte das Entwirren beispielsweise Ärzten und Biologen helfen, nützlichere Medikamente zu entdecken, indem sie die medizinische Funktion von anderen Eigenschaften trennen und sie dann neu kombinieren, um neue Medikamente zu synthetisieren. Maschinen „imaginieren“ zu lassen, könnte auch dazu beitragen, eine sicherere künstliche Intelligenz zu schaffen. Zum Beispiel, um es autonomen Fahrzeugen zu ermöglichen, sich während des Trainings nie zuvor gesehene gefährliche Szenarien vorzustellen und zu vermeiden.
„Deep Learning hat bereits in vielen Bereichen unübertroffene Leistung und Versprechen bewiesen. Dies geschah jedoch zu oft durch oberflächliche Mimikry und ohne ein tieferes Verständnis der einzelnen Attribute, die jedes Objekt einzigartig machen“, sagte Laurent Itti, Professor für Informatik. "Dieser neue Entwirrungsansatz entfesselt zum ersten Mal wirklich eine neue Vorstellungskraft in KI-Systemen und bringt sie dem menschlichen Verständnis der Welt näher."