KI- und maschinelle Lernalgorithmen können Aktionen in Videos immer besser vorhersagen.
Die besten aktuellen Algorithmen können ziemlich genau vorhersagen, wohin ein Baseball gehen wird, nachdem er geworfen wurde, oder wie eine Straße in der kommenden Sequenz erscheint. Mit anderen Worten? Frames in der Zukunft eines Films vorhersagen.
Ein neuer Ansatz, der von Forschern von Google, der University of Michigan und Adobe vorgeschlagen wurde, bringt den Stand der Technik mit großformatigen Modellen voran, die aus wenigen Einzelbildern qualitativ hochwertige Videos erzeugen.
"Mit diesem Projekt wollen wir präzise Videovorhersagen erhalten. Wir werden die Fähigkeiten eines neuronalen Netzes optimieren", Die Forscher schrieben in ein Dokument das beschreibt ihre Arbeit.
Das Teammodell
Das Kernmodell des Teams basiert auf einer stochastischen Videogenerierungsarchitektur, mit einer Komponente, die die Vorhersagen der Frames nach den betrachteten verwaltet.
Das Team trainierte und testete verschiedene Versionen des Modells getrennt von benutzerdefinierten Datensätzen basierend auf drei Prognosekategorien: Interaktionen zwischen Objekten, strukturierte Bewegung und teilweise Beobachtbarkeit.
Für die erste Aufgabe (Interaktionen mit Objekten) Die Forscher wählten 256 Clips aus einem Videoblock aus, der einen Roboterarm bei der Interaktion mit Handtüchern zeigt.
Zum zweiten (strukturierte Bewegung) Sie bearbeiteten Clips aus Human 3.6M, einem Block mit Clips von Menschen, die Aktionen wie das Sitzen auf einem Stuhl ausführen.
Wie für den dritten (teilweise Beobachtbarkeitsaktivität), verwendete einen Open-Source-KITTI-Fahrdatensatz, der aus Filmmaterial von Kameras auf Auto-Armaturenbrettern zusammengestellt wurde.
Nach diesem „Training“ generiert das KI-Modell künftig bis zu 25 Frames.
Forscher berichten, dass „Vorhersagen“ in 90,2, 98,7 % bzw. 99,3 % der Fälle von den Bewertern den drei Arten von Videos vorgezogen wurden: Objektinteraktionen, strukturierte Bewegung bzw. teilweise Beobachtbarkeitsaufgaben.
Qualitativ stellt das Team fest, dass die KI menschliche Arme und Beine knackig dargestellt hat und fertig ist "sehr genaue Vorhersagen, die im Vergleich zu den im Video dargestellten Szenen realistisch erschienen" .




„Wir haben festgestellt, dass die Maximierung der Kapazität solcher Modelle die Qualität der Videovorhersage verbessert“, Mitautoren schreiben. Wir hoffen, dass unsere Arbeit das Feld ermutigen wird, sich in Zukunft in ähnliche Richtungen zu bewegen. Zum Beispiel um zu sehen, wie weit wir gehen können“.