KI- und maschinelle Lernalgorithmen können Aktionen in Videos immer besser vorhersagen.
Die besten aktuellen Algorithmen können ziemlich genau vorhersagen, wohin ein Baseball gehen wird, nachdem er geworfen wurde, oder wie eine Straße in der kommenden Sequenz erscheint. Mit anderen Worten? Frames in der Zukunft eines Films vorhersagen.
Ein neuer Ansatz von Forschern von Google, der University of Michigan und Adobe erweitert den Stand der Technik um großformatige Modelle Skalieren Sie das Sie generieren aus nur wenigen Bildern hochwertige Videos.
„Mit diesem Projekt wollen wir genaue Videovorhersagen erhalten. Wir werden die Fähigkeiten eines neuronalen Netzwerks optimieren ", Die Forscher schrieben in ein Dokument das beschreibt ihre Arbeit.
Das Teammodell
Das Kernmodell des Teams basiert auf einer stochastischen Videoerzeugungsarchitektur. mit einer Komponente, die die Vorhersagen der Frames nach den betrachteten verwaltet.
Das Team trainierte und testete verschiedene Versionen des Modells separat anhand benutzerdefinierter Datensätze basierend auf drei Prognosekategorien: Interaktionen zwischen Objekten, strukturierte Bewegung und teilweise Beobachtbarkeit.
Für die erste Aufgabe (Interaktionen mit Objekten) Die Forscher wählten 256 Clips aus einem Block aus von Videos, die Sie zeigten einen Roboterarm, der mit Handtüchern interagierte.
Zum zweiten (strukturierte Bewegung) sie untersuchten Clips von Human 3.6M, ein Block mit Clips von Menschen, die Sie führen Aktionen wie das Sitzen auf einem Stuhl aus.
Wie für den dritten (teilweise Beobachtbarkeitsaktivität), sie benutzten a Datensatz KITTI Open-Source-Fahrdaten, gesammelt aus Filmmaterial von Kameras, die auf dem Armaturenbrett von Autos montiert sind.
Nach diesem "Training" erzeugte das KI-Modell in Zukunft bis zu 25 Frames.
Die Forscher berichten, dass „Vorhersagen“ in 90,2 %, 98,7 % bzw. 99,3 % der Fälle von den Bewertern gegenüber den drei Arten von Videos bevorzugt wurden: Objektinteraktionen, Bewegung strukturiert bzw. Teilbeobachtbarkeitsaufgaben.
Qualitativ stellt das Team fest, dass die KI eindeutig Waffen und dargestellt hat menschliche Beine es ist fertig "Sehr genaue Vorhersagen, die im Vergleich zu den im Video dargestellten Szenen realistisch erschienen" .
"Wir haben festgestellt, dass die Maximierung der Kapazität solcher Modelle die Qualität der Videovorhersage verbessert." Mitautoren schreiben. Wir hoffen, dass unsere Arbeit das Feld ermutigen wird, sich in Zukunft in ähnliche Richtungen zu bewegen. Zum Beispiel, um zu sehen, wie weit wir gehen können. “