Künstliche Intelligenz und Algorithmen für maschinelles Lernen, die Lippen aus Videos lesen können, sind eigentlich nichts Außergewöhnliches.
Im Jahr 2016 stellten Forscher von Google und der University of Oxford ein System vor, das in der Lage ist, Filme mit einer Genauigkeit von 46,8 % von den Lippen zu lesen und zu kommentieren. Kommt es Ihnen wenig vor? Es übertraf bereits die Genauigkeit von 12,4 % eines professionellen menschlichen Lippenlesers. Und es gab noch keine LIBS.
46,8 % sind jedoch nicht auf der Höhe der Fähigkeiten, die künstliche Intelligenz heute vorweisen kann. Modernste Systeme haben Schwierigkeiten, Mehrdeutigkeiten in Lippenbewegungen zu überwinden, was verhindert, dass ihre Leistung die der audiobasierten Spracherkennung übertrifft.
Auf der Suche nach einem leistungsfähigeren System suchen Forscher aus Alibaba, Zhejiang University und Stevens Institute of Technology Sie entwickelten eine Methode, die synchronisiert wurde Lippe durch Sprache (LIBS), das aus Spracherkennungen extrahierte Merkmale verwendet, um als ergänzende Hinweise zu dienen. Das System legt die Messlatte um weitere 8 % höher und kann sich noch verbessern.
LIBS und andere ähnliche Lösungen können hörgeschädigten Menschen helfen, Videos ohne Untertitel zu folgen. Es wird geschätzt, dass weltweit 466 Millionen Menschen an Hörverlust leiden, was etwa 5 % der Weltbevölkerung entspricht. Bis 2050 könnte die Zahl laut Weltgesundheitsorganisation auf über 900 Millionen steigen.

Die AI-Methode zum Lesen der Lippe
LIBS leitet nützliche Audioinformationen aus mehreren Faktoren ab: Wie ein erfahrener Kryptograf jagt die KI nach verständlichen Wörtern. An diesem Punkt vergleicht er sie mit der Entsprechung zur Lippe und macht sich auf die Suche nach allen ähnlich labilen. Aber es hört hier nicht auf: Es vergleicht auch die Videofrequenz dieser Frames und andere technische Hinweise und verfeinert die Suche, um die Lippen sogar in Worten zu lesen, die für unser Ohr unverständlich sind.
Wenn es kompliziert erscheint, versuchen Sie es erneut, aber ich verspreche nichts.
Ich zitiere aus Technologie-Präsentationspapier. „Sowohl die Spracherkennungs- als auch die LIBS-Lippenlesekomponenten basieren auf einer aufmerksamkeitsbasierten Sequenz-Sequenz-Architektur, einer Methode der maschinellen Übersetzung, die eine Eingabe einer Sequenz (Audio oder Video) zuordnet."
Die Forscher trainierten die KI auf einer ersten Datenbank mit über 45.000 von der BBC gesprochenen Sätzen und auf dem CMLR, dem größten chinesischen Korpus, das für das Lippenlesen in Mandarin-Chinesisch verfügbar ist, mit über 100.000 natürlichen Sätzen.
Die Einsatzgebiete beschränken sich nicht nur auf Hilfen für Gehörlose. Der Brauch, jeder Technologie einen „sozial noblen“ Nutzen zuzuschreiben, darf nie vergessen lassen, dass der Haupteinsatz dieser Technologien im Militär- oder Sicherheitsbereich liegt.
Niemand hat gedacht, dass dieses System die Überwachung der Sicherheit noch unfehlbarer und umfassender machen kann erstaunliche neue Überwachungskamerasoder neue Satellitensysteme?
Mit der KI wird nun ein allwissendes Auge es wird ein Witz sein zuzuhören (oder wieder aufbauen) unser Flüstern sogar von einem umlaufenden Satelliten.