Künstliche Intelligenz und Algorithmen für maschinelles Lernen, die Lippen aus Videos lesen können, sind eigentlich nichts Außergewöhnliches.
Im Jahr 2016 haben Forscher von Google und der Universität Oxford ein System entwickelt, mit dem die Lippen gelesen und die Videos mit einer Genauigkeit von 46,8% kommentiert werden können. Kommt es dir wenig vor? Es übertraf bereits die Genauigkeit von 12,4% eines professionellen menschlichen Lippenlesers. Und es gab noch keine LIBS.
46,8% entsprechen jedoch nicht den Fähigkeiten, die künstliche Intelligenz heute zeigen kann. Hochmoderne Systeme haben Schwierigkeiten, Unklarheiten bei Lippenbewegungen zu überwinden, die verhindern, dass ihre Leistung die der audio-basierten Spracherkennung übertrifft.
Auf der Suche nach einem leistungsfähigeren System suchen Forscher aus Alibaba, Zhejiang University und Stevens Institute of Technology Sie entwickelten eine Methode, die synchronisiert wurde Lippe durch Sprache (LIBS), die aus der Spracherkennung extrahierte Merkmale verwendet, um als ergänzende Hinweise zu dienen. Das System legt die Messlatte um weitere 8% höher und kann noch verbessert werden.
LIBS und andere ähnliche Lösungen können hörgeschädigten Menschen helfen, Videos ohne Untertitel zu folgen. Schätzungsweise 466 Millionen Menschen weltweit leiden an Hörverlust, was rund 5% der Weltbevölkerung entspricht. Bis 2050 könnte die Zahl laut Weltgesundheitsorganisation auf über 900 Millionen steigen.
Die AI-Methode zum Lesen der Lippe
LIBS leitet nützliche Audioinformationen aus mehreren Faktoren ab: Wie ein erfahrener Kryptograf sucht AI nach verständlichen Wörtern. An diesem Punkt vergleicht er sie mit der labialen Korrespondenz und sucht nach allen ähnlichen labilen. Aber es hört hier nicht auf: Es vergleicht auch die Videofrequenz dieser Bilder und andere technische Hinweise und verfeinert die Suche nach dem Lesen der Lippe selbst in Worten, die für unser Ohr unverständlich sind.
Wenn es kompliziert erscheint, versuchen Sie es erneut, aber ich verspreche nichts.
Ich zitiere aus Technologie-Präsentationspapier. „Sowohl die Spracherkennung als auch die LIBS Lab Reader-Komponenten basieren auf einer auf Aufmerksamkeit basierenden Sequenz-Sequenz-Architektur, einer automatischen Übersetzungsmethode, die Eingaben einer Sequenz (Audio oder Video) zuordnet."
Die Forscher trainierten KI in einer ersten Datenbank mit über 45.000 von der BBC gesprochenen Phrasen und CMLR, dem größten chinesischen Korpus, der für das Lesen von Mandarin-Chinesisch-Lippen verfügbar ist, mit über 100.000 natürlichen Phrasen.
Die Anwendungsbereiche beschränken sich nicht nur auf Gehörlose. Der Brauch, jeder Technologie eine "sozial edle" Nutzung zuzuweisen, darf uns niemals vergessen lassen, dass die Hauptanwendung dieser Technologien im Militär- oder Sicherheitssektor liegt.
Niemand hat gedacht, dass dieses System die Überwachung der Sicherheit noch unfehlbarer und umfassender machen kann erstaunliche neue Überwachungskamerasoder neue Satellitensysteme?
Mit der KI wird nun ein allwissendes Auge es wird ein Witz sein zuzuhören (oder wieder aufbauen) unser Flüstern sogar von einem umlaufenden Satelliten.