LIBS, die KI, die die Lippen von Menschen in Videos lesen kann

5. Dezember 2019

Technologie

LIBS ist ein neues KI-System, das die Lippe besser lesen kann als jeder andere Mensch und andere. Es wird den Gehörlosen (und globalen Schnüfflern) helfen.

Künstliche Intelligenz und Algorithmen für maschinelles Lernen, die Lippen aus Videos lesen können, sind eigentlich nichts Außergewöhnliches.

Im Jahr 2016 haben Forscher von Google und der Universität Oxford ein System entwickelt, mit dem die Lippen gelesen und die Videos mit einer Genauigkeit von 46,8% kommentiert werden können. Kommt es dir wenig vor? Es übertraf bereits die Genauigkeit von 12,4% eines professionellen menschlichen Lippenlesers. Und es gab noch keine LIBS.

46,8% entsprechen jedoch nicht den Fähigkeiten, die künstliche Intelligenz heute zeigen kann. Hochmoderne Systeme haben Schwierigkeiten, Unklarheiten bei Lippenbewegungen zu überwinden, die verhindern, dass ihre Leistung die der audio-basierten Spracherkennung übertrifft.

Auf der Suche nach einem leistungsfähigeren System suchen Forscher aus Alibaba, Zhejiang University und Stevens Institute of Technology Sie entwickelten eine Methode, die synchronisiert wurde Lippe durch Sprache (LIBS), die aus der Spracherkennung extrahierte Merkmale verwendet, um als ergänzende Hinweise zu dienen. Das System legt die Messlatte um weitere 8% höher und kann noch verbessert werden.

LIBS und andere ähnliche Lösungen können hörgeschädigten Menschen helfen, Videos ohne Untertitel zu folgen. Schätzungsweise 466 Millionen Menschen weltweit leiden an Hörverlust, was rund 5% der Weltbevölkerung entspricht. Bis 2050 könnte die Zahl laut Weltgesundheitsorganisation auf über 900 Millionen steigen.

LIBS, die KI, die die Lippe besser lesen kann als jeder andere

Die AI-Methode zum Lesen der Lippe

LIBS leitet nützliche Audioinformationen aus mehreren Faktoren ab: Wie ein erfahrener Kryptograf sucht AI nach verständlichen Wörtern. An diesem Punkt vergleicht er sie mit der labialen Korrespondenz und sucht nach allen ähnlichen labilen. Aber es hört hier nicht auf: Es vergleicht auch die Videofrequenz dieser Bilder und andere technische Hinweise und verfeinert die Suche nach dem Lesen der Lippe selbst in Worten, die für unser Ohr unverständlich sind.

Wenn es kompliziert erscheint, versuchen Sie es erneut, aber ich verspreche nichts.

Ich zitiere aus Technologie-Präsentationspapier. „Sowohl die Spracherkennung als auch die LIBS Lab Reader-Komponenten basieren auf einer auf Aufmerksamkeit basierenden Sequenz-Sequenz-Architektur, einer automatischen Übersetzungsmethode, die Eingaben einer Sequenz (Audio oder Video) zuordnet."

Die Forscher trainierten KI in einer ersten Datenbank mit über 45.000 von der BBC gesprochenen Phrasen und CMLR, dem größten chinesischen Korpus, der für das Lesen von Mandarin-Chinesisch-Lippen verfügbar ist, mit über 100.000 natürlichen Phrasen.

Die Anwendungsbereiche beschränken sich nicht nur auf Gehörlose. Der Brauch, jeder Technologie eine "sozial edle" Nutzung zuzuweisen, darf uns niemals vergessen lassen, dass die Hauptanwendung dieser Technologien im Militär- oder Sicherheitssektor liegt.

Niemand hat gedacht, dass dieses System die Überwachung der Sicherheit noch unfehlbarer und umfassender machen kann erstaunliche neue Überwachungskamerasoder neue Satellitensysteme?

Mit der KI wird nun ein allwissendes Auge es wird ein Witz sein zuzuhören (oder wieder aufbauen) unser Flüstern sogar von einem umlaufenden Satelliten.

Halte den Mund, halt den Rand, Halt die Klappe! (Bis er auch seine Gedanken liest) Big Brother hört dir zu!

Gianluca Riccio, Kreativdirektorin von Melancia adv, Texterin und Journalistin. Es ist Teil des italienischen Instituts für Zukunft, der World Future Society und H+. Seit 2006 leitet er Futuroprossimo.it, die italienische Ressource für Zukunftsforschung.

Um über Forschungen, Entdeckungen und Erfindungen zu berichten, Kontaktieren Sie die Redaktion! Folgen Sie Futuro Prossimo auf WhatsApp: exklusive Neuigkeiten und Updates (kostenlos).

FP über Fatto Quotidiano
Alberto Robiati und Gianluca Riccio führen die Leser durch Zukunftsszenarien: die Chancen, Risiken und Möglichkeiten, die wir haben, um ein mögliches Morgen zu schaffen.

Zum gleichen Thema:

Das Letzte

LIBS, die KI, die die Lippen von Menschen in Videos lesen kann

Technologie

Teilen

Künstliche Intelligenz und Algorithmen für maschinelles Lernen, die Lippen aus Videos lesen können, sind eigentlich nichts Außergewöhnliches.

Die AI-Methode zum Lesen der Lippe

Halte den Mund, halt den Rand, Halt die Klappe! (Bis er auch seine Gedanken liest) Big Brother hört dir zu!

VASA-1, die KI von Microsoft, erstellt aus nur einem Foto superrealistische Charaktere

Amodei, Anthropic: „KI wird bald in der Lage sein, sich autonom zu replizieren und zu überleben“

Kontakt zwischen den Arten: Das SETI-Institut „unterhält sich“ mit einem Wal

Wie sie im Labor Mini-Erdbeben erzeugten, um große Erdbeben zu untersuchen

Photoncycle, der „sonnenfangende“ Wasserstoffzylinder, ändert die Regeln

VASA-1, die KI von Microsoft, erstellt aus nur einem Foto superrealistische Charaktere

Energie aus CO2: Macht ein Nanogenerator Umweltverschmutzung zu einer Ressource?

Amodei, Anthropic: „KI wird bald in der Lage sein, sich autonom zu replizieren und zu überleben“