Ich weiß, wir waren alle von etwas anderem abgelenkt: im Januar 2021 OpenAI, das von Elon Musk gegründete und von Microsoft unterstützte Unternehmen, hat sein bisher ehrgeizigstes Projekt gestartet: ein maschinelles Lernsystem namens DALL-E .
Was macht diese künstliche Intelligenz? Kurz gesagt: Es produziert Bilder ausgehend von einer einfachen Textbeschreibung. Ein Beispiel? Schreiben Sie „ein Kamel mit einem Buch als Hut“ oder „eine Krawatte aus Gabeln“ und er zeichnet, erschafft, kurz: er zieht ein Bild heraus.
Jetzt hat Open AI die zweite Version von DALL-E vorgestellt, und es wurde verdammt ernst: Die Auflösung ist viel besser und die Produktionszeit viel kürzer geworden. Eine typische exponentielle Dynamik, an die uns künstliche Intelligenzen gewöhnt haben und uns vor allem gewöhnen werden. Auch weil, wenn Sie sich erinnern, der Leiter von Open AI gerade sagte, dass diese Maschinen vielleicht (vielleicht) sie werden empfindungsfähig.
Ein bisschen Wall-E, ein bisschen Dali
Die DALL-E-Version eins (ein Kofferwort aus „Dali“ als Künstlerin und „WALL-E“ als animierte Disney-Figur) war in der Lage, Bilder zu erzeugen und verschiedene Fotos zu einer Collage zusammenzufügen, die Perspektiven bot. und das Abziehen von Elementen eines Bildes selbst, zum Beispiel Schattierungseffekte.
Ein super guter Designer, der alle Bilder der Welt zur Verfügung hat, der Anfragen interpretiert und sofort zeichnet.
„Im Gegensatz zu einer 3D-Rendering-Engine, die präzise Eingaben erfordert, ist DALL-E oft in der Lage, die Lücken zu füllen, wenn die Bildunterschrift impliziert, dass das Bild ein bestimmtes Element enthalten soll, das nicht ausdrücklich angegeben ist“, schrieb das Team im vergangenen Jahr im Open AI-Blog.
Wie funktioniert eine bedarfsgesteuerte KI?
DALL-E sollte kein kommerzielles Produkt sein, und das OpenAI-Team entschied, dass es das Beste wäre. Die Forscher "hinderten" ihn beispielsweise daran, Bilder mit sexuellem oder politischem Hintergrund zu erstellen, um zu verhindern, dass das System zur Generierung von Desinformationen verwendet wird. Dasselbe gilt für bestimmte Namen: unmöglich, ihn zu fragen, „zeichne Frank Sinatra beim Tennisspielen mit einem Eisbären“.
DALL-E 1 nutzt im Wesentlichen den unglaublichen GPT-3-Sprachinterpreter (hier spreche ich ausführlicher darüber, falls es dich interessiert) und zeichnet, was es mehr versteht als was es „spürt“.
Im Gegensatz zur ersten Version, die für alle auf der OpenAI-Website verfügbar war, steht diese nur einer begrenzten Anzahl von Partnern zum Testen zur Verfügung: Ich warte einige Tage auf eine Antwort von OpenAI, um der Gruppe beizutreten.