Aber können Sie sich einen Wall-Street-Hedgefonds vorstellen, der beschließt, Milliarden zu verbrennen, um einen zu bauen?allgemeine künstliche Intelligenz? Genau das hat er getan Überflieger, ein chinesischer quantitativer Fonds, der seine gesamte Forschungs- und Entwicklungsabteilung in umgestaltet hat DeepSeek im Jahr 2023. Mit einem Berg von GPUs, die sich vor den US-Sanktionen angesammelt haben, der Gründer Liang Wenfeng hat auf unter 30-jährige Forscher und extreme Optimierung gesetzt.
„Wir sind nicht auf der Suche nach unmittelbaren Gewinnen, sondern nach Antworten auf die schwierigsten Fragen der Welt“ sagte Liang.
Das Ergebnis dieser Philosophie ist DeepSeek-R1, Open-Source-Modell, das OpenAI o1 in Mathematik und Logik übertrifft 1/10 der Ressourcen von Lama 3.1. Das Geheimnis? „Aus der Not eine Tugend machen“er erklärt Marina Zhang dell 'Universität von Sydney. Ohne Zugriff auf die fortschrittlichsten Nvidia-Chips revolutionierte DeepSeek die Modellarchitektur und entwickelte Algorithmen die wie ein Jazzorchester kommunizieren: wenige Instrumente, maximale Harmonie. Und jetzt bringen sie die Reichen (und auch die Teueren) zum Zittern im Hinblick auf die Energieressourcen) Welt der westlichen KI.
Junge Genies und Patriotismus: das geheime (und ein wenig anarchische) Rezept
Während Google und Meta Sie stellen Veteranen ein (und Talente aus dem Ausland) liegt der Schwerpunkt von DeepSeek aktuelle Absolventen aus Peking und Tsinghua: Gehirne, die nach akademischem Ruhm hungern, nicht nach goldenen Gehältern. „Wir stellen diejenigen ein, die internationale Auszeichnungen gewonnen haben, auch wenn sie keinerlei Erfahrung in der Industrie haben.“, gibt Liang zu. Ein Ansatz, der sich auszahlt: Das Team hat das entwickelt Latente Aufmerksamkeit mit mehreren Köpfen, eine Technik was den Speicherverbrauch um 40 % reduziert.
„Sie sind wie Start-ups aus den 70er-Jahren: wenig Geld, viel Kreativität“, sagt er Wendy Chang, Analytiker der Mercator-Institut. „Sie kombinierten technische Tricks: benutzerdefinierte Kommunikationsschemata, Datenkomprimierung … Bekanntes, aber noch nie so genutztes Zeug“.
Und es gibt noch eine zusätzliche Zutat: Technologiepatriotismus. „Diese Generation möchte zeigen, dass China trotz Sanktionen innovativ sein kann“, fügt Zhang hinzu. Eine (mehr oder weniger spontane) Denkweise, die Grenzen in Sprungbretter verwandelt.
MLA und Mixture-of-Experts: DeepSeeks Geheimwaffen, um OpenAI zu schlagen
Was macht DeepSeek-R1 so effizient? Drei Hauptfaktoren:
- Latente Aufmerksamkeit mehrerer Köpfe (MLA): Reduziert redundante Berechnungen und konzentriert die Aufmerksamkeit auf Schlüsselmuster.
- Mischung aus Experten: Aktiviert je nach Aufgabe nur bestimmte Teile des neuronalen Netzwerks, wie ein Mechaniker, der nur die notwendigen Werkzeuge verwendet.
- Es ist Open SourceZumindest für den Moment. „Nur so kann man den Westen einholen“, erklärt Chang. „Man zieht globale Mitwirkende an, verbessert das Modell, schafft ein Ökosystem“. Erfolgsstrategie: In zwei Monaten haben 2 Entwickler Code beigesteuert.
Es ist, als hätte man einen Ferrari-Motor, der wie ein Panda verbraucht. Das Training von DeepSeek-R1 kostet Geld 15 Millionen gegen ich 150 Millionen von Meta. Eine Lücke, die das Silicon Valley erzittern lässt.
US-Sanktionen? Ein Bumerang (vielleicht)
Als die USA im Jahr 2022 den Export fortschrittlicher Chips blockierten, sagten viele den Zusammenbruch der chinesischen KI voraus. DeepSeek beweist dies vorerst Einfallsreichtum schlägt Hardware. „Schätzungen darüber, was China mit seinen Ressourcen erreichen kann, müssen revidiert werden“, warnt Chang.
Das chinesische Modell? Extreme Optimierung + Open Source + technologischer Nationalismus. „Wenn andere folgen, verlieren Sanktionen ihre Bedeutung“, schließt Zhang. Mittlerweile sind die Codes zwar Open Source, aber DeepSeek antwortet nicht auf die E-Mails von Wired (geschweige denn auf unsere).
Wir werden auf jeden Fall davon hören.