Heft 914, Juli 2025

KI-Kolumne

DeepSeek von Paola Lopez

DeepSeek

Ende Januar 2025 wurde das neueste Sprachmodell des chinesischen Start-ups DeepSeek veröffentlicht, und die KI-Welt drehte durch. Das Sprachmodell sei in seiner Performance vergleichbar mit den neuesten Modellen von OpenAI und Meta, was zwar spannend, aber erstmal nicht revolutionär ist. Das Besondere ist der geopolitische Kontext: Will man ein Sprachmodell trainieren, braucht man viele Graphics Processing Units (GPUs). Es gibt gegenüber China aber strikte Exportbeschränkungen für GPUs, die es unmöglich machen sollten, dass China besonders leistungsstarke KI-Modelle entwickelt. Die Größenordnungen scheinen absurd: Während das Training von Metas Llama 4-Modell Ende 2024 etwa 100 000 GPUs brauchte, gab DeepSeek an, für sein Modell V3 seien 2000 (leistungsschwächere) GPUs verwendet worden. Ein so potentes Modell, wie DeepSeek es vorführte, schien unter diesen Beschränkungen bis dahin unmöglich.

Technisch geschickt gemacht

DeepSeek präsentierte nicht ein Modell, sondern eine Reihe verschiedener Modelle, die verschiedene Eigenschaften haben und für verschiedene Zwecke entwickelt wurden. Das für die KI-Welt Interessante ist, dass die DeepSeek-Modelle technisch geschickt gemacht, offen und vergleichsweise klein sind. Ein Verfahren zur Effizienzsteigerung ist etwa die sogenannte quantization, die die benötigte Speicherkapazität von Parametern reduziert: Ein maßgeblicher Teil eines gebrauchsfertigen KI-Modells ist eine Sammlung von vielen, vielen Parametern. Diese Parameter sind konkrete Zahlen, die an bestimmte Stellen der Modellarchitektur eingesetzt wurden und ein Modell sozusagen konkretisieren: Ist die grundlegende Modellarchitektur ein Knochengerüst, dann sind die konkreten Parameter Fleisch und Muskeln und so weiter.

Diese Parameter werden während des Trainingsprozesses mittels Trainingsdaten durch verschiedene Optimierungsverfahren ermittelt. Sie hängen also stark von den Trainingsdaten ab. Während des Trainings wird gefragt: Welche Zahl muss man an diese Stelle des Modells setzen, damit am Ende ein hinreichend guter Output herauskommt? Ein fertiges Modell beinhaltet mehrere Milliarden solcher Parameter. Je mehr Parameter ein Modell hat, desto ausdifferenzierter ist es und desto »größer« wird es genannt. Daher kommt auch der Begriff des »Large Language Models« (LLM) – »large« bezieht sich hier unter anderem auf die große Menge an Parametern.

Ist das Training abgeschlossen und das Modell fertig, werden bei jeder Anwendung des KI-Modells diese festen Parameter verwendet, um für einen konkreten Input einer Nutzerin einen konkreten Output zu erzeugen. Die Verarbeitung von mehreren Milliarden Parametern ist extrem speicherintensiv: Je mehr Komplexität und Genauigkeit die Zahl hat, desto mehr Speicherplatz wird benötigt. Und umgekehrt: Je weniger Nachkommastellen die Parameter haben, desto ungenauer und schlechter wird das Ergebnis.

Quantization ist ein Prozess, bei dem die einzelnen Zahlen in ihrer Komplexität reduziert werden, und zwar auf eine Art, die trotzdem hinreichend gute Ergebnisse erzeugt. Spart man sich bei jedem Parameter ein kleines Bisschen Komplexität, also Speicherplatz, dann ist die gesamte Ersparnis bei mehreren Milliarden Parametern signifikant. Verfahren der geschickten quantization sind akademisch interessant, aber nicht so dringlich, wenn ein Unternehmen sich in einem Markt bewegt, in dem von allen Seiten große Geldmengen in viele und gute GPUs gesteckt werden.

Ein zweiter Aspekt, der die Modelle von DeepSeek effizient macht, ist das Prinzip der Mixture of Experts (MoE). Die konzeptuelle Idee ist, dass man kein großes Netzwerk baut, das dann jede Anfrage auf die gleiche Art bearbeitet, sondern mehrere kleinere Teilnetzwerke, die jeweils auf eigene, spezifische Themenschwerpunkte fokussiert sind. Natürlich ist das Ganze am Ende immer noch ein Modell, aber die innere Architektur ist ausdifferenziert. Bei einem großen Gesamtmodell wird jede Anfrage von dem großen Gesamtkomplex bearbeitet. Inputs wie »Programmiere einen Onlineshop für meine Fotoprints« werden den gleichen Mechanismen – und Parametern – zugeführt wie der Input »Verfasse einen vierseitigen Liebesbrief an einen Elefanten«. Das ist konzeptuell ineffizient, da die Parameter, die für das Programmieren eines Onlineshops gut sind, auch beim Schreiben des Elefantenliebesbriefs aktiviert werden, aber eher nichts Sinnvolles dazu beitragen werden.

Das kostet compute, also Rechenleistung, und macht das Ganze ressourcenintensiv und schwerfällig. Stattdessen ist das Prinzip hinter der Mixture of Experts, dass verschiedene Teilsysteme nebeneinander warten, bis der Input der Userin an ein Teilsystem delegiert und das Teilsystem damit aktiviert wird. Das macht das Modell insgesamt kleiner, manchmal etwas schlechter, aber dafür das Benutzen des Modells, den Prozess der sogenannten Inferenz, weniger rechenleistungs- und damit weniger ressourcenaufwendig. Statt etwa der gesamten 400 Milliarden Parameter werden pro Anfrage also nur beispielsweise 30 Milliarden aktiviert – der Input muss also »nur« durch 30 Milliarden Parameter geschoben werden.

KI-Kolumne

Technisch geschickt gemacht

Weitere Artikel des Autors

Artificial Intelligence und die normative Kraft des Faktischen

ChatGPT und der Unterschied zwischen Form und Inhalt