Wafer-Scale Engine

Wafer-Scale Engine — Ein gigantischer KI-Prozessor, der die gesamte Fläche eines Siliziumwafers nutzt und Hunderttausende Rechenkerne auf einem einzigen Chip vereint, anstatt wie üblich in viele kleine Einzelchips zerschnitten zu werden.

Einfach erklärt

Stellen Sie sich vor, Sie backen einen riesigen Pizza-Teig. Normalerweise schneiden Sie ihn in viele einzelne Pizzen, die Sie dann separat belegen müssen. Wenn diese Pizzen miteinander kommunizieren sollen, müssen Sie umständlich Boten zwischen ihnen hin- und herschicken. Eine Wafer-Scale Engine (WSE) ist wie eine gigantische Pizza, die Sie gar nicht zerschneiden – der gesamte Teig bleibt ein einziges zusammenhängendes Stück.

In der Chip-Herstellung ist ein Wafer eine runde Siliziumscheibe von etwa 30 Zentimetern Durchmesser, aus der normalerweise Dutzende oder Hunderte einzelner Prozessoren geschnitten werden. Die WSE nutzt diese gesamte Fläche für einen einzigen, monumentalen Chip. Das 2019 vom kalifornischen Startup Cerebras Systems vorgestellte Konzept vereint auf dieser Fläche bis zu 900.000 spezialisierte KI-Rechenkerne – mehr als Sie in einem ganzen Rechenzentrum voller herkömmlicher Prozessoren finden würden.

Der entscheidende Vorteil: Alle diese Rechenkerne können direkt miteinander sprechen, ohne umständliche Umwege über externe Verbindungen nehmen zu müssen. Das ist, als hätten Sie in einem Großraumbüro alle Mitarbeiter an einem riesigen Tisch sitzen, statt sie auf verschiedene Gebäude zu verteilen – die Kommunikation wird dramatisch schneller und effizienter.

Wie funktioniert es?

Die technische Herausforderung einer Wafer-Scale Engine ist gewaltig. Während herkömmliche Chips etwa die Größe einer Briefmarke haben, erstreckt sich die WSE über eine Fläche von 46.225 Quadratmillimetern – etwa so groß wie ein iPad. Die neueste Generation WSE-3 enthält 4 Billionen Transistoren und wurde im 5-Nanometer-Verfahren bei TSMC gefertigt. Zum Vergleich: Moderne Gaming-Grafikkarten enthalten typischerweise 20-80 Milliarden Transistoren.

Das größte Problem bei Wafer-Scale-Chips: Während der Fertigung entstehen immer Defekte auf dem Silizium. Bei normalen Chips werden fehlerhafte Bereiche einfach aussortiert. Bei einem Wafer-großen Chip würde ein einziger Defekt das gesamte Produkt unbrauchbar machen. Cerebras löst dies durch intelligente Redundanz: Der Chip enthält 1,5 Prozent mehr Rechenkerne als spezifiziert. Defekte Bereiche werden automatisch erkannt und der Datenfluss um sie herum geleitet – ähnlich wie ein Navi Staus umfährt.

Ein weiterer revolutionärer Aspekt ist der integrierte Speicher: 44 Gigabyte SRAM sind direkt auf dem Chip verteilt, was eine Speicherbandbreite von 21 Petabyte pro Sekunde ermöglicht. Herkömmliche GPU-Systeme müssen ständig Daten zwischen Prozessor und externem Speicher hin- und herschaufeln, was Zeit und Energie kostet. Die WSE vermeidet diese Engpässe vollständig. Die Kommunikation zwischen den Kernen erreicht 214 Petabit pro Sekunde – etwa das 10.000-fache einer schnellen Internetverbindung. Diese Architektur macht die WSE besonders effizient für Large Language Models und andere KI-Workloads, die massive Datenmengen parallel verarbeiten müssen.

Beispiele und Anwendungen

KI-Training beschleunigen: Während das Training großer Sprachmodelle auf GPU-Clustern Wochen oder Monate dauern kann, reduziert die WSE diese Zeit auf Tage oder sogar Stunden. Unternehmen wie G42 nutzen Cerebras-Systeme für medizinische Forschungsprojekte, bei denen Modelle mit Billionen Parametern trainiert werden.
Echtzeit-Inferenz: Für Anwendungen wie autonomes Fahren oder Finanzmarkt-Analyse, wo Millisekunden zählen, bietet die WSE extrem niedrige Latenz. Ein einzelner CS-2-Computer mit WSE kann die Arbeit von mehreren hundert GPUs übernehmen.
Energieeffizienz im Rechenzentrum: Bei einem Verbrauch von 24 Kilowatt erreicht die WSE-3 eine Rechenleistung von 125 PetaFLOPS – etwa ein Sechstel des Energiebedarfs vergleichbarer GPU-Cluster. Das macht sie attraktiv für Rechenzentren, die ihre Klimabilanz verbessern wollen.
Cloud-Services: Cerebras bietet Cloud-Zugang zu WSE-Systemen an, sodass Unternehmen ohne eigene Hardware von der Technologie profitieren können – ähnlich wie Sie Cloud-GPU-Dienste nutzen würden, aber mit deutlich höherer Performance für KI-spezifische Aufgaben.

Einfach erklärt

Wie funktioniert es?

Beispiele und Anwendungen

Verwandte Begriffe

Quellen und weiterführende Links