Acht Nvidia DGX Spark im Cluster: YouTuber lässt gigantische LLMs auf den kleinen KI-Rechnern laufen

Nvidias DGX Spark richtet sich als verhältnismäßig kleiner und leiser Desktop-Rechner an Entwickler, die komplexe KI-Modelle direkt trainieren, tunen oder ausführen möchten. Vor kurzem haben wir uns die HP ZGX G1n AI Station und einige passende Playbooks angeschaut. Das System bietet eine enorme Performance, stößt aber bei den stetig wachsenden Modellgrößen an die Grenzen des lokalen Arbeitsspeichers von 128 Gigabyte.
Um diese Speicherkapazität und Rechenleistung der KI-PCs zu erweitern, sieht Nvidias offizielles Konzept lediglich die direkte Verbindung von exakt zwei DGX Sparks vor. Die in den Geräten verbauten ConnectX-7-Netzwerkkarten werden dabei über ein einzelnes Kabel, welches im Lieferumfang enthalten ist, direkt miteinander gekoppelt, wodurch sich der nutzbare Videospeicher auf 256 Gigabyte verdoppelt. Eine direkte Reihenschaltung von drei oder mehr Systemen ist von Nvidia nicht vorgesehen. Ohne einen dedizierten Switch würde eine solche Konfiguration auch die verfügbare Netzwerkkapazität sprengen, weshalb der offizielle Hard- und Softwaresupport des Herstellers bei diesem Zwei-Geräte-Setup endet.
Der Youtuber Alex Ziskind wollte sich mit dieser Limitierung nicht abfinden und fasste den Plan, einen wesentlich größeren Cluster aufzubauen. Da die verbauten Netzwerkkarten auf etablierten Standards für Rechenzentren basieren, griff er zu hochperformanten, managebaren Switches von MikroTik sowie speziellen QSFP56-Breakout-Kabeln. Die Einrichtung erwies sich als überaus komplex. Die Hardware musste tiefgreifend manuell konfiguriert werden, um die volle Bandbreite der Netzwerkverbindung zu Nutzen. Zudem war der Einsatz einer inoffiziellen Software-Lösung aus der Community erforderlich, um die Kommunikation der GPUs über Nvidias NCCL-Bibliothek und RDMA für ein solches Netzwerk lauffähig zu machen.
Der enorme zeitliche und finanzielle Aufwand mündete letztlich in einem funktionsfähigen Cluster aus acht Maschinen mit insgesamt einem Terabyte gebündeltem VRAM. Nach aktuellen Preisen, würden allein die verwendeten Nvidia DGX Spark Alternativen mindestens 23.600 Euro kosten. Hinzu kommen rund 2.000 Euro für die verwendete Netzwerktechnik. Bei der Ausführung kleinerer Modelle wie Qwen 34B zeigte sich, dass ab vier Knoten kaum noch nennenswerte Leistungszuwächse bei der Token-Generierung erzielt werden. Die wahre Stärke des Setups offenbarte sich erst bei massiven Modellen, die aufgrund ihres Speicherbedarfs auf einzelnen Workstations überhaupt nicht starten würden. Das über 800 Gigabyte große Sprachmodell Qwen 3.5 mit 397 Milliarden Parametern ließ sich auf dem Acht-Knoten-Cluster erfolgreich laden und mit einer beachtlichen Geschwindigkeit von 24 Tokens pro Sekunde ausführen.
Quelle
NVIDIA didn't want me to do this | Alex Ziskind via YouTube






