Entwickler umgeht Apples Einschränkungen und schaltet volles KI-Potenzial des M4 frei

Apples M4-Prozessoren verfügen über eine solide KI-Rechenleistung, doch das Unternehmen hat die zugrunde liegende Hardware bislang stark eingeschränkt. Standardmäßig ist die Neural Engine des M4 ausschließlich für Inferenz vorgesehen. Entwickler können sie damit nur für den Einsatz bereits trainierter KI-Modelle verwenden, nicht jedoch für das Training neuer Modelle von Grund auf.
Einem Entwickler ist es nun jedoch gelungen, diese strikten Softwarebeschränkungen zu umgehen und den Chip vollständig zu reverse-engineeren, um 15,8 TFLOPS an bislang ungenutzter KI-Rechenleistung freizuschalten. Der Durchbruch stammt von einem Forscher mit dem Namen 0x0SojalSec, der den entsprechenden Code kürzlich auf GitHub veröffentlicht hat und dort beschreibt, wie er das tatsächliche Potenzial des M4 erschlossen hat. Besonders bemerkenswert ist dabei, dass dies vollständig außerhalb von Apples offizieller Entwicklungsumgebung geschah.
Da Apple die notwendigen Berechtigungen für den direkten Zugriff auf die Neural Engine für solche erweiterten Aufgaben nicht bereitstellt, musste der Entwickler eine Lösung finden, die ohne Standard-Tools wie CoreML, Metal oder sogar die Nutzung der GPU auskommt. Dafür entwickelte er eine eigene Model Intermediate Language von Grund auf neu. Diese Software fungiert als Schnittstelle und ermöglicht sowohl Backpropagation als auch das Training von Transformer-Modellen direkt auf der Apple Neural Engine.
Da die Hardware bewusst stark eingeschränkt ist, musste der Entwickler zudem mehrere Workarounds implementieren, um die Stabilität des Systems zu gewährleisten. Wenn beispielsweise ein Prozess während der rechenintensiven Trainingsphase hängen bleibt, nutzt die selbst entwickelte Sprache einen speziellen Execute-Befehl, um den Prozess neu zu starten. Dadurch kann der aktuelle Zustand wiederhergestellt werden, ohne dass das gesamte Programm abstürzt.
Auch die Geschwindigkeit spielte eine entscheidende Rolle, um die hohe Last effizient zu bewältigen. Um den Trainingsprozess möglichst stabil und schnell zu halten, wurde dieser vollständig im RAM des Systems ausgeführt. Durch das gezielte Vermeiden des deutlich langsameren NAND-Flash-Speichers blieb die Ausführung entsprechend performant. Für Nutzer eines mit M4 ausgestatteten Macs oder iPads zeigt dieser Ansatz, dass die Hardware grundsätzlich in der Lage ist, auch anspruchsvolle KI-Trainingslasten zu bewältigen – selbst wenn Apple diese Funktionen offiziell nicht freigibt.










