Notebookcheck Logo

CheckMag | Keine GPU? Kein Problem: Eigenes LLM hosten macht mehr Spaß als zensierte Angebote großer Anbieter

Es ist zwar nicht die schnellste Lösung, aber auch ohne GPU durchaus brauchbar – und zumindest behält man die volle Kontrolle über die eigenen Daten.
ⓘ Notebookcheck / KoboldCPP
Es ist zwar nicht die schnellste Lösung, aber auch ohne GPU durchaus brauchbar – und zumindest behält man die volle Kontrolle über die eigenen Daten.
Ganz gleich, ob es darum geht, eine D&D-Kampagne zu leiten, Code-Probleme zu beheben, Ideen zu entwickeln, NSFW-Inhalte zu erstellen oder die von den großen Anbietern gesetzten Einschränkungen zu umgehen: Mit KoboldCPP lässt sich ein eigenes LLM einfach hosten – und das funktioniert selbst ohne GPU überraschend gut.
Kommentar von David Devey
Kommentar-Artikel geben ausschließlich die individuelle Meinung des/der angeführten Autors/Autorin wieder.

Was genau mit den eigenen Daten passiert, wenn man eine Anfrage an eine KI stellt, weiß letztlich kaum jemand. Klar ist aber: Was auch immer damit geschieht, wirklich im eigenen Besitz sind diese Daten danach nicht mehr.

Neben der Bild- und Videogenerierung ist das Hosting eines eigenen LLM überraschend einfach und bringt einige Vorteile gegenüber den Angeboten der großen Anbieter mit sich – besonders dann, wenn man mit Large Language Models experimentieren möchte, ohne seine Daten an Big Tech weiterzugeben.

Der wichtigste Punkt: Ganz gleich, wofür das Modell genutzt wird, sämtliche Daten bleiben unter eigener Kontrolle. Allein das ist schon ein klarer Vorteil, wenn man seine Daten nicht an Dritte übergeben möchte. Hinzu kommt, dass sich praktisch jedes beliebige Modell verwenden lässt – ob Deepseek, Gemma2 oder GPT. Ein weiterer Vorteil besteht darin, auch Versionen nutzen zu können, die bestimmte Arten von Anfragen nicht einschränken.

KoboldCPP ist ein einfach zu bedienendes KI-Tool zur Textgenerierung, das aus einer einzigen ausführbaren Datei besteht und für GGUF- und GGML-Modelle ausgelegt ist. Es unterstützt sowohl GPU als auch CPU und kann als spezialisiertes Backend für KI-Storytelling und Chats dienen. KoboldCPP kann über GitHub heruntergeladen werden und ist für Windows, Linux, Mac sowie Docker verfügbar.

Wird das Ganze in einem Container gehostet, lässt sich das LLM ohne großen Aufwand für jedes Gerät im eigenen Netzwerk verfügbar machen. Für die wichtigsten Plattformen, darunter Unraid und TrueNAS, gibt es bereits fertige Vorlagen. Dasselbe ist auch mit anderen Installationen möglich, sofern die nötigen Regeln in der Firewall gesetzt werden.

Erste Schritte

Sobald die gewünschte Plattform feststeht, muss zunächst entschieden werden, welches Modell genutzt werden soll. Die beste Anlaufstelle dafür ist Hugging Face. Die Modelle müssen dabei im GGUF-Format vorliegen.

Wer D&D-Szenarien hosten möchte, sollte auf jeden Fall ein unzensiertes Modell wählen. Andernfalls wird das LLM sich früher oder später weigern, einer Figur Schaden zuzufügen, was zu unerwünschten Ergebnissen führen kann.

Einige Modelle wie Deepseek und Claude neigen dazu, „nachzudenken“, also den gesamten Denkprozess zu einer Anfrage auszugeben. Mit einer GPU, die die Hauptarbeit übernimmt, mag das noch in Ordnung sein, ohne GPU verlangsamt es den Ablauf jedoch deutlich. Hier hilft letztlich nur Ausprobieren, um ein passendes Modell zu finden. Gemma2 ist dafür ein guter Ausgangspunkt.

Auf der jeweiligen Dateiseite muss dann die URL kopiert werden, die zur GGUF-Datei führt. Viele Modelle gibt es in mehreren Größen, daher sollte eine Variante gewählt werden, die im Rahmen des verfügbaren Arbeitsspeichers bleibt.

Die Unraid-Docker-Vorlage erfordert nur 2 Änderungen, um loszulegen. Wenn Sie ohne einen Grafikprozessor arbeiten, entfernen Sie das GPU-Flag und fügen Sie den Link zur GGUF-Datei von Huggingface ein

Die Installation unter Windows läuft weitgehend genauso ab. Wird das Modell ohne GPU genutzt, muss allerdings die NoCUDA-Version heruntergeladen werden. Der Start kann etwas dauern, da KoboldCPP zunächst das Modell herunterlädt, bevor die Benutzeroberfläche angezeigt wird. Unter Windows ist das gut erkennbar, bei Unraid oder TrueNAS muss dagegen das Log geöffnet werden, um den Download-Fortschritt zu sehen. Unter Unraid kann es zudem nötig sein, den verfügbaren Speicherplatz für Docker-Container zu erhöhen – je nachdem, wie groß das gewählte Modell ist.

KoboldCPP bietet vier verschiedene Oberflächenmodi: Instruct, Story, Chat und Adventure.

Instruct wird verwendet, um dem LLM Anweisungen zu geben, Chat ähnelt einem Chatbot, Story ist gut für das Schreiben von Romanen und Adventure eignet sich am besten für interaktive Fiktion im RPG-Stil.
ⓘ Notebookcheck
Instruct wird verwendet, um dem LLM Anweisungen zu geben, Chat ähnelt einem Chatbot, Story ist gut für das Schreiben von Romanen und Adventure eignet sich am besten für interaktive Fiktion im RPG-Stil.

Es ist zwar beim besten Willen nicht besonders schnell, doch die Textgenerierung liegt nur leicht unter dem durchschnittlichen Lesetempo. Für D&D-Szenarien auf einem 16-Kern-AMD 5950X (derzeit rund 300 Euro bei Amazon) ist das aber absolut brauchbar und dürfte auf moderneren CPUs wahrscheinlich noch schneller laufen. Je mehr Kerne zur Verfügung stehen, desto besser. Eine ordentliche Menge Arbeitsspeicher ermöglicht zudem den Einsatz größerer Modelle, wobei 16 GB in der Regel ausreichen sollten. Auch Größe und Typ des gewählten Modells haben erheblichen Einfluss auf die Generierungsgeschwindigkeit. Mit einem schlankeren Modell lässt sich das Tempo spürbar erhöhen.

Für das bestmögliche Erlebnis sind Large Language Models mit einer GPU natürlich die beste Wahl. Wer aber einfach ein eigenes LLM ausprobieren, die Einschränkungen von ChatGPT, Claude oder Gemini umgehen oder seine Daten nicht diesen Diensten anvertrauen möchte, braucht für den Einstieg keine besondere Hardware – und bekommt trotzdem eine ordentlich nutzbare Erfahrung.

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!
Mail Logo

Keine Kommentare zum Artikel

Fragen, Anregungen, zusätzliche Informationen zu diesem Artikel? - Uns interessiert Deine Meinung (auch ohne Anmeldung möglich)!
Keine Kommentare zum Artikel / Antworten

static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2026-03 > Keine GPU? Kein Problem: Eigenes LLM hosten macht mehr Spaß als zensierte Angebote großer Anbieter
Autor: David Devey, 29.03.2026 (Update: 29.03.2026)