CheckMag | Keine GPU? Kein Problem: Eigenes LLM hosten macht mehr Spaß als zensierte Angebote großer Anbieter

Es ist zwar nicht die schnellste Lösung, aber auch ohne GPU durchaus brauchbar – und zumindest behält man die volle Kontrolle über die eigenen Daten.

Ganz gleich, ob es darum geht, eine D&D-Kampagne zu leiten, Code-Probleme zu beheben, Ideen zu entwickeln, NSFW-Inhalte zu erstellen oder die von den großen Anbietern gesetzten Einschränkungen zu umgehen: Mit KoboldCPP lässt sich ein eigenes LLM einfach hosten – und das funktioniert selbst ohne GPU überraschend gut.

David Devey, 👁 David Devey (übersetzt von Marius Müller), Veröffentlicht am 29.03.2026 🇺🇸 🇪🇸 ...

Kommentar von David Devey

Kommentar-Artikel geben ausschließlich die individuelle Meinung des/der angeführten Autors/Autorin wieder.

Was genau mit den eigenen Daten passiert, wenn man eine Anfrage an eine KI stellt, weiß letztlich kaum jemand. Klar ist aber: Was auch immer damit geschieht, wirklich im eigenen Besitz sind diese Daten danach nicht mehr.

Neben der Bild- und Videogenerierung ist das Hosting eines eigenen LLM überraschend einfach und bringt einige Vorteile gegenüber den Angeboten der großen Anbieter mit sich – besonders dann, wenn man mit Large Language Models experimentieren möchte, ohne seine Daten an Big Tech weiterzugeben.

Der wichtigste Punkt: Ganz gleich, wofür das Modell genutzt wird, sämtliche Daten bleiben unter eigener Kontrolle. Allein das ist schon ein klarer Vorteil, wenn man seine Daten nicht an Dritte übergeben möchte. Hinzu kommt, dass sich praktisch jedes beliebige Modell verwenden lässt – ob Deepseek, Gemma2 oder GPT. Ein weiterer Vorteil besteht darin, auch Versionen nutzen zu können, die bestimmte Arten von Anfragen nicht einschränken.

KoboldCPP ist ein einfach zu bedienendes KI-Tool zur Textgenerierung, das aus einer einzigen ausführbaren Datei besteht und für GGUF- und GGML-Modelle ausgelegt ist. Es unterstützt sowohl GPU als auch CPU und kann als spezialisiertes Backend für KI-Storytelling und Chats dienen. KoboldCPP kann über GitHub heruntergeladen werden und ist für Windows, Linux, Mac sowie Docker verfügbar.

Wird das Ganze in einem Container gehostet, lässt sich das LLM ohne großen Aufwand für jedes Gerät im eigenen Netzwerk verfügbar machen. Für die wichtigsten Plattformen, darunter Unraid und TrueNAS, gibt es bereits fertige Vorlagen. Dasselbe ist auch mit anderen Installationen möglich, sofern die nötigen Regeln in der Firewall gesetzt werden.

Erste Schritte

Sobald die gewünschte Plattform feststeht, muss zunächst entschieden werden, welches Modell genutzt werden soll. Die beste Anlaufstelle dafür ist Hugging Face. Die Modelle müssen dabei im GGUF-Format vorliegen.

Wer D&D-Szenarien hosten möchte, sollte auf jeden Fall ein unzensiertes Modell wählen. Andernfalls wird das LLM sich früher oder später weigern, einer Figur Schaden zuzufügen, was zu unerwünschten Ergebnissen führen kann.

Einige Modelle wie Deepseek und Claude neigen dazu, „nachzudenken“, also den gesamten Denkprozess zu einer Anfrage auszugeben. Mit einer GPU, die die Hauptarbeit übernimmt, mag das noch in Ordnung sein, ohne GPU verlangsamt es den Ablauf jedoch deutlich. Hier hilft letztlich nur Ausprobieren, um ein passendes Modell zu finden. Gemma2 ist dafür ein guter Ausgangspunkt.

Auf der jeweiligen Dateiseite muss dann die URL kopiert werden, die zur GGUF-Datei führt. Viele Modelle gibt es in mehreren Größen, daher sollte eine Variante gewählt werden, die im Rahmen des verfügbaren Arbeitsspeichers bleibt.

Die Unraid-Docker-Vorlage erfordert nur 2 Änderungen, um loszulegen. Wenn Sie ohne einen Grafikprozessor arbeiten, entfernen Sie das GPU-Flag und fügen Sie den Link zur GGUF-Datei von Huggingface ein

Die Installation unter Windows läuft weitgehend genauso ab. Wird das Modell ohne GPU genutzt, muss allerdings die NoCUDA-Version heruntergeladen werden. Der Start kann etwas dauern, da KoboldCPP zunächst das Modell herunterlädt, bevor die Benutzeroberfläche angezeigt wird. Unter Windows ist das gut erkennbar, bei Unraid oder TrueNAS muss dagegen das Log geöffnet werden, um den Download-Fortschritt zu sehen. Unter Unraid kann es zudem nötig sein, den verfügbaren Speicherplatz für Docker-Container zu erhöhen – je nachdem, wie groß das gewählte Modell ist.

KoboldCPP bietet vier verschiedene Oberflächenmodi: Instruct, Story, Chat und Adventure.

Instruct wird verwendet, um dem LLM Anweisungen zu geben, Chat ähnelt einem Chatbot, Story ist gut für das Schreiben von Romanen und Adventure eignet sich am besten für interaktive Fiktion im RPG-Stil.

Es ist zwar beim besten Willen nicht besonders schnell, doch die Textgenerierung liegt nur leicht unter dem durchschnittlichen Lesetempo. Für D&D-Szenarien auf einem 16-Kern-AMD 5950X (derzeit rund 300 Euro bei Amazon) ist das aber absolut brauchbar und dürfte auf moderneren CPUs wahrscheinlich noch schneller laufen. Je mehr Kerne zur Verfügung stehen, desto besser. Eine ordentliche Menge Arbeitsspeicher ermöglicht zudem den Einsatz größerer Modelle, wobei 16 GB in der Regel ausreichen sollten. Auch Größe und Typ des gewählten Modells haben erheblichen Einfluss auf die Generierungsgeschwindigkeit. Mit einem schlankeren Modell lässt sich das Tempo spürbar erhöhen.

Für das bestmögliche Erlebnis sind Large Language Models mit einer GPU natürlich die beste Wahl. Wer aber einfach ein eigenes LLM ausprobieren, die Einschränkungen von ChatGPT, Claude oder Gemini umgehen oder seine Daten nicht diesen Diensten anvertrauen möchte, braucht für den Einstieg keine besondere Hardware – und bekommt trotzdem eine ordentlich nutzbare Erfahrung.

Quelle(n)

LostRuins/KoboldCPP via Github, The Guardian, Huggingface, forums.unraid.net, Reddit/LocalLLama, Silly Workshop (via YouTube)

⟨

Ältere News

Deal: Congstar-Telekom-Glasfaser mit sattem Rabatt und ohne Anschlussgebühr, nur noch kurze Zeit

Neuere News

Leichtes E-Bike mit Display und Drehmomentsensor kostet kein Vermögen

⟩

Als bevorzugte Quelle auf Google hinzufügen

Alle 3 Beträge lesen / Antworten

Loading Comments

Diesen Artikel kommentieren / Antworten

Verwandte Artikel

Weitere Artikel anzeigen

Autor des Originals: David Devey - Magazine Writer - 121 Artikel auf Notebookcheck veröffentlicht seit 2023

Seitdem ich Manic Miner auf dem ZX Spectrum kennengelernt habe, bin ich ein begeisterter Gamer und Technologiefan. Verführt von UMPCs und dem Versprechen von großer Leistung in kleinen Paketen, habe ich zu viel Zeit und Energie mit Jailbreaking, Flashen und Übertakten von allem verschwendet, was einen elektrischen Impuls hat. Ich bin ein überzeugter Verfechter des Rechts auf Reparatur und nehme es jedem Unternehmen übel, wenn es mir vorschreibt, wie ich etwas zu benutzen habe, für das ich bezahlt habe.

Übersetzer: Marius Müller - Tech Writer - 4297 Artikel auf Notebookcheck veröffentlicht seit 2024

Als Kind der 90er war mein Gameboy mein ständiger Begleiter. Nach der Schule wurde die PlayStation angeworfen. Als ich schließlich meinen ersten PC bekam, war es vollends um mich geschehen. Meine Leidenschaft fürs Gaming ist seitdem nie wieder abgeflacht. Für Notebookcheck zu schreiben bedeutet für mich, über Themen zu berichten, die mir wirklich am Herzen liegen – neben Gaming auch gerne über E-Mobilität, Fotovoltaik oder innovative Gadgets. Wenn ich gerade nicht am Rechner sitze, schiebe ich wahrscheinlich Wasserrettungsdienst an der Ostseeküste oder versuche, den Schattenseiten meines Geek-Lebens – nämlich dem langen Sitzen – in der lokalen Schwimmhalle entgegenzuwirken.

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2026-03 > Keine GPU? Kein Problem: Eigenes LLM hosten macht mehr Spaß als zensierte Angebote großer Anbieter

Autor: David Devey, 29.03.2026 (Update: 29.03.2026)