Seit November 2023 veröffentlicht das chinesische Unternehmen DeepSeek KI-Modelle auf Open-Source-Basis. Dank MIT-Lizenz kann jeder das Modell verwenden und für eigene Zwecke anpassen. Damit sind die Modelle transparent und flexibel. Zudem ermöglichen sie eine Zusammenarbeit bei der Entwicklung und sparen Kosten. Nutzer können den Code einsehen und verstehen, wie das Modell funktioniert. Sie können das Modell an ihre Bedürfnisse anpassen und für verschiedene Anwendungsfälle einsetzen. DeepSeek setzt also konsequent auf Open Source und fördert damit Innovation und Wettbewerb im KI-Bereich.
Die Firma entstand aus Fire-Flyer, einem Deep-Learning-Zweig von High-Flyer, einem chinesischen Hedgefonds. Man wollte Finanzdaten am Aktienmarkt besser verstehen, interpretieren und vorhersagen. Seit 2023, mit der Ausgründung von DeepSeek konzentriert man sich dort ganz auf LLMs, als die KI-Modelle, welche die Fähigkeit zur Textgenerierung haben.
Mit den beiden neuesten Familienmitgliedern bei den DeepSeek KIs scheint dem Unternehmen nun ein großer Wurf gelungen zu sein. Laut typischen KI-Benchmarks arbeiten DeepSeek-V3, DeepSeek-R1 und DeepSeek-R1-Zero in ihren Feldern oft besser als ihre Konkurrenten von Meta, OpenAI und Google. Dabei sind sie als Online-Service auch noch deutlich günstiger als etwa ChatGPT. Diese aggressive Preisstrategie könnte die Preisgestaltung von KI-Modellen im Allgemeinen beeinflussen und den Zugang zu fortschrittlichen KI-Tools für ein breiteres Publikum ermöglichen. Das kann sich das Unternehmen auch leisten, weil es deutlich weniger Geld zum Trainieren der KI-Modelle ausgegeben haben will als andere Firmen. Dies gelingt durch effizientere Trainingsprogramme und viel Automatisierung.
DeepSeek-R1 und DeepSeek-R1-Zero sind Reasoning-Modelle. Das heißt, sie entwickeln zunächst einen Plan, wie sie auf eine Frage bestmöglich antworten können, und arbeiten diesen dann in kleinen Schritten ab. Damit wird die Genauigkeit der Ergebnisse verbessert, obwohl gleichzeitig weniger Rechenleistung notwendig ist. Allerdings steigen hier die Anforderungen an den Speicherplatz.
Als Open-Source-KI kann DeepSeek auf dem PC des Endanwenders laufen. Der Zugang zu den benötigten Programmdaten ist dabei gänzlich kostenfrei. Auf Hugging Face lassen sich die Modelle kostenlos laden. Noch einfacher geht es etwa mit Programmen, wie LM Studio, die den kompletten Code zum Ausführen des Programms selbstständig herunterladen und installieren können. Damit entstehen etwa im Arbeitsumfeld keine Fragen nach Datensicherheit und Datenschutz. Die Anfragen, Daten und Antworten verlassen den Rechner nicht. Zudem ist das Modell so offline verfügbar. Besonders rechenstarke Hardware ist hier nicht gefragt, aber viel Arbeitsspeicher und Festspeicher. DeepSeek-R1-Distill-Qwen-32B benötigt etwa 20 GB Speicherplatz auf der Festplatte.
Laut eigener Aussage, wir haben DeepSeek V3 direkt gefragt, beherrscht die KI verschiedenste Sprachen. Darunter nicht nur Chinesisch und Englisch, sondern auch Deutsch, Französisch und Spanisch. Im kurzen Chat lieferten die verschiedenen Sprachen zufriedenstellende Antworten.
So bleibt zuletzt die Frage nach der chinesischen Zensur. DeepSeek-R1 enthält eine Zensurebene für bestimmte politisch sensible Themen. Nutzer, die versuchen, nach bestimmten historischen Ereignissen zu fragen, erhalten entweder keine Antwort oder eine bereinigte Antwort. Über den Tian’anmen-Platz (Platz am Tor des Himmlischen Friedens) am 3. und 4. Juni 1989 braucht man die KI also nicht unbedingt zu befragen, obwohl DeepSeek R1 hier zumindest über die Studierendenproteste und eine Militäroperation schreibt. Aber auch andere KI-Modelle geizen mit Antworten zu politischen Themen. Googles Gemini verweigert die Antwort auf Fragen, wenn sie mit Politik zu tun haben könnten. (Selbst auferlegte) Zensur ist also in verschiedenen KIs zu finden.