Alibaba, bekannt als Technologie-Gigant, hat mit Tongyi DeepResearch einen interessanten Schritt im Bereich der Künstlichen Intelligenz (KI) gemacht. Das neue Modell ist ein sogenanntes "agentisches Large Language Model" (LLM). Das bedeutet, es ist nicht einfach nur ein Chatbot, der Fragen beantwortet, sondern ein digitaler "Agent" oder "Forscher", der in der Lage ist, komplizierte Aufgaben selbstständig zu planen, auszuführen und über längere Zeiträume hinweg zu bearbeiten – also echte Tiefenrecherche zu betreiben. Das Besondere: Tongyi DeepResearch ist Open-Source und frei verfügbar.
Das Modell baut laut Tongyi DeepResearch auf der Qwen3-30B-A3B-Architektur auf.Was es besonders macht: Es nutzt eine spezielle Technik (MoE-Architektur), bei der es zwar 30 Milliarden Gesamtparameter besitzt, aber in jedem Rechenschritt nur eine kleine Untergruppe von 3 Milliarden Parametern aktiviert. Das macht es vergleichsweise leichtgewichtig und effizient. Laut Tongyi DeepResearch erreicht dieses Modell damit Spitzenleistungen (State-of-the-Art) und soll mit führenden, aber nicht öffentlichen (proprietären) Forschungs-Agenten mithalten können.
"Heavy Mode" für komplexe Aufgaben
Um komplexe und langwierige Aufgaben erfolgreich zu meistern, muss ein KI-Agent nicht nur Informationen finden, sondern sie auch behalten -sich errinnern" und richtig verknüpfen können. Hier kommt die größte Neuerung des Modells ins Spiel: der "Heavy Mode", der auf dem IterResearch-Prinzip basiert.
Bei vielen KI-Agenten werden alle Informationen und Zwischenschritte in einem einzigen, immer länger werdenden Text (dem "Kontextfenster") gesammelt. Das führt schnell zu einem digitalen "Chaos" oder einer "kognitiven Erstickung". Das Modell verliert den Überblick und die Qualität der Ergebnisse sinkt.
Das IterResearch-Prinzip löst dieses Problem:
- Es zerlegt eine große Forschungsaufgabe in eine Reihe von kleineren "Runden".
- In jeder Runde sortiert der Agent die Informationen und baut einen neuen, sauberen Arbeitsbereich auf, in den er nur die wichtigsten Erkenntnisse der vorherigen Runde übernimmt.
- Dieser Synthese- und Neustart-Prozess ermöglicht es dem Agenten, seinen Fokus zu behalten und die Qualität der Argumentation selbst bei Projekten, die viele Schritte erfordern, konstant hoch zu halten.
Trainingsmethode: Fokus auf synthetische Daten
Die Leistungsfähigkeit von Tongyi DeepResearch beruht auf einem mehrphasigen Trainingsprozess, der die Stufen Agentic CPT → Agentic SFT → Agentic RL (Continual Pre-training, Supervised Fine-Tuning und Reinforcement Learning) umfasst. Ein Kernelement dieser Strategie ist die ausschließliche Verwendung vollständig synthetischer Daten.
Das Entwicklungsteam nutzt dabei eine interne Lösung namens AgentFounder, um große Mengen an künstlichen, hochwertigen Datensätzen zu erzeugen. Dies dient als Alternative zu traditionell von Menschen annotierten Daten, die, so die Entwickler, oft Inkonsistenzen aufweisen oder in ihrem Umfang begrenzt sind. Mithilfe dieser synthetischen Datengenerierung soll der Schwierigkeitsgrad der Aufgaben gezielt gesteuert werden können, um das Modell bis zur Bewältigung von Forschungsproblemen auf "PhD-Level" (Doktoranden-Niveau) zu trainieren. Laut den Entwicklern führt das Training mit diesen konsistenten synthetischen Daten zu stabileren und besseren Lernergebnissen.
Die Resultate dieser Methode werden in den veröffentlichten Messwerten sichtbar: Das Modell erreicht in akademischen Benchmarks wie dem "Humanity’s Last Exam" eine Punktzahl von 32,9 und soll sich in Tests für komplexe Internet-Recherchen (z.B. BrowseComp) vor vergleichbaren Konkurrenzmodellen positionieren.
Einsatz in der Praxis
Tongyi DeepResearch ist kein reines Laborexperiment mehr. Es wird bereits in der Praxis in verschiedenen Anwendungen genutzt:
- Gaode Mate (Navigations-Agent): Plant als smarter Beifahrer komplexe, mehrtägige Reisen. Er kann zum Beispiel eine Tour mit Zwischenstopps an spezifischen Orten und nur in haustierfreundlichen Hotels planen, was mehrere Schritte der Informationssuche und -verknüpfung erfordert.
- Tongyi FaRui (Rechtsforschungsagent): Dieser Agent funktioniert wie ein digitaler Rechtsassistent. Er führt umfangreiche juristische Recherchen durch, vergleicht Gesetze und Präzedenzfälle und liefert seine Ergebnisse mit überprüfbaren Quellenangaben und präzisen Zitaten – eine Anforderung auf professionellem Niveau.
Ausblick und offene Fragen
Die Entwickler sehen noch Potenzial für Verbesserungen. Die aktuelle Speicherkapazität (Kontextlänge) von 128.000 Tokens ist zwar groß, aber für die absolut komplexesten Aufgaben immer noch ein limitierender Faktor. Außerdem muss noch getestet werden, ob diese Trainingsmethode auch bei weitaus größeren Basismodellen als 30 Milliarden Parametern noch genauso gut funktioniert.
















