DeepSeek und die Rolle Europas im KI-Wettbewerb
Unterscheiden sich Open-Source-KI-Modelle wie DeepSeek von anderen LLMs? Wird das Modell die hiesige Forschung voranbringen und wie steht es überhaupt um die KI-Entwicklung in Europa? Dr. Vera Schmitt, Dr. Nils Feldhus und Dr. Oliver Eberle von der TU Berlin ordnen den Erfolg des chinesischen Large Language Models ein.

Die Expertinnen und Experten
Dr. Vera Schmitt ist Forschungsgruppenleiterin und Dr. Nils Feldhus Postdoktorand in der Xplainlp-Gruppe des Quality and Usability Lab an der TU Berlin. Sie forschen zu Hochrisiko-KI-Anwendungen und entwickeln KI-gestützte Systeme zur intelligenten Entscheidungsunterstützung.
Dr. Oliver Eberle ist Postdoktorand in der Machine Learning Group des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin. Seine Forschung gilt vor allem der erklärbaren künstlichen Intelligenz sowie Natural Language Processing und deren Anwendungen in den Wissenschaften, wie den Digital Humanities und der Kognitionswissenschaft.
Wie unterscheiden sich die Konzepte von DeepSeek und ChatGPT?
Schmitt und Feldhus: DeepSeek steht für Open-Source-Transparenz und Effizienz, während ChatGPT auf massive Rechenleistung und Skalierung setzt. Ersteres ermöglicht Anpassung und niedrigere Kosten, letzteres bietet optimierte Performance, bleibt aber proprietär und ressourcenintensiv. Man muss allerdings sehen, dass DeepSeek nicht 100 Prozent Open-Source ist, denn zum Beispiel sind nicht alle Trainingsdaten bekannt, die in das Modell hineingeflossen sind.
Eberle: DeepSeek ist integriert in die Hugginface Community, eine Plattform, die bereits Hunderte von Open-Source-Modellen und Quellcode der Modelle verfügbar macht und eine wichtige Rolle in der Verfügbarkeit, Zugänglichkeit und Transparenz von LLMs sowohl in der Forschung als auch in der Industrie spielt. DeepSeek veröffentlicht detaillierte Beschreibungen und technische Reporte seiner Modelle und beschreibt hierin auch Negativ-Resultate. Dies ist ein hilfreicher Beitrag für die Open-Source-Community, weil so die Verbesserung von künftigen offenen LLM-Systemen vorangebracht wird. ChatGPT ist im Vergleich proprietär und nur das Interface ist zugänglich. Der Code zum Trainieren sowie spezifische Datensätze werden meines Wissens nach weder von DeepSeek noch ChatGPT veröffentlicht.
Wird Deepseek Ihre Forschung voranbringen?
Schmitt und Feldhus: DeepSeek könnte unsere Forschung weiter voranbringen, da es effizientere Modellarchitekturen und neue Trainingsansätze bietet und diese auf unseren Rechnern reproduzierbar macht. Besonders spannend sind potenzielle Verbesserungen bei der Ressourceneffizienz, aber auch in der mehrsprachigen Verarbeitung und der Adaptierbarkeit für spezifische Domänen, die unsere bestehenden Methoden ergänzen und optimieren könnten.
Eberle: DeepSeek ermöglicht uns nun Zugang zu einem Modell mit State-of-the-Art-Fähigkeiten in logischem Denken (reasoning capabilities), was zu neuen Einblicken in das Lösen komplexer Aufgaben durch LLMs führen könnte.
Warum sind mit dem Erfolg und Misserfolg von KI auch Chiphersteller wie Nvidia verknüpft?
Schmitt und Feldhus: Der Erfolg oder Misserfolg von KI ist eng mit Chipherstellern wie Nvidia verknüpft, weil moderne KI-Modelle enorme Rechenleistung benötigen, die hauptsächlich durch spezialisierte GPUs (Graphics Processing Units) und KI-Beschleuniger bereitgestellt wird. Nvidia ist führend in diesem Bereich mit leistungsstarken Chips wie der H100- und A100-Serie, die speziell dafür entwickelt wurden, künstliche Intelligenz zu trainieren und ihre Ergebnisse schnell bereitzustellen. Dazu bietet Nvidia mit Cuda auch die passende Software an, die diese Berechnungen effizient ermöglicht. Wenn KI-Technologien florieren, steigt natürlich die Nachfrage nach diesen Chips stark an - Unternehmen, Forschungseinrichtungen und Cloud-Anbieter investieren massiv in GPU-Cluster. Dies treibt den Umsatz und den Aktienkurs von Nvidia in die Höhe. Umgekehrt würde ein Rückgang der KI-Nachfrage oder technologische Verschiebungen hin zu alternativen Architekturen (wie wir das jetzt mit DeepSeek R1/V3 beobachten können) die Abhängigkeit von Nvidia verringern und deren Geschäft zum Teil negativ beeinflussen. Die doppelte Monopolstellung Nvidias - Hardware und Software - macht es hingegen schwer, die KI-Erfolge von dem Unternehmen zu entkoppeln. Solange auch DeepSeek GPUs von Nvidia beziehungsweise Cuda benutzt, ist Nvidia aus dem KI-Diskurs nicht wegzudenken. Kurz gesagt: Die Hardware-Entwicklung und der Erfolg von KI sind symbiotisch - Fortschritte in KI treiben die Chipindustrie an, während leistungsfähigere Chips neue KI-Modelle ermöglichen.
Wusste die Community um die Durchschlagskraft des neuen chinesischen LLMs?
Schmitt und Feldhus: Es gab in China bereits in den letzten Jahren enorme Investitionen und strategische Initiativen im KI-Sektor. Daher ist DeepSeek keine große Überraschung, sondern eine natürliche Weiterentwicklung, ressourceneffizientere LLMs zu erstellen. Zudem baut DeepSeek stark auf bestehende Open-Source-Modell-Familien wie LLaMA, Mistral und Qwen auf und erweitert unsere Möglichkeiten, eine breitere Palette an LLMs zu analysieren. Besonders Qwen, ebenfalls ein Produkt chinesischer Forschung, hat für uns schon deutlich gemacht, dass China hier ein entscheidender, nicht zu unterschätzender Player ist. Bemerkenswert an DeepSeek R1 ist, dass sich die Argumentationsfähigkeit deutlich verbessert hat und uns neue Einblicke in die Fähigkeit von LLMs zur Lösung komplexer Aufgaben eröffnet. Das ist vor allem für schwierigere Aufgaben mit einem höheren Komplexitätsniveau, wie die Desinformationserkennung, interessant.
Eberle: DeepSeek ist durchaus bekannt, und dessen Vorgängermodell DeepSeek-V2 war bereits recht erfolgreich, zum Beispiel in der Generierung von Code. Daher bin ich etwas überrascht über die starke Reaktion der Medien und Märkte.
Wie ist Europa hier aufgestellt?
Schmitt und Feldhus: Aktuell liegt der Fokus innerhalb der EU vor allem auf der Regulierung von KI und es werden nicht genügend Ressourcen gebündelt bereitgestellt, um auch nur entfernt ein Gegengewicht zu den USA oder China bilden zu können. Vor allem, wenn wir die Investitionspläne wie Stargate berücksichtigen, kann die EU aktuell nicht mithalten. Auch werden vielversprechende KI-Startups oft von US-Unternehmen übernommen und/oder verlagern ihren Hauptsitz in die USA.
Eberle: Europa und Deutschland fokussieren sich auf die Entwicklung von vertrauenswürdigen und transparenten KI-Methoden. Ich habe auch den Eindruck, dass Europa sich auf spezifische Anwendungen von LLMs spezialisiert, zum Beispiel LLM-Grundlagenmodelle für Anwendungen in der Medizin (z.B. aignostics' RudolfV-Modell zur Erkennung von Pathologie-Daten), den Rechtswissenschaften (Legal LLMs wie Legal-Bert zur Bearbeitung und Erstellung von Rechtstexten) oder KI-Methoden für Quanten-Chemie.
Die Anwendung DeepSeek unterliegt der chinesischen Zensur. Inwiefern beeinflussen solche Einschränkungen die Leistungsfähigkeit von LLM?
Eberle: Die Einschränkungen werden meist nach dem eigentlichen Modell-Training auferlegt, sind also wie ein Filter zu sehen, der ungewollte Ausgaben unterdrückt. Daher würde ich nicht grundsätzlich davon ausgehen, dass themenoffene Systeme generell leistungsfähiger sind. Falls jedoch größere Datenmengen bereits vor dem Training gefiltert werden, könnte das Auswirkungen auf die Generalisierungsfähigkeit dieser Modelle haben. Es ist ein wichtiger Unterschied, ob das Modell keine Daten über sensible Themen bekommt, oder ob das Modell nichts über diese sagen soll.
Unterscheiden sich Open-Source-KI-Modelle wie DeepSeek von anderen LLMs? Wird das Modell die hiesige Forschung voranbringen und wie steht es überhaupt um die KI-Entwicklung in Europa? Dr. Vera Schmitt, Dr. Nils Feldhus und Dr. Oliver Eberle von der TU Berlin ordnen den Erfolg des chinesischen Large Language Models ein.

Die Expertinnen und Experten
Dr. Vera Schmitt ist Forschungsgruppenleiterin und Dr. Nils Feldhus Postdoktorand in der Xplainlp-Gruppe des Quality and Usability Lab an der TU Berlin. Sie forschen zu Hochrisiko-KI-Anwendungen und entwickeln KI-gestützte Systeme zur intelligenten Entscheidungsunterstützung.
Dr. Oliver Eberle ist Postdoktorand in der Machine Learning Group des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin. Seine Forschung gilt vor allem der erklärbaren künstlichen Intelligenz sowie Natural Language Processing und deren Anwendungen in den Wissenschaften, wie den Digital Humanities und der Kognitionswissenschaft.
TU Technische Universität Berlin
Dieser Artikel erschien in IT&Production 2 (März) 2025 - 05.03.25.Für weitere Artikel besuchen Sie www.it-production.com