DeepSeek: Erzeugt "schlechteren" Code für bestimmte Nutzer

Stop - Pixabay[English]Es ist wohl eine logisch nachvollziehbare aber unschöne Erkenntnis. Benutzer der chinesischen AI-Lösung DeepSeek erhalten bei Anfragen zum Erstellen von Quellcode schlechtere Ergebnissen, wenn die Anfrage in Englisch gehalten wird, und wenn der Anfragende aus Regionen kommt, die der chinesischen Regierung nicht "ganz so genehm sind". Die Erkenntnis einer Studie wirft erneut ein Licht auf die mit dem Einsatz ausländischer KI-Modelle einhergeht.


Anzeige

Admin-Passwörter schützen mit Windows LAPS. eBook jetzt herunterladen » (Anzeige)

Wer sich mit der AI-Entwicklung befasst, weiß, dass es einerseits Bestrebungen gibt, die LLMs so einzubremsen, dass sie keine schädlichen oder kompromittierenden Antworten geben. Und es gibt einen unbewussten BIAS, der Einfluss auf die Modelle haben kann, weil die Entwicklung mit bestimmten Wertvorstellungen und das Training mit bestimmten Datensätzen durchgeführt wurde.

Das birgt Risiken, dass die Verwendung von AI-Modellen zu Ergebnissen führt, die "irgendwie Schlagseite" bekommen.

Zum chinesischen DeepSeek hatte ich hier im Blog ja bereits einige Beiträge – in Deutschland ist dieses Sprachmodell von den Datenschutzbehörden – wegen des Datentransfers nach China – explizit unerwünscht. Jetzt gibt es einen neuen Informationssplitter. Welche Risiken ein unbewusst oder gezielt gesetzter BIAS bei Large Language Modellen (LLM)s haben kann und wie gezielte Beeinflussungen wirken, ist jetzt bei einer Untersuchung der chinesischen AI-Lösung DeepSeek herausgekommen.


Anzeige

Code-Qualität abhängig vom Fragenden

Die Washington Post berichtet in diesem Artikel (leider Paywall, the decoder zitiert hier aus diesem Artikel) davon, dass das chinesische DeepSeek Nutzern bei der Bitte, einen Quellcode für eine Fragestellung zu erstellen, unterschiedliche "Code-Qualitäten" bietet. Diese Code-Qualität hängt davon ab, ob der Fragesteller in chinesisch aus China kommt, oder aus Regionen, die der chinesischen Regierung nicht so genehm sind (beispielsweise Taiwan, Uigurien, oder Falung Gong-Anhänger etc.). Auch eine Anfrage in englischer Sprache soll zu künstlich verschlechtertem Code führen.

Herausgefunden hat dies ein Team des US-Cybersicherheitsanbieters CrowsStrike, die dazu eine Serie an Tests gefahren haben. Dazu reichte CrowsStrike nahezu identische Testanfragen in englischer Sprache bei DeepSeek ein. Es wurde um Unterstützung bei der Programmierung gebeten. Die Tests umfassten auch Anfragen für Programme für industrielle Steuerungssysteme.

Bei den Tests lehnte DeepSeek die Anfragen nicht grundsätzlich ab. Aber die Ergebnisse fielen sehr unterschiedlich aus, je nachdem, ob die Anfragen vorgeblich aus bestimmten Regionen stammten oder vorgegeben wurde, dass sie im Zusammenhang mit der in China verbotenen Falung Gong-Bewegung stehe. Nur bei Fragen, die im Zusammenhang mit dem Islamischen Staat standen, lehnte DeepSeek (ähnlich wie US-Sprachmodelle) häufig Antworten ab. Hier die zusammengefassten Ergebnisse:

  • Etwa 23 Prozent der Standardantworten enthielten unsicheren oder fehlerhaften Code.
  • Aber die Fehlerquote stieg auf über 42 Prozent, wenn die Projekte mit der Terrororganisation Islamischer Staat in Verbindung gebracht wurde.
  • Deepseek generierte angeblich auch schwächeren Code, wenn Projekte mit Tibet, Taiwan oder der verbotenen spirituellen Bewegung Falun Gong in Verbindung standen.
  • Deepseek lehnte 61 Prozent der Anfragen zum Islamischen Staat ab, verglichen mit 45 Prozent der Anfragen zu Falun Gong.

Es ist lange bekannt, dass DeepSeek bei Fragen nach bestimmten politischen sensiblen Themen falsche Antworten liefert, die aber im Einklang mit der Position der chinesischen Regierung stehen, schreibt die Washington Post. Neu sei aber, dass DeepSeek aus politischen Gründen möglicherweise weniger sichere Codes vorschlägt, interpretiert die Washington Post diese Erkenntnisse.

Helen Toner, Interim-Geschäftsführerin des Center for Security and Emerging Technology an der Georgetown University, wird mit folgender Aussage zitiert: "Das ist eine wirklich interessante Erkenntnis. Das ist etwas, worüber sich die Menschen Sorgen gemacht haben – größtenteils ohne Beweise."

DeepSeek wurde von der Washington Post für eine Stellungnahme angefragt, hat auf diese E-Mail aber nicht reagiert.

Ähnliche Artikel:
DeepSeek AI-Apps in Deutschland wegen Datenübermittlung nach China blockiert
Kann eine AI wie DeepSeek Malware und Keylogger erstellen?
Deepseek aus China: AI-Modell R1 lässt US-Konzerne zittern
Microsofts CEO Nadella sagt "30% des Codes sind KI-generiert"
Builder.ai: "KI" mit 700 Indern im Hintergrund, der Flop der AI-Startups


Anzeige

Dieser Beitrag wurde unter Allgemein veröffentlicht. Setze ein Lesezeichen auf den Permalink.

7 Antworten zu DeepSeek: Erzeugt "schlechteren" Code für bestimmte Nutzer

  1. Peter Vorstatt sagt:

    + Wird erinnern uns an (1), Zitat: "Als der [CrowdStrike] Sensor problematische Inhalte … empfing und in den Content-Interpreter lud, führte dies zu einem Out-of-Bounds-Speicherlesevorgang, der eine Ausnahme auslöste. Diese unerwartete Ausnahme konnte nicht ordnungsgemäß behandelt werden und führte zu einem Absturz des Windows-Betriebssystems (BSOD)", …".

    Warum ausgerechnet nun diese Bude als 'Single Source of Truth' in Sachen Codequalität gelten soll, erschliesst sich mir nicht.

    + Betr. "Helen Toner, Interim-Geschäftsführerin des Center for Security and Emerging Technology an der Georgetown University, wird mit folgender Aussage zitiert: "Das ist eine wirklich interessante Erkenntnis. Das ist etwas, worüber sich die Menschen Sorgen gemacht haben – größtenteils ohne Beweise.":

    Aufwachen! Dieses "Center" (2) hat eine politische Mission, nämlich Amerikas KI-Buden im Spiel zu halten (3)! Computer Science wird an der Georgetown University aber wonders (4) betrieben. Offenbar hat sich dort aber – und auch sonst nirgends in der Academia – niemand gefunden, dieser Aushilfsleiterin die benötigte Wahrheit zu liefern.

    Alleine schon dieses heuchlerische Gequatsche von den Menschen, die sich angeblich Sorgen gemacht haben, ein Sack chinesischer KI-Reis könne ihnen auf die Füsse fallen – entlarvend. Die Lobbyistin sollte sich lieber mal darum kümmern, dass auch us-amerikanische KI Modelle, ganz abseits von etwaigem Bias geschuldeten 'Divergenzen', noch den grössten Mist verzapfen können. Da sollten die sich mal vom Wettbewerb abzuheben versuchen, statt einfallslos mit durchsichtigen politischen Manövern die Konkurrenz madig zu machen.
    _
    (1) https://t3n.de/news/crowdstrike-panne-ausfall-85-millionen-rechnern-1637309/
    (2) https://cset.georgetown.edu/team/
    (3) https://cset.georgetown.edu/article/could-china-topple-americas-ai-throne/
    (4) https://cs.georgetown.edu/faculty/

    • Günter Born sagt:

      Kann man so sehen, muss man aber nicht. Es steht für mich schlicht eine Aussage im Raum, die könnte man durch eigene Versuche belegen oder entkräften – das hätte dann einen Wert an sich. Der obige Kommentar ist schlicht FUD. Imho.

      • Peter Vorstatt sagt:

        + Betr.: "Der obige Kommentar ist schlicht FUD. Imho.".

        Kann es sein, dass Sie sich im Begriffsinhalt der Bezeichnung FUD irren? S. (1); die Verlautbarungen dieses Center for Security and Emerging Technology (CSET) sind FUD. Mein Kommentar hingegen ist es gerade nicht, denn meine Message lautet 'keine Angst vorm gelbem Mann'.

        + Betr. "durch eigene Versuche belegen oder entkräften":

        Ist nicht Ihr Ernst? Der Weg der Verkündung verlief von CrowdStrike über CSET über die Presse zu den Lesern, ohne dass nur eine der drei ersten Instanzen Codebeispiele angeführt oder gar einen Report im Volltext zur Verfügung gestellt resp. verlinkt hätte. Für eine universitäre Gliederungseinheit wie dem CSET, von dem man eigentlich die Einhaltung akademischer Gepflogenheiten erwarten dürfte, eine Blamage.

        Ich selbst werde hier aus mehreren Gründen keine eigenen Versuche darlegen; nicht zuletzt weil der Grundsatz gilt, wer vorwirft muss substanziieren und da liegt der Ball nicht bei mir.

        (1) https://de.wikipedia.org/wiki/Fear,_Uncertainty_and_Doubt

  2. Pau1 sagt:

    Die KI hat doch auch weiße, männliche Bewerber bevorzugt, weil sie so gefüttert worden war und dem Frager gefallen will/soll.
    Vielleicht schreiben Chinesen tatsächlich generell besseren Code als Amerikaner? Vielleicht weil ihr Gehirn durch die andere, bild-orientierte Sprache anders geprägt wurde?

  3. Luzifer sagt:

    Ist auch wieder so ein typischer "West Bias"… gerade die Institution ist jetzt nicht gerade für Neutralität bekannt und macht doch jedes andere LLM ebenso: die Ergebnisse kastrieren nach "Betreiberideologie". Die einen mehr die anderen weniger… Grok vielleicht noch am freiesten/am wenigsten beschnitten und deswegen immer wieder angefeindet.
    Nothing new under the blue sky!

  4. viebrix sagt:

    Leider habe ich keine Zeit das genauer anzusehen/nachzuforschen. Aber mir gehen hier wirkliche Daten ab. Wie viele Anfragen wurde pro Sprache/Region gemacht, dass man auf so genaue Prozentzahlen kommen konnte. Nahezu idente Anfragen ist leider bei der KI schon etwas komplett anderes (ein Wort oder sogar ein Zeichen anders und es reagiert anders). Selbst die selbe Anfrage, mit einem anderen Seed, ist schon bei den meisten Modellen – ein komplett anderes Ergebnis. Fragt man bei den meisten amerikanischen Modellen in Deutsch an, bekommt man meist auch schlechtere Ergebnisse. Das liegt einfach an den Trainingsbeispielen. Man kann China auch nicht verdenken, dass sie eine LLM auf Chinesisch optimieren.
    Was generell auch in dem Zusammenhang interessant wäre: gibt es die selbe Schieflage auch wenn DeepSeek als lokales Modell betrieben wird? Zum Thema Datenschutz, man kann ja DeepSeek auch lokal benutzen. (Hardware vorausgesetzt, aber Unternehmen hätten wohl das nötige Kleingeld)
    Wie wird die Code-Qualität bewertet. Das alleine ist ja schon ein eigenes sehr umstrittenes Thema. Bzw. kann man das sehr gut beeinflussen wenn man das möchte.
    Alles in allem macht dieser Test nur Sinn wenn er in der gleichen Weise mit amerikanischen Modellen (in anderer Sprache) genauso durchgeführt wird. Dann sollte man die Ergebnisse vergleichen und – dann kann man sich eine Meinung bilden.

    Whisper funktioniert zB auf Deutsch auch extrem viel schlechter als auf Englisch…. Voxtral muss ich leider erst testen…

  5. Bolko sagt:

    Zitat:
    "leider Paywall"

    Webseiten hinter einer Paywall kann man oft trotzdem lesen, wenn man deren URL bei archive . is oder . ph eingibt.

Schreibe einen Kommentar zu Pau1 Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros. Kommentare abseits des Themas bitte unter Diskussion. Kommentare, die gegen die Regeln verstoßen, werden rigoros gelöscht.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.