Der Anteil falscher Antworten von KI-Chatbots hat sich bei aktuellen Nachrichtenthemen in einem Jahr fast verdoppelt
Eine aktuelle Untersuchung „AI False Claims Monitor“ des Unternehmens NewsGuard (Sept. 2025) liefert folgende Erkenntnisse: Bei aktuellen Nachrichtenthemen hat sich die Fehlerquote führender KI-Chatbots innerhalb eines Jahres fast verdoppelt – von 18% auf 35% falsche Antworten.
Das Ausmass des Problems
Im Juli 2024 – zu einer Zeit, als generative KI-Tools gerade begannen, die Nachrichten- und Informationswelt umzukrempeln – lancierte NewsGuard den „AI False Claims Monitor“. Damit entstand erstmals ein monatlicher Massstab dafür, wie führende KI-Modelle mit nachweislich falschen Behauptungen zu umstrittenen Themen umgehen. Monatlich wird seither überprüft, ob die Modelle Fortschritte beim Erkennen und Widerlegen von Falschinformationen machen oder ob sie diese weiterhin reproduzieren.
Damals, im Jahr 2024, gab es neben richtigen und falschen Antworten noch eine dritte Kategorie: das Schweigen. Die sogenannte kombinierte Fehlerquote – also die Wiederholung einer falschen Behauptung oder die Verweigerung einer Antwort – lag bei 49 Prozent. Im August 2025 lag sie bei 35 Prozent. Dieser Rückgang ist jedoch nur darauf zurückzuführen, dass die Chatbots im Vorjahr zurückhaltender waren und häufiger gar keine Antwort gaben. Inzwischen reagieren sie zwar auf jede Anfrage, liegen aber immer noch in 35 Prozent der Fälle daneben.
Die zehn führenden KI-Tools, darunter ChatGPT, Claude und Gemini, zeigten ein paradoxes Verhalten: Während sie heute auf 100% aller Anfragen antworten (statt wie früher bei 31% die Antwort zu verweigern), ist die Qualität bei tagesaktuellen Ereignissen dramatisch gesunken.

Rankings nach Chatbot
Von August 2024 bis August 2025 stieg die Quote korrekter Widerlegungen im Schnitt von 51 auf 65 Prozent. Gleichzeitig sank die Quote der Nicht-Antworten von 31 auf null Prozent.
Die Auswertungen des vergangenen Jahres zeigen eine beständige Schwachstelle: Führende Chatbots wiederholen regelmässig erfundene Narrative, die von staatsnahen Propagandanetzwerken verbreitet und als seriöse Lokalnachrichten getarnt werden.

KI-Modelle sind People Pleaser
Die auffälligste Veränderung ist der Rückgang der Nicht-Antworten: von 31 % im August 2024 auf null Prozent im August 2025. Während sich Chatbots früher bei unsicheren Themen verweigerten, liefern sie heute selbstbewusst falsche Informationen – ganz im Stil eines People Pleasers.
Wer kontrolliert die KI?
KI-Modelle sind lernende Systeme, die sich ständig weiterentwickeln. Aktuell gibt es jedoch keine Kontrolle der KI-Modelle.
Spannend wäre ein Zusammenspiel aus unterschiedlichen Ebenen:
- Systemischer Verantwortung der Anbieter: Klare Standards, Transparenz zu Fehlerquoten.
- Individueller Kompetenz der Nutzer: kritisches Prüfen der Ergebnisse.
- Politischer Leitplanken: Regeln, die den Einsatz in Hochrisikobereichen regulieren.
Fest steht: Wir als Menschen müssen KI-Ergebnisse kritisch prüfen – genauso, wie wir auch die Ergebnisse von Mitarbeitenden, Kolleg:innen prüfen und kritisch hinterfragen. Genauso, wie wir auch bereits früher Google-Ergebnisse kritisch hinterfragt haben. Die „KI-Polizei“ sind wir selbst – durch Wissen, klare Standards und verantwortungsbewusstes Handeln.
PRÜFE-Framework
Das PRÜFE-Framework von Barbara Geyer besteht aus fünf klar definierten Schritten, die kritisches Denken im Umgang mit KI-generierten Inhalten fördern. Es ist so aufgebaut, dass es auch in Themenfeldern eingesetzt werden kann, in denen man selbst kein Experte ist.
Die fünf Schritte des PRÜFE-Frameworks
P – Plausibilität: Trainiere deine erste Einschätzung systematisch. Was fällt beim ersten Lesen auf, was wirkt unstimmig?
R – Recherche: Konfrontiere die gleiche Frage mit verschiedenen KI-Systemen wie ChatGPT, Claude oder Gemini und gleiche die Ergebnisse mit unabhängigen Quellen ab.
Ü – Überzeugungen: Decke implizite Annahmen auf, indem du gezielt nach fehlenden Perspektiven fragst (z.B. systematisch fehlende Sichtweisen oder unausgesprochene Vorannahmen untersuchen)
F – Falsifizieren: Versuche, Aussagen zu widerlegen, statt nur Bestätigung zu suchen.
E – Entscheiden: Formuliere eine bewusste und nachvollziehbare Entscheidung.

Kultur der kritischen KI-Nutzung
Wir müssen eine Kultur der kritischen KI-Nutzung entwickeln. Es braucht für die Zukunft eine intelligente Partnerschaft zwischen menschlicher Urteilskraft und maschineller Effizienz. Nur so verwandeln wir ein 35%-Risiko in eine 100%-Chance.
Die eigentliche „KI-Polizei“ sind wir alle – wenn wir Kompetenzen aufbauen, Standards schaffen und Verantwortung ernst nehmen.
