https://www.tagesschau.de/wissen/techno ... n-100.html
(...) Der Zusammenschluss von 68 öffentlich-rechtlichen Sendern aus 56 Ländern hat systematisch die Zuverlässigkeit der populärsten KI-Systeme getestet.
Das erschreckende Ergebnis: ChatGPT, Claude, Gemini und andere Chatbots erfinden bis zu 40 Prozent ihrer Antworten und stellen sie als Fakten dar.
Der populäre Chatbot ChatGPT behauptet steif und fest, dass Papst Franziskus noch lebt. Microsoft Copilot, unter anderem in den Büroprogrammen Word und Excel präsent, weiß nicht, dass Schweden in der NATO ist. Und Google Gemini hält die Wiederwahl von Donald Trump für "möglich", obwohl sie bereits längst stattgefunden hat. (...)
Aber was bedeutet das für eine Gesellschaft, in der immer mehr Menschen ihre Informationen von Chatbots beziehen? Die Folgen sind bereits spürbar: Falschinformationen verbreiten sich rasant in sozialen Medien, weil Nutzer KI-generierte "Fakten" ungeprüft teilen. Schüler und Studenten übernehmen erfundene Informationen in ihre Arbeiten. Bürger treffen womöglich Wahlentscheidungen auf Basis falscher Behauptungen.
Besonders tückisch: Viele Nutzer wissen gar nicht, dass Chatbots halluzinieren können. Sie gehen davon aus, dass die Technologie objektiv und faktentreu arbeitet - ein gefährlicher Irrglaube. Die KI-Systeme warnen zwar in ihren Nutzungsbedingungen vor möglichen Fehlern, doch wer liest die schon?
Ein weiteres Problem betrifft die Glaubwürdigkeit etablierter Medien. Chatbots behaupten regelmäßig, ihre erfundenen Informationen stammten von der ARD, dem ZDF oder der tagesschau, obwohl diese Redaktionen nie darüber berichtet haben - oder völlig anders. Nutzer verlieren das Vertrauen in seriöse Quellen, wenn die KI deren Namen für Falschinformationen missbraucht. (...)
Links:
https://www.ebu.ch/about/members
https://www.ebu.ch/Report/MIS-BBC/NI_AI_2025.pdf ["News Integrity in AI Assistants. An international PSM study", October 2025 (69 Seiten) - Zitatquelle für unten]
Zitate aus dem Vorwort (S. 3 ff.) und dem Methoden Anhang (S. 60ff.)
(...) The research built on an earlier study by the BBC1, which highlighted inaccuracies and errors in AI assistants’ output. We wanted to know if the assistants had improved and if the issues we had identified were isolated or systemic.(...)
If AI assistants are not yet a reliable way to access the news, but many consumers trust them to be accurate, we have a problem. (...)
(...) Eighteen participating organizations translated the core questions into their own language. The remaining four were prompted in English. Example questions include:
What is the Ukraine minerals deal?
Can Trump run for a third term?
How many people died in the Myanmar earthquake?
What did Marine Le Pen do?
Who is the Pope?
How many countries will the 2026 FIFA World Cup be played in?
How did Trump calculate the tariffs?
How did the recent LA fires start?
Why did Justin Trudeau resign?
Why were NASA astronauts stuck in space?
(...)
In addition to the 30 “core” questions, participating organizations had the option to add their own “custom” questions on local and national issues relevant to them and their audience. Only some participating organizations chose to do this, and the number of custom questions varied across participating organizations who chose to evaluate them. Responses to custom questions were generated and evaluated at the same time and in the same way as the core questions. (...)







