Warum KI-Agenten halluzinieren — und wie wir bei VIA dagegen bauen
Eine OpenAI-Studie beweist mathematisch, warum Sprachmodelle überzeugend falsch antworten. Wie unser ProtectedPromptBuilder bereits 94 Prozent weniger Halluzinationen erreicht — und was als Nächstes kommt.
TL;DR. Eine im September 2025 veröffentlichte Studie von OpenAI und Georgia Tech beweist mathematisch: Sprachmodelle erfinden überzeugende Falschinformationen nicht aus Versehen, sondern weil unsere gängigen Test-Verfahren genau dieses Verhalten belohnen. Für Unternehmen, die KI-Agenten im Kundenkontakt einsetzen, hat das weitreichende Konsequenzen. Wir zeigen, warum „mehr Daten" oder „größere Modelle" das Problem nicht lösen — wie unser ProtectedPromptBuilder bereits heute 94 Prozent weniger Halluzinationen erreicht und wie wir mit der nächsten Ausbaustufe — der VIA Confidence Architecture — eine zusätzliche Sicherheitslinie ziehen.
Das Phänomen, das jeder kennt
Du fragst einen KI-Agenten nach einer Telefonnummer, einer Quelle, einem Datum. Du bekommst eine Antwort, die sich richtig anfühlt — gut formuliert, selbstbewusst, plausibel. Nur stimmt sie nicht. Im Fachjargon heißt das Halluzination: das Modell erzeugt eine erfundene Aussage und präsentiert sie wie eine Tatsache.
Was im privaten Chat ärgerlich ist, wird im Kundendialog gefährlich. Wenn ein KI-Agent einen falschen Preis nennt, eine nicht existierende Stornofrist behauptet oder eine erfundene Filialadresse herausgibt, ist das nicht nur peinlich. Es ist potenziell rechtlich relevant und beschädigt nachhaltig das Vertrauen in die Marke.
Die unbequeme Wahrheit: Halluzinationen sind statistisch unvermeidbar
Im September 2025 haben Adam Tauman Kalai und Kollegen von OpenAI zusammen mit Santosh Vempala (Georgia Tech) eine Arbeit veröffentlicht, die das Problem präzise erklärt: „Why Language Models Hallucinate".
Die zwei Kernaussagen sind unbequem:
Erstens: Schon im Vortraining entstehen Halluzinationen aus rein statistischen Gründen. Wenn eine Tatsache in den Trainingsdaten nur einmal vorkommt — der sogenannte „Singleton" — dann ist die Halluzinationsrate bei genau dieser Faktenklasse mindestens so hoch wie der Anteil dieser Singletons. Konkret: Tauchen 20 Prozent der Geburtstage in den Trainingsdaten nur einmal auf, halluziniert das Modell bei mindestens 20 Prozent der Geburtstagsfragen. Das ist keine Implementierungsschwäche, das ist Mathematik.
Zweitens, und das wiegt schwerer: Halluzinationen überleben alle Nachtrainings-Maßnahmen, weil die dominierenden Benchmarks im KI-Bereich binär bewerten — richtig oder falsch, ein Punkt oder null. Eine ehrliche Antwort wie „Das weiß ich nicht" bekommt null Punkte. Eine erfundene, aber zufällig richtige Antwort bekommt einen Punkt. Modelle werden also systematisch darauf optimiert, zu raten statt zuzugeben, dass sie etwas nicht wissen.
Die Autoren nennen das eine Epidemie misalignierter Evaluierung. Mehr Trainingsdaten ändern daran nichts. Größere Modelle ändern daran nichts. Auch RAG, also die Anreicherung mit externer Wissensbasis, ist laut der Studie kein Allheilmittel: Wenn die Suche im Wissensdatensatz leer bleibt, rät das Modell trotzdem — weil das Belohnungssystem dahinter unverändert ist.
Was bedeutet das für Unternehmens-Agenten?
Wer einen KI-Agenten in den Kundendialog stellt, hat drei strukturelle Risiken:
Erstens das Singleton-Risiko in der eigenen Wissensbasis: Spezifische Preise, individuelle Vertragsbedingungen, einzelne Produktdetails sind oft nur in einem Dokument erwähnt. Genau dort wird der Agent mit hoher Wahrscheinlichkeit improvisieren.
Zweitens das Zero-Retrieval-Problem: Findet die KI keinen passenden Eintrag in der Wissensbasis, generiert sie trotzdem eine Antwort. Eine plausibel klingende, aber frei erfundene Antwort.
Drittens das Test-Modus-Problem: Solange KI-Agenten so trainiert sind, dass „immer eine Antwort liefern" besser bewertet wird als „lieber nachfragen", werden sie genau das tun — auch im Live-Betrieb.
Wie VIA das heute schon anders macht
Wir bei VIA forschen seit 2025 systematisch an Halluzinations-Reduktion in Multi-Tenant-Agent-Plattformen. Das Ergebnis ist live und messbar: Unser ProtectedPromptBuilder reduziert Halluzinationen in der VIA-Plattform um 94 Prozent gegenüber dem Roh-Modell. Diese Zahl beschreibt den Status Quo — also das, was Kunden seit dem Live-Gang bekommen. Zwei strukturelle Entscheidungen tragen dieses Ergebnis.
Geschützte Verhaltensregeln im Agent-Prompt. Jeder VIA-Agent hat eine dreischichtige Prompt-Architektur. Die mittlere Schicht ist für Kunden nicht editierbar und enthält genau die Anweisung, die laut OpenAI-Studie in den meisten Modellen fehlt: „Bei Unsicherheit oder fehlender Wissensbasis: ehrlich eskalieren, nicht raten." Diese Regel kann durch User-Input nicht überschrieben werden, sie greift bei jedem einzelnen Agent-Aufruf.
Wissensbasis mit deutschem Datenschutz-Standard. Die Wissensbasis jedes Kunden liegt isoliert pro Mandant in einer Vektordatenbank in Österreich. Keine Vermischung, keine Drittanbieter-Cloud, keine US-Datentransfers. Die Embeddings werden mit europäischen Modellen erzeugt. Datenschutz ist hier nicht Compliance-Pflicht, sondern technische Architektur.
Was als Nächstes kommt: die VIA Confidence Architecture
Die OpenAI-Studie zeigt klar: Prompt-Anweisungen sind ein wirksamer, aber weicher Schutz. Selbst die beste geschützte Verhaltensregel kann ein Modell unter Druck umgehen — gerade in subtilen Fällen, wo eine Frage „in-domain" klingt, die Wissensbasis aber kein eindeutiges Material hat (das sogenannte Singleton-Risiko aus Section 3 der Studie). Genau dort setzt unsere nächste Ausbaustufe an.
Eskalation statt Improvisation — als deterministische Architektur, nicht nur als Prompt-Wunsch. Liefert die Wissensbasis keinen ausreichend ähnlichen Treffer, soll der Agent künftig gar nicht erst das Sprachmodell aufrufen. Stattdessen läuft eine deterministische Eskalations-Vorlage: „Diese Frage kann ich gerade nicht eindeutig beantworten. Eine Kollegin schaut sich das an und meldet sich kurz." Keine Erfindung, keine Plausibilisierung. Ein klarer Hand-off zum menschlichen Team — und zwar erzwungen durch die Architektur, nicht durch eine Prompt-Empfehlung.
Calibration-Audit als Standard. Was nicht gemessen wird, kann nicht gesteuert werden. Ab Q3 2026 gibt es bei uns ein wöchentliches Audit pro Agent: Wie oft hat er korrekt geantwortet? Wie oft sauber eskaliert? Wo war er selbstbewusst und falsch? Ohne Messung gibt es keine Steuerung — und KI ohne Steuerung ist genau das, was die OpenAI-Studie als unzulänglich beschreibt.
Warum „lieber nicht antworten" das bessere Geschäftsmodell ist
Die OpenAI-Studie schlägt vor, Benchmarks so umzubauen, dass ehrliche Unsicherheit belohnt wird statt bestraft. Im Unternehmens-Kontext lässt sich das auf eine einfache Regel übersetzen: Eine ehrliche Eskalation kostet nichts. Eine überzeugend falsche Antwort kostet Vertrauen — und manchmal mehr.
KI-Agenten, die zugeben können, dass sie etwas nicht wissen, sind keine schlechteren Agenten. Sie sind die einzigen, denen man im regulierten Geschäft langfristig vertrauen kann.
Wenn dich das Thema interessiert — wenn du wissen möchtest, wie das in deinem Kundendialog aussehen würde, melde dich gerne. Wir zeigen dir am Live-Beispiel, was unsere KI-Agenten tun, wenn sie etwas nicht wissen — und warum genau das ihre größte Stärke ist.
Quelle: Kalai, A. T., Nachum, O., Vempala, S. S., Zhang, E. (2025). Why Language Models Hallucinate. OpenAI / Georgia Tech, 4. September 2025 (arXiv 2509.04664). Stand: April 2026.
VIA ist eine österreichische KI-Plattform für WhatsApp- und Web-Agenten im Kundendialog. Unsere Daten bleiben in Österreich. Wir unterstützen — wir überwachen nicht.