13. April 2026

Warum einfache Vektorsuche nicht reicht — und wie Hybrid Search KI-Halluzinationen verhindert

Nach 179 dokumentierten Halluzinationen haben wir unsere Retrieval-Architektur von Grund auf neu gebaut.

Werner Graser · CTO & Co-Founder, getVIA GmbH · April 2026

Jede KI, die Kundenfragen beantwortet, steht vor dem gleichen Problem: Sie muss die richtige Information finden, bevor sie antworten kann. Findet sie die falsche — oder eine, die nur so ähnlich klingt — halluziniert sie. Sie erfindet Preise. Termine. Produktnamen. In der automatisierten Kundenkommunikation über Telefon, WhatsApp oder E-Mail kann das teuer werden.

Bei getVIA haben wir nach 179 dokumentierten Halluzinationen im Praxisbetrieb einen Weg gefunden, das radikal zu reduzieren. Nicht durch bessere Prompts — sondern durch besseres Suchen.

Das Problem: Cosine Similarity findet „ähnlich", nicht „richtig"

Die meisten KI-Systeme nutzen sogenannte Vektorsuche mit Cosine Similarity. Dabei wird jede Frage und jeder Wissenseintrag in einen mathematischen Vektor umgewandelt, und das System sucht den Eintrag, der dem Fragevektor am ähnlichsten ist.

Klingt logisch. Funktioniert in der Theorie. Scheitert in der Praxis.

Ein Beispiel: Ein Kunde fragt den KI-Agenten eines Versicherungsmaklers „Was kostet die Kfz-Haftpflicht für einen BMW 320d, Baujahr 2019?" Die Vektorsuche findet einen Wissenseintrag über „Kfz-Versicherungstarife und Berechnungsgrundlagen" mit einem hohen Similarity-Score von 0,78. Thematisch passt das — beides handelt von Kfz-Versicherungen. Aber der gefundene Eintrag enthält keine konkreten Preise für dieses Fahrzeug. Die KI nimmt trotzdem an, dass der Kontext relevant ist, und halluziniert einen Preis.

Die aktuelle Forschung bestätigt das Problem: Eine Studie der ACM Web Conference 2024 hat formal bewiesen, dass Cosine Similarity von gelernten Embeddings willkürliche und damit bedeutungslose Ähnlichkeiten liefern kann. Der Score sagt aus, dass zwei Texte thematisch verwandt sind — nicht, dass einer die Frage des anderen beantwortet.

Die Lösung: Hybrid Search — zwei Suchverfahren, ein Ergebnis

Hybrid Search kombiniert zwei fundamental verschiedene Suchansätze:

Vektorsuche (Dense Retrieval)

Findet semantisch ähnliche Inhalte — gut bei umformulierten Fragen, Synonymen, und wenn der Kunde nicht die exakten Fachbegriffe kennt. „Ich brauch eine Versicherung fürs Auto" findet „Kfz-Haftpflicht".

Keyword-Suche (BM25 Sparse Retrieval)

Findet exakte Begriffe — unverzichtbar bei Produktnamen, Artikelnummern, PLZ, Preisen und Eigennamen. „ENplus A1 Pellets 15kg" oder „PLZ 6330" muss wortwörtlich gefunden werden, nicht semantisch.

Die Ergebnisse beider Suchen werden dann mit Reciprocal Rank Fusion (RRF) zusammengeführt. RRF ignoriert die rohen Scores — die zwischen den beiden Verfahren ohnehin nicht vergleichbar sind — und fusioniert stattdessen die Rang-Positionen. Ein Eintrag, der bei beiden Verfahren weit oben steht, wird im Endergebnis priorisiert. Ein Eintrag, der nur bei einem Verfahren gut abschneidet, wird niedriger eingestuft.

Das Resultat: In Benchmarks steigt die Retrieval-Qualität (MRR) von 0,41 bei reiner Vektorsuche auf 0,67 bei Hybrid Search — eine Steigerung um 63 Prozent.

Was das für die Praxis bedeutet

Zurück zum Versicherungsmakler-Beispiel: Mit Hybrid Search findet das System jetzt den exakten Eintrag „BMW 320d, Baujahr 2019, Kfz-Haftpflicht, Jahresprämie ab 487 Euro" — weil BM25 den Modellnamen und das Baujahr wortwörtlich matcht und die Vektorsuche den thematischen Kontext bestätigt. Beide Signale zusammen ergeben einen hohen RRF-Score. Der alte, thematisch passende aber inhaltlich nutzlose Eintrag über „Berechnungsgrundlagen" fällt im Ranking nach unten.

Keine Halluzination. Keine erfundenen Preise. Weil die KI die richtige Information gefunden hat, bevor sie geantwortet hat.

Unsere Architektur: Drei Stufen gegen Halluzinationen

Bei getVIA setzen wir auf eine dreistufige Retrieval-Architektur:

Stufe 1 — Hybrid Search (BM25 + Vektor + RRF)

Zwei parallele Suchverfahren, fusioniert durch Reciprocal Rank Fusion. Läuft in unserer Qdrant-Vektordatenbank, gehostet in Österreich.

Stufe 2 — Cross-Encoder Reranking

Die Top-Ergebnisse aus Stufe 1 werden von einem spezialisierten Reranking-Modell neu bewertet. Im Gegensatz zur Vektorsuche vergleicht der Cross-Encoder Frage und Antwort Wort für Wort — Token-Level-Interaktion statt globaler Vektorvergleich. In Benchmarks bringt das nochmals eine Steigerung auf über 0,80 MRR.

Stufe 3 — Confidence Gating mit Strictness-Slider

Die kalibrierten Scores aus Stufe 2 fließen direkt in unseren 5-stufigen Strictness-Slider. Für kritische Branchen wie Versicherung, Recht oder Medizin steht der Slider auf Stufe 1 — hier antwortet die KI ausschließlich mit Treffern, deren Konfidenz über einem strengen Schwellenwert liegt. Bei allen anderen Anfragen leitet der Agent freundlich an einen Menschen weiter. Lieber eine Weiterleitung zu viel als eine falsche Preisauskunft.

100 Prozent DSGVO — auch beim Suchen

Unsere gesamte Retrieval-Pipeline läuft in Österreich und der EU. Die Vektordatenbank (Qdrant) ist auf österreichischen Servern gehostet. Die Embeddings kommen von Mistral AI in Paris. Kein API-Call geht in die USA. Für österreichische Unternehmen ist das nicht nur ein Feature — es ist eine Grundvoraussetzung.

Was wir aus 179 Halluzinationen gelernt haben

Bevor wir Hybrid Search implementiert haben, haben wir 179 Halluzinationen im Produktivbetrieb dokumentiert und analysiert. Die wichtigste Erkenntnis: Die überwältigende Mehrheit der Halluzinationen entstand nicht durch schlechte Prompts, sondern durch schlechtes Retrieval. Die KI bekam den falschen Kontext — und machte dann das Beste daraus. Leider war das „Beste" oft erfunden.

Anti-Halluzination ist kein Feature. Es ist eine Architektur. Sie muss vom ersten Suchaufruf bis zur letzten Antwort durchgezogen sein. Kein Prompt-Engineering der Welt kompensiert es, wenn die Suche die falschen Informationen liefert.

Unser Prinzip: Build RIGHT > Build FAST.