Halluzinieren KI-Modelle über deine Marke? Vier Tests, die du selbst ausführen kannst.

Gebe diesen Satz in ChatGPT, Claude oder Perplexity ein: „Beschreibe mir [dein Unternehmensname], Geschäftsmodell, Methodik, Inhaberin oder Inhaber.“ Drück Enter. Lies sorgfältig.

Du bekommst in den meisten Fällen eine flüssig geschriebene, autoritativ klingende Antwort. Geordnete Sätze, eindeutige Zuordnungen, kein Zögern. Und gerade bei kleineren oder weniger eindeutig dokumentierten Marken ist häufig mindestens ein Element davon falsch, veraltet, unbelegt oder generisch ergänzt.

Wie häufig das ist, lässt sich für deinen Einzelfall nicht pauschal aus der Statistik ableiten. Aber eine internationale Untersuchung der EBU und der BBC vom Oktober 2025 gibt einen Anhaltspunkt. Über 3.000 KI-Antworten in 14 Sprachen wurden von Journalisten geprüft. 45 Prozent der Antworten enthielten mindestens ein signifikantes Problem, 20 Prozent hatten Genauigkeitsprobleme inklusive halluzinierter Details, 31 Prozent lieferten falsche oder fehlende Quellenangaben. Untersucht wurden ChatGPT, Copilot, Gemini und Perplexity (EBU/BBC, Oktober 2025). Diese Studie lief über Nachrichteninhalte. Bei B2B-Anbietern mit deutlich weniger belegten Datenpunkten im offenen Web liegt das Risiko nach derselben Logik eher höher. Direkt gemessen wurde dieser Fall in der Studie aber nicht.

Das ist keine seltene Macke. Das ist ein bekanntes Grundrisiko, wie Sprachmodelle heute funktionieren.

Warum KI-Modelle halluzinieren

Sprachmodelle wie ChatGPT, Claude oder Gemini schreiben Text Stück für Stück. Jedes Stück, in der Fachsprache ein Token, kann ein ganzes Wort sein oder nur eine Silbe. Bei jedem neuen Stück berechnet das Modell anhand seiner Trainingsdaten, welche Fortsetzung am wahrscheinlichsten zum bisher Geschriebenen passt. Es prüft dabei keine Fakten gegen eine verifizierte Quelle. Es prüft, was sprachlich üblicherweise dort steht.

Eine zweite Schicht kommt dazu. Nach dem Vortraining werden Sprachmodelle daran gemessen, wie gut sie Testfragen beantworten. Diese Bewertungsverfahren haben einen Nebeneffekt, den OpenAI in einer eigenen Untersuchung im September 2025 dokumentiert: Wer mit „Ich weiß es nicht“ antwortet, bekommt in den gängigen Bewertungsschemata weniger Punkte als wer rät. Das Modell lernt daraus: Lieber eine plausible Antwort liefern, als zu markieren, dass die Datenlage unsicher ist (OpenAI, September 2025).

Aus beidem zusammen ergibt sich ein Verhaltensmuster. Das KI-Modell ergänzt fehlende Informationen durch Wahrscheinlichkeiten und formuliert sie so, als wären sie gesichertes Wissen.

Moderne Systeme wie ChatGPT mit Websuche, Perplexity oder Google AI Overviews können zusätzlich Quellen in Echtzeit abrufen. Das hilft, löst das Problem aber nicht vollständig. Eine Yext-Untersuchung über 6,8 Millionen KI-Zitationen zeigt, wie weit die Quellenwahl auseinandergeht. Gemini, ChatGPT und Perplexity ziehen ihre Informationen aus deutlich unterschiedlichen Quellenpools. Gemini bezog 52 Prozent seiner Zitate von markeneigenen Websites, ChatGPT 49 Prozent aus Verzeichnissen und Branchenplattformen, Perplexity stärker aus branchenspezifischen Nischenquellen. Gemessen wurde das an standortbezogenen Anfragen in vier Verbraucherbranchen, nicht an B2B-Spezialisten. Die Zahlen belegen darum nicht deinen Einzelfall, wohl aber das Prinzip dahinter: Die Quellenbasis unterscheidet sich massiv von Modell zu Modell (Yext Research, Oktober 2025).

Welche Antwort du bekommst, hängt also nicht nur davon ab, was die KI über dich weiß. Es hängt auch davon ab, in welchem System du fragst, in welchem Modus, und welche Informationsquellen dieses System bevorzugt.

Warum es B2B-Anbieter asymmetrisch trifft

Große Marken haben meist mehr belastbare Datenpunkte im offenen Web. Tausende Erwähnungen, Wikipedia-Einträge, journalistische Quellen, eigene Studien. Das senkt manche Halluzinationsrisiken, schützt aber nicht vor veralteten Informationen, falschen Quellen oder verzerrten Zusammenfassungen.

Du als Beraterin, Coach oder spezialisierter Dienstleistungsanbieter hast vielleicht ein paar Dutzend belegte Erwähnungen im offenen Web. Der Rest deiner KI-Repräsentation wird aus statistisch naheliegenden Branchenmustern ergänzt.

Das Tückische: Du merkst es selten. Wer prüft schon systematisch, was KI-Systeme über die eigene Firma schreiben, wenn ein potenzieller Kunde dort hineintippt?

Vier Tests für deine eigene KI-Sichtbarkeit

Diese vier Tests gehst du in einer halben Stunde durch. Bevor du startest, ein paar Grundregeln, damit die Ergebnisse aussagekräftig werden:

Frischer Chat ohne Anmeldung im Inkognito-Fenster. Personalisierung kann Ergebnisse verzerren. Starte einen neuen Chat ohne Vorinformationen.
Mindestens zwei Systeme testen. ChatGPT, Claude, Perplexity und Gemini nutzen unterschiedliche Quellen und Antwortlogiken. Ein Einzelergebnis ist kein stabiler Befund.
Modus und Datum dokumentieren. Notiere: Welches Modell, welcher Modus (mit oder ohne Websuche), welcher Tag. Antworten ändern sich über die Zeit, bei aktivierter Websuche oft drastisch.
Ergebnisse speichern. Screenshot oder Text der Antwort, dann falsche Aussagen markieren: falsch, veraltet, unbelegt, generisch, verwechselt.

Test 1: Wer bist du in den Augen der KI?

Prompt: „Beschreibe [dein Unternehmensname]. Wer steht dahinter, welches Geschäftsmodell, welcher Standort?“

Variiere den Prompt: einmal nur mit deinem Unternehmensnamen, einmal mit Unternehmensname plus Ort, einmal mit Unternehmensname plus Domain und einmal mit Unternehmensname plus Inhabernamen. Die Antworten unterscheiden sich oft deutlich.

Diagnose-Fragen:

Stimmt der Gründungs- oder Inhaberbezug?
Stimmt die Branchen-Zuordnung?
Stimmt das Geschäftsmodell?
Werden Auszeichnungen, Mitgliedschaften oder Kunden genannt, die du nicht hast?
Wird ein Standort genannt, an dem du nicht sitzt?

Wenn auch nur eines davon falsch ist und du das ohne Zögern korrigieren würdest, hast du den ersten Treffer.

Test 2: Was bietest du eigentlich an?

Prompt: „Welche Leistungen bietet [dein Unternehmensname] konkret an, mit Preisen oder Preisindikation?“

Diagnose-Fragen:

Wird dein Hauptangebot in einer Form beschrieben, die du selbst unterschreiben würdest?
Tauchen Leistungen auf, die du nicht anbietest?
Werden Preise genannt, die du nie kommuniziert hast?
Fehlt dein Kernangebot ganz?

Besonders bei Beratenden und Coaches tritt hier oft ein typisches Muster auf. Das Modell beschreibt nicht dein konkretes Angebot, sondern den statistisch naheliegenden Branchendurchschnitt. Das ist nicht immer eine Halluzination im engen Sinn. Oft ist es eine generische Kategorisierung. Aus Wirkungssicht ist der Schaden ähnlich: Wer dich nicht mit deinem konkreten Portfolio sieht, wählt einen Mitbewerber.

Test 3: Mit wem wirst du verglichen?

Prompt: „Nenne fünf Anbieter für [deine konkrete Leistung, dein Segment]. Beschreibe ihre Stärken.“

Diagnose-Fragen:

Wirst du genannt?
Wenn ja: Wirst du als Spezialist für das beschrieben, was du tatsächlich anbietest, oder als irgendwer im Feld?
Welche Anbieter werden stattdessen genannt? Sind das deine echten Wettbewerber oder Verwechslungen?
Werden die Stärken konkret oder austauschbar formuliert?

Dieser Test zeigt deine kategoriale KI-Sichtbarkeit. Wer hier nur als generischer „Anbieter im Mittelstand“ auftaucht, hat ein Profilierungs-Problem auf inhaltlicher Ebene.

Test 4: Welche Quellen nutzt die KI über dich?

Prompt (besonders gut in Perplexity oder ChatGPT mit aktivierter Websuche): „Was sind die von dir genutzten Quellen für Informationen über [dein Unternehmensname]?“

Diagnose-Fragen:

Wird deine eigene Website als Quelle angezeigt?
Wenn ja: Welche Seite konkret?
Werden Drittquellen genannt, die dich zitieren? Sind das relevante Quellen?
Werden Websites deiner Mitbewerber genannt?
Werden alte oder nicht mehr existierende Inhalte zitiert?

Wenn deine eigene Website nicht als Quelle erscheint, heißt das nicht automatisch, dass die Antwort erfunden ist. Es zeigt aber, dass du die Antwortquelle nicht direkt kontrollierst. Das Modell stützt sich dann auf Drittquellen, Indexsignale, alte Inhalte oder Branchenmuster.

Was die Ergebnisse bedeuten

Vier Tests, vier Ergebnisräume. Jeder Treffer zeigt auf mögliche Ursachen. Wichtig: KI-Antworten haben selten eine einzige Ursache. Die folgende Tabelle nennt die wahrscheinlichsten Stellen, an denen die Datenlage zu deiner Marke unscharf ist.

Testergebnis	Mögliche Ursachen	Was du prüfen solltest
Falsche Grunddaten über dich, dein Unternehmen, deinen Standort	Widersprüchliche Angaben über dich in verschiedenen Quellen, alte Drittprofile, fehlende einheitliche Kontaktdaten	Website-Impressum, Über-uns-Seite, LinkedIn, Google Business Profile, Branchenverzeichnisse, alte Erwähnungen
Falsche oder generische Leistungen, falsche Preise	Angebotskommunikation zu unscharf, generische Branchenassoziation, veraltete Inhalte	Leistungsseiten, Überschriften, erste Absätze, konkrete Angebotsnamen, Preisindikation oder Hinweis „Preise nach Projektumfang“
Du fehlst im Wettbewerbsvergleich	Schwache Verknüpfung zwischen deiner Marke und deinem Themenfeld, fehlende Drittquellen, das Modell bevorzugt bekanntere Anbieter	Externe Erwähnungen, Case Studies, Fachbeiträge, Branchenverzeichnisse
Deine Website wird nicht als Quelle genannt	Crawling- oder Indexierungsproblem, schwache Quellenrelevanz aus Maschinensicht, stärkere Drittquellen, unklare Abschnittsstruktur	Indexstatus in Google Search Console, robots.txt-Datei, sichtbarer HTML-Text, interne Struktur, eigenständig zitierfähige Absätze

Diese vier Treffer-Bereiche entsprechen den vier KI-spezifischen Dimensionen, die ich im KI-Sichtbarkeits-Check pro Website diagnostiziere:

Crawlbarkeit: Wie gut KI-Programme deine Website überhaupt lesen können.
Chunk-Tauglichkeit: Wie gut sich einzelne Absätze deiner Inhalte als eigenständige Wissensblöcke aus dem Kontext herauslösen lassen. KI-Systeme arbeiten mit solchen extrahierbaren Blöcken, nicht mit ganzen Seiten.
Entity-Klarheit: Wie eindeutig Maschinen erkennen können, dass alle Erwähnungen wirklich dieselbe Marke meinen.
Semantische Autorität: Wie stark die fachliche Verbindung zwischen deiner Marke und deinem Themenfeld in den Daten verankert ist.

Im vollständigen DIM16 Analyzer kommen zwölf weitere Dimensionen aus der Mensch-Perspektive dazu, weil Vertrauensaufbau bei Menschen anders funktioniert als bei Maschinen.

Was diese Tests nicht beweisen

Diese vier Tests sind keine wissenschaftliche Messung. Sie sind eine Diagnose-Routine, vergleichbar mit einem Symptom-Check beim Hausarzt. KI-Antworten ändern sich je nach Modell, Zeitpunkt, Modus, Prompt und Quellenlage. Ein Ergebnis von heute kann morgen anders aussehen.

Was die Tests aber zuverlässig zeigen, sind Muster. Falsche Grunddaten, generische Angebotsbeschreibungen, fehlende Quellen oder schwache Wettbewerbszuordnung. Diese Muster sind wertvolle Hinweise darauf, wo deine digitale Datenlage zu unscharf ist, um sauber maschinenlesbar zu sein. Was dann konkret zu tun ist, hängt von der jeweiligen Ursache ab und ist selten mit einer einzigen Maßnahme erledigt.

Was du als Nächstes tun kannst

Wenn du die vier Tests durchgegangen bist und mindestens zwei davon einen Treffer liefern, hast du ein konkretes Sichtbarkeits-Problem. Nicht ein vages. Nicht ein theoretisches. Eines, das du beim nächsten Mal in derselben Form reproduzieren kannst.

Zwei mögliche Wege:

Selbst nachsteuern. Über-uns-Seite präzisieren, robots.txt anpassen, zitierfähige Chunks erstellen, Schema.org-Daten ergänzen, Profile auf LinkedIn, Google und in relevanten Branchenverzeichnissen schärfen. Funktioniert, wenn du Zeit und Geduld für ein paar Wochen iteratives Testen hast.
System-Audit mit allen sechzehn Dimensionen aus Mensch- und KI-Perspektive. 490 €. Ich gehe deine Website manuell durch, kombiniert mit dem DIM16 Analyzer, und du bekommst einen priorisierten Maßnahmenkatalog. Wenn du wissen willst, ob deine KI-Repräsentation mit eigenen Mitteln fixbar ist oder ob ein größerer Hebel nötig wäre, ist das der direkteste Weg.

Halluzinationen über deine Marke beginnen meist als Sichtbarkeits- und Datenqualitätsproblem. Wenn falsche Aussagen sich oft genug wiederholen, können sie sich verfestigen und zum Reputationsproblem werden. Der erste Hebel ist immer die Datenlage. Sie ist dünn, widersprüchlich oder schlecht strukturiert? Dann lässt sich daran arbeiten.

Quellen

Yext Research (9. Oktober 2025): AI Citations, User Locations, & Query Context. Christian Ward, Anthony Rinaldi, Adam Abernathy, Alan Ai. Analyse von 6,8 Millionen Zitationen aus 1,6 Millionen Antworten der Modelle Gemini, ChatGPT und Perplexity, erhoben Juli bis August 2025 über die Yext-Scout-Plattform. https://www.yext.com/research/article/ai-citations-user-locations-query-context

OpenAI (4. September 2025): Why Language Models Hallucinate. Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala (Georgia Tech), Edwin Zhang. https://openai.com/index/why-language-models-hallucinate/

EBU / BBC (22. Oktober 2025): News Integrity in AI Assistants. Über 3.000 von Journalisten geprüfte Antworten in 14 Sprachen, koordiniert von der EBU mit 22 öffentlich-rechtlichen Medienorganisationen, geleitet von der BBC. https://www.ebu.ch/news/2025/10/ai-s-systemic-distortion-of-news-is-consistent-across-languages-and-territories-international-study-by-public-service-broadcaste

Teilen: LinkedIn Reddit E-Mail

KI-Sichtbarkeit

Wie KI-Modelle deine Inhalte zerlegen, bevor sie etwas davon zitieren

Chunking, Embedding, Retrieval, Synthese. Was im Inneren von ChatGPT, Claude und Perplexity passiert, bevor deine Website in einer Antwort erscheint.

18. Mai 2026 11 Min. Lesezeit

Kostenloses Erstgespräch vereinbaren

Halluzinieren KI-Modelle über deine Marke? Vier Tests, die du selbst ausführen kannst.

Warum KI-Modelle halluzinieren

Warum es B2B-Anbieter asymmetrisch trifft

Vier Tests für deine eigene KI-Sichtbarkeit

Test 1: Wer bist du in den Augen der KI?

Test 2: Was bietest du eigentlich an?

Test 3: Mit wem wirst du verglichen?

Test 4: Welche Quellen nutzt die KI über dich?

Was die Ergebnisse bedeuten

Was diese Tests nicht beweisen

Was du als Nächstes tun kannst

Quellen

Mehr zu KI-Sichtbarkeit

Wie KI-Modelle deine Inhalte zerlegen, bevor sie etwas davon zitieren

Du willst wissen, wie das auf deine Situation anwendbar ist?