Halluzinieren KI-Modelle über deine Marke? Vier Tests, die du selbst ausführen kannst.

Gebe diesen Satz in ChatGPT, Claude oder Perplexity ein: „Beschreibe mir [dein Unternehmensname], Geschäftsmodell, Methodik, Inhaberin oder Inhaber.“ Drück Enter. Lies sorgfältig.
Du bekommst in den meisten Fällen eine flüssig geschriebene, autoritativ klingende Antwort. Geordnete Sätze, eindeutige Zuordnungen, kein Zögern. Und gerade bei kleineren oder weniger eindeutig dokumentierten Marken ist mindestens ein Element davon falsch, veraltet, unbelegt oder generisch ergänzt.
Wie häufig das ist, lässt sich für deinen Einzelfall nicht pauschal aus der Statistik ableiten. Aber eine internationale Untersuchung der EBU und der BBC vom Oktober 2025 gibt einen Anhaltspunkt. Über 3.000 KI-Antworten in 14 Sprachen wurden von Journalisten geprüft. 45 Prozent der Antworten enthielten mindestens ein signifikantes Problem, 20 Prozent hatten Genauigkeitsprobleme inklusive halluzinierter Details, 31 Prozent lieferten falsche oder fehlende Quellenangaben. Untersucht wurden ChatGPT, Copilot, Gemini und Perplexity (EBU/BBC, Oktober 2025). Diese Studie lief über Nachrichteninhalte. Bei B2B-Anbietern mit deutlich weniger Datenpunkten im offenen Web ist das Risiko vergleichbar oder höher.
Das ist keine seltene Macke. Das ist ein bekanntes Grundrisiko, wie Sprachmodelle heute funktionieren.
Warum KI-Modelle halluzinieren
LLM Sprachmodelle wie ChatGPT, Claude oder Gemini schreiben Text Stück für Stück. Jedes Stück, in der Fachsprache ein Token, kann ein ganzes Wort sein oder nur eine Silbe. Bei jedem neuen Stück berechnet das Modell anhand seiner Trainingsdaten, welche Fortsetzung am wahrscheinlichsten zum bisher Geschriebenen passt. Es prüft dabei keine Fakten gegen eine verifizierte Quelle. Es prüft, was sprachlich üblicherweise dort steht.
Eine zweite Schicht kommt dazu. Nach dem Vortraining werden Sprachmodelle mit menschlichem Feedback weitertrainiert. Dabei werden Antworten bewertet. Dieses Bewertungssystem hat einen Nebeneffekt, den OpenAI in einer eigenen Untersuchung im September 2025 dokumentiert: Wer immer mit „Ich weiß es nicht“ antwortet, bekommt in den gängigen Bewertungsverfahren weniger Punkte als wer rät. Das Modell lernt: Lieber eine plausible Antwort liefern, als zu markieren, dass die Datenlage unsicher ist (OpenAI, September 2025).
Aus beidem zusammen ergibt sich ein Verhaltensmuster. Das KI-Modell ergänzt fehlende Informationen durch Wahrscheinlichkeiten und formuliert sie so, als wären sie gesichertes Wissen.
Moderne Systeme wie ChatGPT mit Websuche, Perplexity oder Google AI Overviews können zusätzlich Quellen in Echtzeit abrufen. Das hilft, löst das Problem aber nicht vollständig. Eine Yext-Untersuchung über 6,8 Millionen KI-Zitationen zeigt: Gemini, ChatGPT und Perplexity ziehen für identische Anfragen, Informationen aus deutlich unterschiedlichen Quellenpools. Gemini holt sich 52 Prozent der Zitate von markeneigenen Websites, ChatGPT 49 Prozent aus Verzeichnissen und Bewertungsportalen, Perplexity stärker aus branchenspezifischen Nischenquellen (Yext Research, Oktober 2025).
Welche Antwort du bekommst, hängt also nicht nur davon ab, was die KI über dich weiß. Es hängt auch davon ab, in welchem System du fragst, in welchem Modus, und welche Informationsquellen dieses System bevorzugt.
Warum es B2B-Anbieter asymmetrisch trifft
Große Marken haben meist mehr belastbare Datenpunkte im offenen Web. Tausende Erwähnungen, Wikipedia-Einträge, journalistische Quellen, eigene Studien. Das senkt manche Halluzinationsrisiken, schützt aber nicht vor veralteten Informationen, falschen Quellen oder verzerrten Zusammenfassungen.
Du als Beraterin, Coach oder spezialisierter Dienstleistungsanbieter hast vielleicht ein paar Dutzend belegte Erwähnungen im offenen Web. Der Rest deiner KI-Repräsentation wird aus statistisch naheliegenden Branchenmustern ergänzt.
Das Tückische: Du merkst es selten. Wer prüft schon systematisch, was KI-Systeme über die eigene Firma schreiben, wenn ein potenzieller Kunde dort hineintippt?
Vier Tests für deine eigene KI-Sichtbarkeit
Diese vier Tests gehst du in einer halben Stunde durch. Bevor du startest, ein paar Grundregeln, damit die Ergebnisse aussagekräftig werden:
- Frischer Chat ohne Anmeldung im Inkognito-Fenster. Personalisierung kann Ergebnisse verzerren. Starte einen neuen Chat ohne Vorinformationen.
- Mindestens zwei Systeme testen. ChatGPT, Claude, Perplexity und Gemini nutzen unterschiedliche Quellen und Antwortlogiken. Ein Einzelergebnis ist kein stabiler Befund.
- Modus und Datum dokumentieren. Notiere: Welches Modell, welcher Modus (mit oder ohne Websuche), welcher Tag. Antworten ändern sich über die Zeit, bei aktivierter Websuche oft drastisch.
- Ergebnisse speichern. Screenshot oder Text der Antwort, dann falsche Aussagen markieren: falsch, veraltet, unbelegt, generisch, verwechselt.
Test 1: Wer bist du in den Augen der KI?
Prompt: „Beschreibe [dein Unternehmensname]. Wer steht dahinter, welches Geschäftsmodell, welcher Standort?“
Variiere den Prompt: einmal nur mit deinem Unternehmensnamen, einmal mit Unternehmensname plus Ort, einmal mit Unternehmensname plus Domain und einmal mit Unternehmensname plus Inhabernamen. Die Antworten unterscheiden sich oft deutlich.
Diagnose-Fragen:
- Stimmt der Gründungs- oder Inhaberbezug?
- Stimmt die Branchen-Zuordnung?
- Stimmt das Geschäftsmodell?
- Werden Auszeichnungen, Mitgliedschaften oder Kunden genannt, die du nicht hast?
- Wird ein Standort genannt, an dem du nicht sitzt?
Wenn auch nur eines davon falsch ist und du das ohne Zögern korrigieren würdest, hast du den ersten Treffer.
Test 2: Was bietest du eigentlich an?
Prompt: „Welche Leistungen bietet [dein Unternehmensname] konkret an, mit Preisen oder Preisindikation?“
Diagnose-Fragen:
- Wird dein Hauptangebot in einer Form beschrieben, die du selbst unterschreiben würdest?
- Tauchen Leistungen auf, die du nicht anbietest?
- Werden Preise genannt, die du nie kommuniziert hast?
- Fehlt dein Kernangebot ganz?
Besonders bei Beratenden und Coaches tritt hier oft ein typisches Muster auf. Das Modell beschreibt nicht dein konkretes Angebot, sondern den statistisch naheliegenden Branchendurchschnitt. Das ist nicht immer eine Halluzination im engen Sinn. Oft ist es eine generische Kategorisierung. Aus Wirkungssicht ist der Schaden ähnlich: Wer dich nicht mit deinem konkreten Portfolio sieht, wählt einen Mitbewerber.
Test 3: Mit wem wirst du verglichen?
Prompt: „Nenne fünf Anbieter für [deine konkrete Leistung, dein Segment]. Beschreibe ihre Stärken.“
Diagnose-Fragen:
- Wirst du genannt?
- Wenn ja: Wirst du als Spezialist für das beschrieben, was du tatsächlich anbietest, oder als irgendwer im Feld?
- Welche Anbieter werden stattdessen genannt? Sind das deine echten Wettbewerber oder Verwechslungen?
- Werden die Stärken konkret oder austauschbar formuliert?
Dieser Test zeigt deine kategoriale KI-Sichtbarkeit. Wer hier nur als generischer „Anbieter im Mittelstand“ auftaucht, hat ein Profilierungs-Problem auf inhaltlicher Ebene.
Test 4: Welche Quellen nutzt die KI über dich?
Prompt (besonders gut in Perplexity oder ChatGPT mit aktivierter Websuche): „Was sind die von dir genutzten Quellen für Informationen über [dein Unternehmensname]?“
Diagnose-Fragen:
- Wird deine eigene Website als Quelle angezeigt?
- Wenn ja: Welche Seite konkret?
- Werden Drittquellen genannt, die dich zitieren? Sind das relevante Quellen?
- Werden Websites deiner Mitbewerber genannt?
- Werden alte oder nicht mehr existierende Inhalte zitiert?
Wenn deine eigene Website nicht als Quelle erscheint, heißt das nicht automatisch, dass die Antwort erfunden ist. Es zeigt aber, dass du die Antwortquelle nicht direkt kontrollierst. Das Modell stützt sich dann auf Drittquellen, Indexsignale, alte Inhalte oder Branchenmuster.
Was die Ergebnisse bedeuten
Vier Tests, vier Ergebnisräume. Jeder Treffer zeigt auf mögliche Ursachen. Wichtig: KI-Antworten haben selten eine einzige Ursache. Die folgende Tabelle nennt die wahrscheinlichsten Stellen, an denen die Datenlage zu deiner Marke unscharf ist.
| Testergebnis | Mögliche Ursachen | Was du prüfen solltest |
|---|---|---|
| Falsche Grunddaten über dich, dein Unternehmen, deinen Standort | Widersprüchliche Angaben über dich in verschiedenen Quellen, alte Drittprofile, fehlende einheitliche Kontaktdaten | Website-Impressum, Über-uns-Seite, LinkedIn, Google Business Profile, Branchenverzeichnisse, alte Erwähnungen |
| Falsche oder generische Leistungen, falsche Preise | Angebotskommunikation zu unscharf, generische Branchenassoziation, veraltete Inhalte | Leistungsseiten, Überschriften, erste Absätze, konkrete Angebotsnamen, Preisindikation oder Hinweis „Preise nach Projektumfang“ |
| Du fehlst im Wettbewerbsvergleich | Schwache Verknüpfung zwischen deiner Marke und deinem Themenfeld, fehlende Drittquellen, das Modell bevorzugt bekanntere Anbieter | Externe Erwähnungen, Case Studies, Fachbeiträge, Branchenverzeichnisse |
| Deine Website wird nicht als Quelle genannt | Crawling- oder Indexierungsproblem, schwache Quellenrelevanz aus Maschinensicht, stärkere Drittquellen, unklare Abschnittsstruktur | Indexstatus in Google Search Console, robots.txt-Datei, sichtbarer HTML-Text, interne Struktur, eigenständig zitierfähige Absätze |
Diese vier Treffer-Bereiche entsprechen den vier KI-spezifischen Dimensionen, die ich im KI-Sichtbarkeits-Check pro Website diagnostiziere:
- Crawlbarkeit: Wie gut KI-Programme deine Website überhaupt lesen können.
- Chunk-Tauglichkeit: Wie gut sich einzelne Absätze deiner Inhalte als eigenständige Wissensblöcke aus dem Kontext herauslösen lassen. KI-Systeme arbeiten mit solchen extrahierbaren Blöcken, nicht mit ganzen Seiten.
- Entity-Klarheit: Wie eindeutig Maschinen erkennen können, dass alle Erwähnungen wirklich dieselbe Marke meinen.
- Semantische Autorität: Wie stark die fachliche Verbindung zwischen deiner Marke und deinem Themenfeld in den Daten verankert ist.
Im vollständigen DIM16 Analyzer kommen zwölf weitere Dimensionen aus der Mensch-Perspektive dazu, weil Vertrauensaufbau bei Menschen anders funktioniert als bei Maschinen.
Was diese Tests nicht beweisen
Diese vier Tests sind keine wissenschaftliche Messung. Sie sind eine Diagnose-Routine, vergleichbar mit einem Symptom-Check beim Hausarzt. KI-Antworten ändern sich je nach Modell, Zeitpunkt, Modus, Prompt und Quellenlage. Ein Ergebnis von heute kann morgen anders aussehen.
Was die Tests aber zuverlässig zeigen, sind Muster. Falsche Grunddaten, generische Angebotsbeschreibungen, fehlende Quellen oder schwache Wettbewerbszuordnung. Diese Muster sind wertvolle Hinweise darauf, wo deine digitale Datenlage zu unscharf ist, um sauber maschinenlesbar zu sein. Was dann konkret zu tun ist, hängt von der jeweiligen Ursache ab und ist selten mit einer einzigen Maßnahme erledigt.
Was du als Nächstes tun kannst
Wenn du die vier Tests durchgegangen bist und mindestens zwei davon einen Treffer liefern, hast du ein konkretes Sichtbarkeits-Problem. Nicht ein vages. Nicht ein theoretisches. Eines, das du beim nächsten Mal in derselben Form reproduzieren kannst.
Zwei mögliche Wege:
- Selbst nachsteuern. Über-uns-Seite präzisieren, robots.txt anpassen, zitierfähige Chunks erstellen, Schema.org-Daten ergänzen, Profile auf LinkedIn, Google und in relevanten Branchenverzeichnissen schärfen. Funktioniert, wenn du Zeit und Geduld für ein paar Wochen iteratives Testen hast.
- System-Audit mit allen sechzehn Dimensionen aus Mensch- und KI-Perspektive. 490 €. Ich gehe deine Website manuell durch, kombiniert mit dem DIM16 Analyzer, und du bekommst einen priorisierten Maßnahmenkatalog. Wenn du wissen willst, ob deine KI-Repräsentation mit eigenen Mitteln fixbar ist oder ob ein größerer Hebel nötig wäre, ist das der direkteste Weg.
Halluzinationen über deine Marke beginnen meist als Sichtbarkeits- und Datenqualitätsproblem. Wenn falsche Aussagen sich oft genug wiederholen, können sie sich verfestigen und zum Reputationsproblem werden. Der erste Hebel ist immer die Datenlage. Sie ist dünn, widersprüchlich oder schlecht strukturiert? Dann lässt sich daran arbeiten.
Quellen
Yext Research (Oktober 2025): AI Citations: Why Location-Level Data Determines Brand Visibility. https://www.yext.com/research/article/ai-citations-user-locations-query-context
OpenAI (September 2025): Why language models hallucinate. https://openai.com/index/why-language-models-hallucinate/
EBU / BBC (Oktober 2025): Largest study of its kind shows AI assistants misrepresent news content 45% of the time — regardless of language or territory. https://www.ebu.ch/news/2025/10/ai-s-systemic-distortion-of-news-is-consistent-across-languages-and-territories-international-study-by-public-service-broadcaste
Mehr zu KI-Sichtbarkeit
Du willst wissen, wie das auf deine Situation anwendbar ist?
Im unverbindlichen Erstgespräch klären wir, ob ein System nach Makrosign-Methodik für deine Akquise sinnvoll ist — oder ob ein anderer Weg besser zu dir passt.