Content-Formatierung für LLMs: So zitieren ChatGPT und Google deine Inhalte 🎯

Was ist Content-Formatierung für LLMs? Im Prinzip die Art, wie du Text strukturieren und formulieren musst, damit Google Passage Indexing und Retrieval-Systeme wie ChatGPT, Perplexity und Gemini einzelne Absätze ohne Kontextverlust extrahieren können. Die Regeln stammen aus dem Semantic-SEO-Framework von Koray Tugberk Gübür und wurden 2026 von Kevin Indig empirisch bestätigt. Wer sie ignoriert, landet weder in den AI Overviews noch in den Antworten generativer KI-Systeme.

Ich prüfe diese Regeln seit Monaten in jedem Content-Audit. Das Muster ist jedes Mal dasselbe: Die Texte sind handwerklich ordentlich geschrieben, ranken meistens auch für das Haupt-Keyword – aber keine einzige Passage wird in LLM-Antworten zitiert. Die Ursache liegt fast nie am Inhalt. Sie liegt an der Struktur.

Dieser Artikel ist die Zusammenfassung dessen, was ich in diesen Audits jedes Mal anpasse. Sieben Prinzipien, die direkt auf technisches Retrieval-Verhalten zurückgehen. Ein Test, mit dem du in einer Stunde pro Blogpost 80 Prozent der Probleme findest. Und ein konkreter Case, der zeigt, wie groß der Hebel in der Praxis ist.

Inhalt

Content-Formatierung für LLMs: Das Konzept hinter dem Begriff

Google zerlegt jede Seite seit 2020 in kleine Einheiten – Passagen – und bewertet jede Passage einzeln gegen einzelne Suchanfragen. Das ist Passage Indexing. Eine Passage ist nicht der Absatz im Sinne der Layout-Software. Eine Passage ist ein semantischer Block, den der Algorithmus aus Satzstruktur, Position und Thema konstruiert.

LLMs nennen denselben Vorgang Chunking. Ein Retrieval-Augmented-Generation-System – und das ist heute jeder Perplexity- oder ChatGPT-Search-Aufruf – zerlegt die Webseite in Chunks, wandelt jeden Chunk in einen Vektor um und zieht zum Antwortzeitpunkt nur die Chunks, die semantisch am besten zur Frage passen. Die restliche Seite existiert für diese Antwort nicht.

Daraus folgen zwei Dinge. Erstens: Ein Absatz, der nur im Kontext der gesamten Seite Sinn ergibt, verliert seine Chunk-Fähigkeit. Ein Retrieval-System durchsucht zum Antwortzeitpunkt Millionen von Webpassagen nach der einen, die zur Frage des Nutzers passt – die berühmte Nadel im Heuhaufen. Ein Absatz ohne eigenständige Aussage ist für dieses System keine Nadel. Er bleibt im Heuhaufen liegen und wird nicht zitiert, egal wie gut sein Inhalt ist. Zweitens: Lange Texte sind kein Nachteil mehr, solange jeder Absatz für sich funktioniert. Feste Wortzahlen wie die berüchtigten 1.500 Wörter sind damit obsolet geworden.

Koray Tugberk Gübür hat dieses Prinzip auf Holistic SEO vor Jahren theoretisch beschrieben. Kevin Indig hat es in seiner Analyse zu LLM-Zitierpräferenzen empirisch bestätigt: LLMs bevorzugen Passagen mit klarer Struktur und ignorieren den Rest. Die Content-Formatierung für LLMs ist damit nicht mehr optional.

Warum Content-Formatierung 2026 jede Sichtbarkeit bestimmt

Passage Indexing hat die Funktionsweise von Google verändert, ohne dass die meisten SEO-Teams es bemerkt haben. Früher wurde eine Seite als ein Block indexiert und gerankt. Heute bewertet Google jeden Absatz gegen einzelne Suchanfragen. Und LLMs arbeiten technisch fast identisch.

Hinter allen sieben Prinzipien steht am Ende eine einfache ökonomische Logik. Google und LLMs haben begrenzte Rechenressourcen und müssen aus Milliarden Webseiten entscheiden, welche Quellen sie für eine Antwort heranziehen. Je günstiger du es machst, an die relevante Information in deinem Text zu kommen – je klarer die Passagen, je direkter die Antworten, je eindeutiger die Entitäten – desto wahrscheinlicher wirst du als Quelle ausgewählt. Content-Formatierung ist nichts anderes als Cost of Retrieval auf Textebene: Reduziere den Aufwand, den ein Retrieval-System für die Extraktion deiner Aussagen aufbringen muss, und du steigst in der Quellen-Auswahl.

Google hat dieses Prinzip Ende 2025 auch algorithmisch formalisiert. Auf der NeurIPS 2025 wurde der GIST-Algorithmus vorgestellt – Greedy Independent Set Thresholding. GIST selektiert Quellen für AI Overviews und den AI Mode nicht nur nach Relevanz, sondern auch nach semantischer Differenzierung: Content, der zu nah an einer bereits ausgewählten Top-Quelle liegt, landet in der sogenannten Vector Exclusion Zone und wird aussortiert – egal wie gut er inhaltlich ist. Klare Passage-Struktur, eindeutige Entity-Anker und verifiable Facts sind damit nicht nur Hilfen für das Retrieval, sondern die Bedingung dafür, dass deine Seite überhaupt in die Auswahl kommt.

Andrea Volpini hat diesen Zusammenhang in seiner WordLift-Analyse „Why AI Cites Some Pages and Ignores Others“ empirisch sauber unterfüttert: Ob eine Passage in einer LLM-Antwort auftaucht, hängt klar stärker an ihrer Struktur als an ihrem Inhalt. Wer Texte nicht auf Passage-Retrieval trimmt, überlässt die Zitate am Ende der englischsprachigen Konkurrenz. Search Engine Land oder Kevin Indigs Growth Memo schreiben seit Jahren passage-first, ohne das so zu nennen. Genau deswegen tauchen diese Quellen mittlerweile in jeder zweiten KI-Antwort auf.

Content-Formatierung für LLMs ist 2026 kein Feinschliff mehr, sondern die Grundlage. Wer noch nach „1.500 Wörter, Keyword-Dichte 1,5 Prozent“ textet, optimiert für eine Welt, die es so schlicht nicht mehr gibt.

Die 7 Prinzipien der Content-Formatierung für LLMs

Das sind die sieben Prinzipien, die ich in jedem Audit durchgehe. Die Reihenfolge folgt dem Hebel: Prinzip 1 hat den größten Effekt, Prinzip 7 sind eher die feinen Justierungen. Jedes einzelne Prinzip lässt sich direkt auf technisches Retrieval-Verhalten zurückführen.

1. Kernaussage im ersten Absatz platzieren

Der erste Absatz einer Seite wird von Google und LLMs überproportional oft als Zitatquelle genutzt. Kevin Indig hat diesen Effekt in seiner Analyse empirisch belegt: Die obersten 20 Prozent einer Seite liefern die Mehrheit der Zitate in ChatGPT-Antworten. Wer die Kernfrage direkt im ersten Absatz beantwortet, verdoppelt seine Chance auf Zitation.

Vorher:

„In diesem Artikel geht es um Heimchen. Wir erklären, was du wissen musst, bevor du sie als Futterinsekten einsetzt.“

Richtig:

„Heimchen sind Futterinsekten für Reptilien, Amphibien und Vögel. Eine Leopardgecko-Population frisst durchschnittlich 15 Heimchen pro Woche.“

Der erste Satz liefert die Antwort, der zweite konkretisiert mit einer Zahl. Kein Warm-up, keine Vorrede, keine Hintergrundgeschichte. Google und LLMs lesen Text wie Journalisten: Das Wichtigste gehört nach oben, und zwar kompromisslos.

2. Überschriften mit Entity-Kontext versehen

Jede Überschrift muss allein verständlich sein – ohne dass der Leser den Seitentitel oder die vorherige H2 gelesen hat. Eine H2 mit dem Wort „Fütterung“ ist wertlos, weil niemand weiß, wovon. „Fütterung von Heimchen im Zuchtbehälter“ liefert den vollen Kontext in drei zusätzlichen Wörtern.

Technisch dahinter steckt Google’s Vorliebe, Passagen über die direkt darüberstehende Überschrift zu indexieren. Fehlt dort die Entität, fehlt dem Retrieval-System der Anker für die Zuordnung zum Suchkontext – die Passage wird nicht gezogen, egal wie gut sie inhaltlich ist. Mir begegnet das in jedem zweiten Audit: Blogposts mit drei bis fünf inhaltsleeren H2s wie „Überblick“, „Hintergrund“, „Details“, „Zusammenfassung“. Jede dieser Überschriften kostet messbar Reichweite, ohne dass es jemand auf der Content-Seite mitbekommt.

3. Rück-Referenzen aus dem Text entfernen

Formulierungen wie „wie oben erwähnt“, „dieser Prozess“ oder „das eben beschriebene Verfahren“ binden einen Absatz an den vorherigen. Ein Retrieval-System, das nur diesen einen Absatz extrahiert, hat keinen Zugriff auf „das eben beschriebene Verfahren“. Die Referenz läuft ins Leere, die Passage verliert ihren Kontext und wird nicht zitiert.

Wirkt nach Detail, ist aber die zweithäufigste Ursache, warum Passagen mit guten Inhalten trotzdem nie in einem Featured Snippet oder einer AI-Antwort landen. Jeder Absatz muss auf einem weißen Blatt funktionieren – isoliert betrachtet, ohne dass der Leser den vorherigen Kontext kennt.

4. Starke, spezifische Verben verwenden

Google und LLMs ziehen semantische Signale aus Verben. „Der Arzt macht die Behandlung“ ist schwach, weil „machen“ als Verb keine Information trägt. „Der Ophthalmologe trägt die Hornhaut mit einem Femtosekundenlaser ab“ ist präzise, weil das Verb den Vorgang beschreibt und gleichzeitig Fachkontext liefert.

Vier Verben tauche ich in jedem Audit als erste raus: machen, haben, sein, geben. In einem typischen Kundentext liegen davon über ein Dutzend pro Seite. Jeder einzelne Austausch schärft das semantische Profil der Passage – und damit die Wahrscheinlichkeit, dass ein Modell sie überhaupt extrahiert.

5. Verifiable Facts statt vager Aussagen

LLMs zitieren bevorzugt Textstellen mit verifizierbaren Daten. Der Grund liegt in der Modellarchitektur: Konkrete Fakten reduzieren das Halluzinationsrisiko, und das Modell belohnt Passagen, die es gefahrlos wiedergeben kann. Zahlen, Jahreszahlen, benannte Standards und Quellenangaben sind die Textbausteine, die ein LLM am liebsten übernimmt.

Vage: „Es gibt verschiedene Methoden zur Augenkorrektur.“
Konkret: „Drei Verfahren stehen zur Wahl: Femto-LASIK, PRK und SMILE.“
Vage: „Die Kosten sind gestiegen.“
Konkret: „Laut Verband der Augenärzte 2024 liegen die Kosten für eine Femto-LASIK-Behandlung im Durchschnitt bei 2.000 Euro pro Auge.“

Jedes Mal, wenn in einem Absatz ein vager Plural auftaucht – „verschiedene Methoden“, „mehrere Optionen“, „zahlreiche Vorteile“ – steht dort Werbetext statt Information. Konkretisiere direkt. „Deutschland hat mehrere große Städte“ ist Füllmaterial. „Deutschland hat vier Städte mit über einer Million Einwohnern“ ist eine extrahierbare Information, die ein LLM direkt als Antwort verwenden kann.

6. Zitiermuster gezielt in den Text einbauen

Kevin Indig hat in seiner Analyse gezeigt, dass LLMs bestimmte Satzmuster systematisch bevorzugen. Mindestens 30 Prozent der Kernaussagen einer Seite sollten in einem dieser fünf Muster stehen:

Definition: „Femto-LASIK ist ein lasergestütztes Verfahren zur Korrektur von Fehlsichtigkeit.“
Vergleich: „Der Unterschied zwischen LASIK und PRK liegt in der Art der Hornhaut-Präparation.“
Liste: „Augenlasern hat drei Kontraindikationen: Keratokonus, zu dünne Hornhaut und instabile Sehstärke.“
Schritt-für-Schritt: „Schritt 1: Voruntersuchung. Schritt 2: Hornhaut-Mapping. Schritt 3: Laser-Behandlung.“
Quantifizierung: „Eine Femto-LASIK-Behandlung dauert 15 Minuten pro Auge.“

Hinter den fünf Mustern steckt keine Willkür. Sie liefern einen kompletten Wissensbaustein in einer einzigen Textpassage – und genau das will ein Retrieval-System extrahieren. Rhetorische Fragen, Übergangssätze ohne Informationswert und unbelegte Meinungen werden dagegen ignoriert.

Pro-Tipp: Wer Fragen als Überschrift nutzt, markiert die Antwort fett – nicht die Frage. Auf „Wie hoch ist der Eiffelturm?“ folgt „Der Eiffelturm ist 330 Meter hoch.“ Das Retrieval-System zieht die fett markierte Antwort mit höherer Wahrscheinlichkeit ins Featured Snippet.

7. 70/30-Struktur einhalten

Eine Seite, ein Thema. Die 70/30-Regel hat sich in der Praxis bewährt: 70 Prozent des Textes behandeln das Hauptthema, 30 Prozent öffnen eine Brücke zu verwandten Themen, auf die du intern verlinken kannst. Alles darüber hinaus verwässert die Seite und schwächt ihren semantischen Vektor.

Der technische Grund: Perplexity und andere Retrieval-Systeme nutzen Late Chunking und injizieren den Kontext des gesamten Dokuments in jeden einzelnen Absatz. Wenn eine Seite thematisch in alle Richtungen streut, verwässert das nicht nur einen Absatz, sondern den gesamten Seitenvektor. Jason Barnard beschreibt diesen Effekt auf Kalicube als Entity-basierte SEO: Eine Seite ohne klare Hauptentität verliert ihre Zitierfähigkeit.

Content-Formatierung messen: Der Heading-Isolation-Test

Die sieben Prinzipien sind das eine. Die zweite Frage lautet: Wie prüfe ich, ob ein Text tatsächlich LLM-freundlich ist? Drei Methoden, die ich in jedem Content-Audit einsetze.

LLMs direkt fragen. Kopiere die URL deines wichtigsten Blogposts in ChatGPT, Perplexity und Gemini und frage: „Was steht auf dieser Seite?“ Wenn die drei Antworten sich grob decken und die Kernaussagen korrekt wiedergeben, ist die Passage-Struktur in Ordnung. Wenn die Antworten wild auseinandergehen oder halluzinieren, ist der Text strukturell zu vage.

Heading-Isolation-Test. Öffne deine fünf wichtigsten Blogposts und lies jede H2 und H3 isoliert, ohne den Absatz darunter anzusehen. Drei Fragen pro Überschrift:

Verrät die Überschrift allein, worum es geht? „Technische Details“ fällt durch. „Technische Details der Femto-LASIK-Operation“ besteht den Test.
Steht die Entität im Text? Jede Überschrift sollte die zentrale Entität der darunterliegenden Passage enthalten, nicht nur ein abstraktes Kategoriewort.
Funktioniert die Passage unter der Überschrift allein? Gibt es Rück-Referenzen wie „dieser Prozess“ oder „wie eben beschrieben“? Raus damit.

Ein einziger Durchgang deckt 80 Prozent der Content-Formatierungs-Probleme auf den meisten Websites auf. Das kostet eine Stunde pro Post und liefert die Grundlage für echte Retrieval-Freundlichkeit.

Stichproben in ChatGPT, Perplexity und Google AI Overviews. Prüf regelmäßig per Hand, für welche Fragen rund um dein Thema dein Content tatsächlich zitiert wird – und welche Seiten stattdessen auftauchen. Wenn eine Seite Traffic von Google bekommt, aber in keiner einzigen LLM-Antwort vorkommt, liegt das Problem fast immer in der Formatierung, nicht im Inhalt. Mehr Hintergrund dazu findest du in unserem Beitrag zur LLM-Sichtbarkeit.

KI-generierter Content und die Frage nach Abstrafung

Eine Frage taucht in fast jedem Kundencall zu diesem Thema auf: „Straft Google KI-generierten Content ab?“ Die Antwort ist differenziert. Google geht es in erster Linie um Spam – also um Content, der massenhaft produziert wird, nur um Rankings zu manipulieren. Der offizielle Begriff dafür heißt „Scaled Content Abuse“ und gilt ausdrücklich sowohl für menschlich als auch für maschinell erzeugte Texte. Wer ChatGPT auf „Schreib mir 50 SEO-Texte über X“ loslässt und die Ergebnisse ungeprüft veröffentlicht, bekommt eine Strafe – nicht wegen der KI, sondern wegen des Spam-Intents. Genau diese Form von Content gilt es zu vermeiden.

Wer stattdessen ein LLM mit eigenem Expertenwissen füttert und die sieben Prinzipien der Content-Formatierung konsequent anwendet, kommt auf gute Texte. Google merkt den Unterschied nicht. Im Zweifel gilt sogar: Gut formatierter KI-Content wird von LLMs häufiger zitiert als schlecht formatierter Experten-Content. Die Regeln aus diesem Artikel gelten für beide Produktionswege gleichermaßen.

Content-Formatierung in der Praxis: Keywordkönig-Case

Beim SEO-Wettbewerb von Agenturtipp 2025 zum Keyword „Keywordkönig“ haben wir Platz 3 bei Google erreicht und den parallel laufenden KI-Wettbewerb von RankScale als erstes Team überhaupt gewonnen. Die Wettbewerbsseite keywordkoenig.org ist noch online, und der Fall ist interessant, weil die Seite nicht lehrbuchhaft nach allen sieben Prinzipien gebaut ist – sondern drei Hebel extrem konsequent nutzt.

Hebel 1: FAQ-Block mit zehn Definitions-Chunks direkt oben. Die erste Sektion der Seite besteht aus zehn Fragen nach dem Muster „Was ist der Keywordkönig?“, „Wofür steht der Keywordkönig?“, „Wo sitzt der Keywordkönig?“, „Wem hilft der Keywordkönig?“. Klassische Definitions-Zitiermuster in Reinform. Jede Antwort steht als eigenständiger, chunk-fähiger Absatz mit voller Entity-Nennung. Das FAQ-Modul ist zusätzlich mit FAQPage-Schema ausgezeichnet. Für ein Retrieval-System ist das ein Direktkanal zu zehn sauber formatierten, eindeutig zuordenbaren Passagen.

Hebel 2: Extreme Entity-Wiederholung. Die Seite erwähnt „Keywordkönig“ 255 Mal in 7.400 Wörtern – im Schnitt alle 29 Wörter. Jede H2, jede H3 und fast jeder Absatz tragen die Entität. Interessant dabei: Der Hauptteil der Seite ist bewusst narrativ gehalten, mit Überschriften wie „Das Imperium des Keywordkönigs“, „Die Insignien des Keywordkönigs“ oder „Die Krone der Autorität“. Das widerspricht auf den ersten Blick dem Prinzip der faktischen Entity-Kontext-Überschriften – funktioniert hier aber, weil die Entität „Keywordkönig“ in jeder Metapher dominant bleibt und der FAQ-Block oben die sachliche Chunk-Grundlage liefert.

Hebel 3: Brand-Schema mit subjectOf-Kontext. Das Organization-Schema von keywordkoenig.org verlinkt per subjectOf zehn Konkurrenzseiten (semtrix.de, optimerch.de, arise-onlinemarketing.de und weitere) und nutzt zusätzlich einen doppelten Schema-Type [AboutPage, FAQPage]. Das ist Brand-SEO für ein erfundenes Keyword in Reinform. Mehr dazu im Beitrag zu Brand SEO.

Am Ende stehen da 199 Nennungen für den Keywordkönig-Beitrag in den Chats von ChatGPT, Perplexity oder Gemini. Das bedeutet Platz 1 im RankScale-Wettbewerb und Platz 3 bei Google. Letztlich bestätigt dieser Case genau das, was Andrea Volpini in seiner Analyse für WordLift schreibt: Wer die Pipeline beim Retrieval kapiert, gewinnt bei Google und den LLMs zur gleichen Zeit. Klar ist auch, dass die sieben Prinzipien hier im Text bloß Leitplanken sind – keine starre Checkliste. Wer drei davon wirklich extrem konsequent durchzieht, schlägt jede Seite, die alle sieben nur halbherzig abarbeitet.

Content-Formatierung für LLMs: Zusammenfassung und nächste Schritte

Man muss das so sehen: Formatierung für LLMs ist kein Hype und kein leeres Buzzword. Diese sieben Prinzipien sind ehrlicherweise schlichtes Handwerk. Die Botschaft an den Anfang, Überschriften mit echtem Entity-Bezug, keine Rückverweise im Text, ordentliche Verben, belegbare Fakten, Zitiermuster und die 70/30-Aufteilung. Wer das sauber umsetzt, verliert dadurch keinen eigenen Stil. Die Texte wirken danach meistens klarer, viel konkreter und weniger aufgebläht.

Den Heading-Isolation-Test halte ich für den effizientesten Start. Mit einer Stunde Arbeit pro Artikel findet man locker 80 Prozent der typischen Fehler beim Formatieren. Das legt die Basis für echte Sichtbarkeit im Retrieval. Falls du tiefer rein willst: Lies am besten parallel die Sachen zu Semantischem SEO, Cost of Retrieval und der LLM-Sichtbarkeit. Das gehört technisch gesehen sowieso alles zusammen.

Häufige Fragen zur Content-Formatierung für LLMs

Was ist der Unterschied zwischen Content-Formatierung für LLMs und klassischem SEO-Texten?

Klassische SEO-Texte optimieren auf Keyword-Dichte, feste Wortzahlen und interne Verlinkung. Die Content-Formatierung für LLMs optimiert auf Passage-Qualität, Chunk-Fähigkeit und Zitiermuster. Die beiden Ansätze widersprechen sich nicht, aber der Schwerpunkt verschiebt sich. Wer nur auf Keyword-Dichte achtet und die Passage-Struktur vernachlässigt, verliert in den AI Overviews und in den Antworten generativer KI-Systeme.

Gelten die Regeln auch für E-Commerce-Kategorieseiten?

Ja, und dort besonders. Die meisten Kategorietexte sind zu dünn, nicht weil 100 Wörter zu wenig für SEO wären, sondern weil 100 Wörter die relevanten Informationen zu einer Produktgruppe nicht transportieren können. Die sieben Prinzipien wende ich genauso auf Kategorieseiten an wie auf Blogposts. Besonders wichtig sind dort Verifiable Facts und Zitiermuster, weil Kategorien zunehmend in AI-Kaufempfehlungen auftauchen.

Warum sind 1.500 Wörter nicht das Ziel?

Feste Wortzahlen sind ein Überbleibsel aus der Skyscraper-Ära. Google und LLMs bewerten Passage-Qualität, nicht Post-Länge. Ein 800-Wort-Artikel mit präzisen Definitionsmustern und chunk-fähigen Absätzen schlägt einen 2.500-Wort-Artikel mit vagen Füllsätzen. Die richtige Länge ist die Länge, die das Thema sauber abdeckt – keine fixe Zahl.

Kann KI-generierter Content die Formatierungsregeln erfüllen?

Ja, aber nur mit menschlicher Kuratierung. Ein LLM generiert Texte nicht automatisch nach den sieben Prinzipien. Wer aber einen Prompt baut, der die Regeln einbezieht, und das Ergebnis anschließend prüft, kommt auf gute Texte. Der Keywordkönig-Case ist der Beweis: KI-generierter Content, der durch unsere Semantic-SEO-Regeln lief, hat den KI-Wettbewerb von RankScale gewonnen.

Brauche ich spezielle Tools für Content-Formatierung?

Nein. Die wichtigsten Prinzipien sind Handwerk. Kernaussage zuerst, konkrete Fakten, konsistente Terminologie, starke Verben, chunk-fähige Absätze – das lässt sich beim Schreiben direkt umsetzen. Tools wie die Google NLP API, Entity-Checker oder LLM-Monitoring-Lösungen helfen bei der Analyse, sind aber keine Voraussetzung. Wer die sieben Prinzipien verinnerlicht hat, braucht keine zusätzliche Software, um sie anzuwenden.

Quellen

Volpini, Andrea (2026): „Why AI Cites Some Pages and Ignores Others“, WordLift Blog
Indig, Kevin (2026): „The Science of How AI Pays Attention“, Growth Memo
Gübür, Koray Tugberk: „Semantic SEO“, Holistic SEO Digital
Barnard, Jason: „What is Entity-Based SEO?“, Kalicube
Google Research (2025): GIST – Greedy Independent Set Thresholding, NeurIPS 2025 (Quellen-Selektion für AI Overviews und AI Mode)
Google: „Passage Ranking Announcement“, Google Search On, 2020