Die meisten SEOs optimieren für einen Algorithmus, der ihre Seite gar nicht erst im Training hatte. 64 Prozent aller großen Sprachmodelle trainieren auf Daten von Common Crawl – dem größten öffentlichen Web-Archiv der Welt. Und Common Crawl entscheidet anhand einer einzigen Metrik, welche Domains häufiger gecrawlt werden: Harmonic Centrality.
Ich habe mir die Daten angeschaut. Für deutsche E-Commerce-Domains, für die großen SEO-Tool-Anbieter, für die Global Player. Die Ergebnisse zeigen ein klares Muster – und erklären, warum manche Domains in KI-Antworten ständig zitiert werden und andere nie.
Inhalt
Was ist Harmonic Centrality?
Harmonic Centrality ist ein ZentralitätsmaĂź aus der Graphentheorie. Es misst, wie „nah“ eine Domain an allen anderen Domains im Web ist. Eine Domain mit hoher Harmonic Centrality erreicht viele andere Domains ĂĽber wenige Link-Hops. Sie sitzt im Kern des Webs, nicht am Rand.
Das klingt erst mal nach Theorie. Deswegen der direkte Vergleich: Domain Authority oder Domain Rating messen die Anzahl und Qualität eingehender Links – wer verlinkt auf dich? Harmonic Centrality misst die Position in der Gesamtstruktur – wo sitzt du im Netzwerk? Eine Domain kann Tausende Backlinks haben und trotzdem am Rand des Webs sitzen, weil die Backlinks von isolierten Seiten kommen, die selbst keine Verbindungen haben.
Die mathematische Grundlage stammt von Paolo Boldi und Sebastiano Vigna, die Harmonic Centrality 2013 als axiomatisch fundiertes Zentralitätsmaß definiert haben. Common Crawl nutzt ihre Implementierung über das WebGraph-Framework.
Common Crawl veröffentlicht monatlich einen Web Graph mit zwei Metriken für jede gecrawlte Domain: Harmonic Centrality und PageRank. Common Crawl berechnet beides über Milliarden von Links. Der aktuelle Web Graph umfasst rund 135 Millionen Domains auf Domain-Level und über 360 Millionen auf Host-Level.
Abb. 1: Domain Authority misst eingehende Links — Harmonic Centrality misst die Position im gesamten Web-Netzwerk.
Warum Harmonic Centrality fĂĽr SEO und GEO relevant ist
Der Zusammenhang zwischen Harmonic Centrality und KI-Sichtbarkeit ist direkt: Common Crawl nutzt Harmonic Centrality, um die Crawl-Priorität zu bestimmen. Common Crawl crawlt Domains mit höherem Harmonic-Centrality-Wert häufiger. Häufigeres Crawling bedeutet mehr Erscheinungen in den monatlichen Archiven. Mehr Erscheinungen in den Archiven bedeutet größere Repräsentation in den Trainingsdaten.
Laut dem Mozilla-Report „Training Data for the Price of a Sandwich“ (2024) nutzten 64 Prozent der 47 analysierten LLMs mindestens eine gefilterte Version von Common-Crawl-Daten. Bei GPT-3 stammten ĂĽber 80 Prozent der Training-Tokens aus gefiltertem Common Crawl. Die zugrunde liegende Forschung von Stefan Baack wurde auf der FAccT-Konferenz 2024 peer-reviewed veröffentlicht – das sind keine Schätzungen, sondern wissenschaftlich belastbare Zahlen.
Harmonic Centrality beeinflusst nicht direkt das Ranking in Google. Aber sie beeinflusst, wie stark eine Domain in den Trainingsdaten von ChatGPT, Claude, Gemini und Perplexity vertreten ist. Und das wiederum beeinflusst, wie wahrscheinlich ein LLM diese Domain als Quelle zitiert – ein zentraler Aspekt von GEO (Generative Engine Optimization).
Metehan Yesilyurt, ein internationaler SEO-Berater, der sieben Monate lang mit Common-Crawl-Datasets gearbeitet hat, formuliert es in seinem Blogartikel zu CC Rank so: „If Common Crawl prioritizes crawling high-HC domains, these domains appear more frequently in training data. Does this create a baseline familiarity in LLMs with certain sources?“
Meine Daten aus dem CC Web Graph deuten auf ja.
HC Rank deutscher Domains: Eigene Daten aus dem Common Crawl Web Graph
Ich habe den HC Rank und PageRank verschiedener Domains über den Common Crawl Web Graph abgerufen. Der HC Rank gibt die Position unter allen Domains an – je niedriger die Zahl, desto zentraler die Domain.
Globale Plattformen: Die Spitze des Web Graph
Facebook sitzt auf HC Rank 1 – die zentralste Domain im gesamten Web Graph. Google auf Platz 3, YouTube auf 6, Twitter auf 7, LinkedIn auf 8. GitHub kommt auf 28, Reddit auf 43, Wikipedia auf 15.
Facebook, Google, YouTube, Wikipedia – LLMs zitieren genau diese Domains am häufigsten. Zufall? Eher nicht.
HC Rank deutscher E-Commerce-Domains: Amazon.de weit vor Otto, Zalando und Mediamarkt
Amazon.de erreicht HC Rank 201 – weit vor allen anderen deutschen E-Commerce-Domains. Dann kommt lange nichts. Idealo.de liegt bei 4.744, Otto.de bei 5.153, Thomann.de bei 6.536. Zalando.de erst bei 12.157, Aboutyou.de bei 21.728, Check24.de bei 22.634.
Und dann Mediamarkt.de: HC Rank 418.396. Trotz massiver Markenbekanntheit und hohem Traffic sitzt Mediamarkt.de in der Link-Topologie deutlich weiter außen als die Wettbewerber. Hier wird es spannend: Der PageRank von Mediamarkt.de (17.808) ist vergleichbar mit Otto.de (17.078). Ähnliche Backlink-Stärke, aber völlig verschiedene Position im Netzwerk.
Backlink-Quantität und Link-Topologie sind nicht dasselbe.
Abb. 2: HC Rank deutscher E-Commerce-Domains — Amazon.de sitzt 2.000-mal zentraler im Web als Mediamarkt.de.
Pro-Tipp: Genau dieser Vergleich zeigt, warum du Harmonic Centrality separat betrachten musst. Eine Domain kann nach klassischen Backlink-Metriken stark aussehen und trotzdem in der Netzwerkstruktur peripher sein.
SEO-Tool-Anbieter: Internationale Reichweite zahlt sich aus
Ahrefs.com kommt auf HC Rank 914, Semrush.com auf 1.318, Sistrix.de auf 6.253. Die Reihenfolge ist kein Zufall: Ahrefs und Semrush operieren global, werden weltweit verlinkt und sitzen entsprechend tiefer im Kern des Webs. Sistrix.de fokussiert auf den DACH-Raum – stark in der Region, aber weniger zentral im globalen Netzwerk.
KI-Systeme zitieren alle drei regelmäßig zu SEO-Themen. Die Position im Web Graph liefert eine klare Erklärung dafür.
Kleine Domains im Web Graph: Warum hechtinsgefecht.de keinen HC Rank hat
Unsere eigene Domain hechtinsgefecht.de ist nicht unter den Top 10 Millionen im HC Rank. Aber sie ist im Common-Crawl-Archiv vertreten – mit 5 gecrawlten Seiten. Das ist die Realität für die meisten kleinen bis mittelgroßen Websites: Im Archiv vorhanden, aber ohne messbaren HC Rank.
Heißt das, kleine Domains keine Chance haben? Nein. Harmonic Centrality ist ein Faktor unter vielen. Für LLM-Sichtbarkeit zählen auch Brand-Signale, strukturierte Daten und die inhaltliche Qualität. Aber Harmonic Centrality bestimmt, wie viel Grundrauschen deine Domain in den Trainingsdaten erzeugt – und das ist ein Vorteil, den du nicht durch Content allein kompensieren kannst.
Warum Domain Authority fĂĽr AI Visibility nicht mehr reicht
Das alte Linkbuilding fokussierte auf das Ansammeln von Backlinks. Möglichst viele, möglichst starke. Domain Authority war die Leitwährung.
Für AI Visibility reicht das nicht mehr. Was zählt, ist nicht nur die Quantität der eingehenden Links, sondern die Topologie des Backlink-Profils. Wo sitzen die verlinkenden Domains in der Gesamtstruktur des Webs? Artur Kosch beschreibt den Zusammenhang in seinem Artikel zu Harmonic Centrality treffend: HC misst nicht, wer auf dich verlinkt, sondern wie zentral deine Position im gesamten Web-Netzwerk ist.
Stephen Burns, Web Intelligence Lead bei der Common Crawl Foundation, geht in seinem Artikel „From SEO to AIO“ noch einen Schritt weiter: Ein einzelner Link von einer Domain, die tief im Kern des Webs eingebettet ist, könnte mehr fĂĽr die Harmonic Centrality tun als Dutzende Links von isolierten Seiten.
Das erklärt, warum manche Domains trotz weniger Backlinks in LLM-Antworten auftauchen und andere mit Hunderten Backlinks nicht: Die Backlinks kommen von den falschen Stellen im Netzwerk.
Korrelation zwischen Google-Ranking, HC Rank und LLM-Zitierung
Brie Moreau von White Light Digital Marketing hat über 2 Millionen LLM-Zitierungen analysiert. Ihre vorläufigen Ergebnisse zeigen eine starke Korrelation zwischen Google-Ranking und LLM-Zitierwahrscheinlichkeit: Position 1 bei Google bringt eine Wahrscheinlichkeit von 46 bis 48 Prozent, von einem LLM zitiert zu werden. Position 10 sinkt auf 19 bis 20 Prozent.
Noch interessanter: Moreaus Content-Analyse über 177 Millionen Quellen zeigt, dass LLMs bestimmte Formate bevorzugen. Comparative Listicles machen 32,5 Prozent aller Zitierungen aus. Blogs und Meinungsbeiträge kommen auf 9,9 Prozent, kommerzielle Shop-Seiten nur auf 4,7 Prozent. LLMs zitieren Content, der Optionen vergleicht und Informationen strukturiert – nicht Produktseiten.
Die Korrelation zwischen Google-Ranking und LLM-Zitierung ist stark, erklärt aber nicht alles. Die Position im Web Graph könnte der fehlende Faktor sein.
Harmonic Centrality prĂĽfen: CC Rank Checker
Metehan Yesilyurt hat ein kostenloses Tool gebaut, das die Web-Graph-Daten für SEOs zugänglich macht: den CC Rank Checker. Das Tool indexiert die Top 10 Millionen Domains über mehrere Zeiträume von 2023 bis 2026. Du kannst bis zu 10 Domains gleichzeitig vergleichen und die Rank-Entwicklung über Zeit verfolgen.
Zusätzlich kannst du direkt prüfen, ob deine Seite von Common Crawl gecrawlt wird. Der Common Crawl Index Server erlaubt die Suche nach URL-Patterns in den Crawl-Archiven. Einfach den aktuellsten Crawl auswählen, Domain eingeben, fertig. Du siehst sofort, welche Seiten erfasst wurden und mit welchem HTTP-Status.
Tier-System des CC Rank Checker
Der CC Rank Checker ordnet Domains in 6 Tiers ein:
- Elite: Top 100 (Facebook, Google, YouTube, Wikipedia)
- Top 1K: Platz 101–1.000 (große Plattformen, globale Brands)
- Top 10K: Platz 1.001–10.000 (starke Domains mit breiter Vernetzung)
- Top 100K: Platz 10.001–100.000 (die meisten bekannten Marken)
- Top 1M: Platz 100.001–1.000.000 (mittelgroße Websites)
- Long Tail: Ab Platz 1.000.001 (die groĂźe Mehrheit)
Abb. 3: Das 6-stufige Tier-System des CC Rank Checker — von Elite (Top 100) bis Long Tail.
Generell liegen E-Commerce-Kunden in der Praxis meistens im Bereich Top 100K bis Top 1M. Alles darunter oder nicht gelistet bedeutet: Die Domain existiert fĂĽr die meisten KI-Trainingspipelines praktisch nicht.
5 MaĂźnahmen fĂĽr bessere Harmonic Centrality
Harmonic Centrality verbessern heißt nicht mehr Backlinks, sondern bessere Backlinks. 5 Maßnahmen: CC-Archiv-Präsenz prüfen, CCBot nicht blockieren, Links aus dem Kern des Webs aufbauen, Content-Repräsentation erhöhen und den HC Rank regelmäßig gegen Wettbewerber benchmarken.
Abb. 4: 5 MaĂźnahmen zur Verbesserung der Harmonic Centrality und damit der KI-Sichtbarkeit.
1. PrĂĽfen, ob du im Common-Crawl-Archiv bist
Das ist die absolute Grundvoraussetzung. Nicht im Archiv bedeutet nicht in den Trainingsdaten. Auf dem CC Index Server dauert die Prüfung eine Minute: Aktuellsten Crawl auswählen, Domain eingeben, Ergebnisse prüfen. Wenn dort keine URLs deiner Domain auftauchen, blockiert vermutlich die robots.txt den CCBot — oder die Domain ist zu jung und zu wenig verlinkt, um in die Crawl-Queue zu kommen.
2. CCBot nicht blockieren
PrĂĽfe deine robots.txt. Manche Websites blockieren CCBot pauschal – oft weil irgendwann jemand „alle Bots auĂźer Google blockieren“ fĂĽr eine gute Idee hielt. Das ist kontraproduktiv, wenn du fĂĽr KI-Systeme sichtbar sein willst.
CCBot ist der Crawler, der die öffentlichen Trainingsdaten erzeugt. Das bedeutet nicht, dass du alle KI-Crawler erlauben musst – aber CCBot gehört in die Whitelist.
3. Links aus dem Kern des Webs aufbauen
Statt nur auf Domain Authority zu achten, prĂĽfe den HC Rank der verlinkenden Domain. Ein Link von einer Domain mit HC Rank unter 10.000 wiegt fĂĽr die Link-Topologie schwerer als zehn Links von Domains, die nicht einmal im Web Graph erscheinen.
In der Praxis heißt das: Citations auf großen Plattformen (Google Maps, Yelp, LinkedIn, Branchenportale) verbessern nicht nur die NAP-Konsistenz, sondern auch die Position im Web Graph. Diese Plattformen sitzen tief im Kern – und ein Link von dort stärkt die Harmonic Centrality. Das ist letztlich auch der Grund, warum wir in unserer GEO-Strategie so stark auf Citations setzen.
4. Content-Repräsentation erhöhen
Je mehr Seiten deiner Domain Common Crawl erfasst, desto größer die Repräsentation in Trainingsdaten. Das heißt nicht, dass du Hunderte leere Seiten erstellen sollst. Jede qualitativ hochwertige Seite, die im CC-Archiv landet, erzeugt ein zusätzliches Signal.
Und was heiĂźt „qualitativ hochwertig“ in diesem Kontext? Content, der vergleicht, strukturiert und Fakten liefert – genau die Formate, die LLMs bevorzugt zitieren.
5. HC Rank als Benchmark nutzen
Vergleiche den HC Rank deiner Domain über den CC Rank Checker regelmäßig mit den Wettbewerbern — idealerweise quartalsweise, da sich Harmonic Centrality langsam bewegt. Ein großer HC-Rank-Gap – Wettbewerber bei 6.800, eigene Domain bei 48.000 – zeigt, dass Content allein die Lücke nicht schließt. Die Link-Topologie muss sich ändern.
Von „Index and Rank“ zu „Train and Retrieve“: Was Harmonic Centrality fĂĽr die Zukunft von SEO bedeutet
Das alte Modell war „index and rank“. Google indexiert eine Seite, bewertet sie nach Hunderten Signalen und zeigt sie in den Suchergebnissen.
Das neue Modell ist „train and retrieve“. KI-Systeme trainieren auf Web-Daten, speichern Wissen implizit in ihren Parametern und rufen bei einer Nutzeranfrage entweder aus dem Training oder live per Retrieval ab. Die Präsenz im Training ist die Voraussetzung fĂĽr die Präsenz in der Antwort. Stephen Burns nennt das den Shift von SEO zu AIO – und Harmonic Centrality ist die Metrik, die diesen Shift messbar macht.
Harmonic Centrality ist nicht das einzige Signal. Aber es ist eines der wenigen, die wir messen und beeinflussen können. In unseren SEO- und GEO-Audits analysieren wir den CC Web Graph mittlerweile standardmäßig – zusammen mit LLM-Zitierungsanalysen und AI Search Volume. Die Kombination zeigt, wo eine Domain in der KI-Sichtbarkeit steht und welche strukturellen Maßnahmen den größten Hebel haben.
Wer nicht in den Trainingsdaten ist, existiert für KI-Systeme nicht. Harmonic Centrality bestimmt, wie oft Common Crawl eine Domain erfasst – und damit die Grundlage der KI-Sichtbarkeit.
Ich rechne damit, dass Harmonic Centrality sich von einer Nischenmetrik zum Standard-Feature in SEO-Tools entwickelt. Ahrefs, Semrush, Sistrix – die Daten sind öffentlich und kostenlos verfügbar. Es ist eher eine Frage der Zeit, bis HC neben Domain Rating und Authority Score in den Dashboards auftaucht.
Fragen zu Harmonic Centrality
Was ist der Unterschied zwischen Harmonic Centrality und PageRank?
Der zentrale Unterschied: PageRank misst Backlink-Autorität (wer verlinkt auf dich), Harmonic Centrality misst die strukturelle Netzwerkposition (wie nah bist du am Zentrum des Webs). Mediamarkt.de zeigt den Unterschied: PageRank vergleichbar mit Otto.de, aber HC Rank 80-mal schlechter.
Beeinflusst Harmonic Centrality direkt das Google-Ranking?
Nein. Harmonic Centrality beeinflusst, wie häufig Common Crawl eine Domain crawlt – und damit die Repräsentation in LLM-Trainingsdaten, nicht das Google-Ranking.
Wie kann ich meinen HC Rank verbessern?
Durch Links von Domains, die tief im Kern des Webs sitzen: große Plattformen (LinkedIn, GitHub, Google Maps), Medien und Institutionen. Ein einzelner Link von dort verbessert den HC Rank stärker als Dutzende Links von isolierten Websites.
Meine Domain erscheint nicht im CC Rank Checker – ist das schlimm?
Der CC Rank Checker indexiert nur die Top 10 Millionen Domains. PrĂĽfe separat ĂĽber den CC Index Server, ob deine Domain im Archiv ist – das ist wichtiger als der Rank.
Wie oft aktualisiert Common Crawl die Web-Graph-Daten?
Monatlich. Der HC Rank ändert sich mit jedem Release, bewegt sich fĂĽr die meisten Domains aber nur langsam – die Link-Topologie des Webs ist relativ stabil.
Welche Content-Formate zitieren LLMs am häufigsten?
Laut Brie Moreaus Analyse von 177 Millionen Quellen: Comparative Listicles (32,5 Prozent aller Zitierungen), Blogs und Meinungsbeiträge (9,9 Prozent), kommerzielle Shop-Seiten (4,7 Prozent). LLMs bevorzugen Content, der Optionen vergleicht und Informationen in Listenformat präsentiert.


