Doppelte Inhalte (Duplicate Content) finden und vermeiden!

Texte aus KI-Systemen verbreiten sich in rasanter Geschwindigkeit. Viele ähneln sich nicht nur im Aufbau, sondern auch in Wortwahl, Satzstruktur und Informationsgehalt. Mittlerweile kann Google diese Muster erkennen. Das wäre ja nicht so schlimm. Doch inzwischen ordnet das Unternehmen diese auch als Duplicate Content ein. Ein Begriff, der vielen bekannt ist, den aber viele nicht verstehen.

Inhaltsverzeichnis

Aber gerade für die Suchmaschinenoptimierung (SEO) ist das ein ernst zu nehmendes Thema. Denn gleiche Inhalte schwächen die Signale der eigenen Website oder Domain. Und das wiederum erschwert das Ranking und kann im schlimmsten Fall zur Deindexierung führen.

Das Wichtigste in Kürze:

Duplicate Content bezeichnet identische oder stark ähnliche Inhalte oder Textbausteine auf mehreren Seiten, mit einer unterschiedlichen URL.
Man unterscheidet internen und externen Duplicate Content.
Google erkennt doppelte Inhalte über semantische Vektoren und den Algorithmus SimHash.
Vor allem KI-Texte generieren häufig near duplicate content.
Duplicate Content kann die Indexierung und das Ranking beeinträchtigen.
Mit Canonical-Tags, 301 Weiterleitungen und Unique Content lässt sich Duplicate Content vermeiden.

Was ist Duplicate Content?

Duplicate Content bezeichnet Texte oder Textbausteine, die unter mehreren URLs oder auf verschiedenen Domains vorkommen. Der Begriff selbst wurde von Google eingeführt, um zu beschreiben, wie die Suchmaschine mit mehrfach vorhandenen Inhalten umgeht.

Duplicate Content entsteht meist unbeabsichtigt. Etwa durch technische Strukturen, Parameter-URLs, Contentmanagement-Systeme, die Seiten duplizieren. Oder durch das Kopieren bestehender Inhalte. Auch KI Texte können sich so stark ähneln, dass sie als near duplicate content gelten.

Google bewertet solche Fälle immer sehr kritisch, weil sie keinen Mehrwert bieten. Das Unternehmen selbst weist aber darauf hin, dass Duplicate Content in den meisten Fällen nicht zu einer Abstrafung führt, sondern lediglich dazu, dass eine Version bevorzugt und die übrigen Varianten gefiltert werden oder gar nicht indexiert werden.

Welche Arten von Duplicate Content gibt es?

Um doppelte Inhalte zu vermeiden, sollten Sie wissen: Duplicate Content tritt in mehreren Formen auf. Es gibt interne, externe und weitere Abstufungen. Suchmaschinen unterscheiden dabei zwischen Ort, Grad der Übereinstimmung und technischer Ursache.

Was ist interner Duplicate Content?

Interner Duplicate Content entsteht innerhalb einer Domain. Er betrifft Seiten, die unter verschiedenen URLs denselben oder nahezu denselben Inhalt aufweisen. Etwa durch Parameter, Session-IDs, Druckversionen oder doppelt erreichbare Pfade (www/non-www, http/https). Auch CMS-generierte Tag- und Kategorie-Seiten oder identische Produktbeschreibungen zählen dazu.

Was ist externer Duplicate Content?

Externer Duplicate Content liegt vor, wenn identische oder stark ähnliche Inhalte auf mehreren Domains veröffentlicht werden. Typische Beispiele sind übernommene Blogbeiträge, syndizierte Pressemeldungen oder kopierte Produkttexte auf Partnerseiten. In solchen Fällen kann Google nicht eindeutig bestimmen, welche Version als Original gilt.

Was ist near duplicate content?

Neben diesen beiden Hauptformen gibt es den sogenannten near duplicate content. Dabei handelt es sich um Texte, die sich nur geringfügig unterscheiden, etwa durch Synonyme, umgestellte Sätze oder automatisch generierte Varianten. Google erkennt solche Ähnlichkeiten mithilfe von semantischen Vektoren und dem Algorithmus SimHash, der Textinhalte mathematisch vergleicht.

Duplicate Content kann außerdem durch technische Strukturen entstehen:

Mehrere Formate desselben Inhalts (HTML, PDF, AMP-Versionen),
mobile und Desktop-Seiten mit gleichem Text,
Spiegel- oder Staging-Seiten, die versehentlich indexiert werden.

Kurz gesagt: Es gibt interne, externe und near duplicate Inhalte, die sich nach Ort, Grad der Ähnlichkeit und technischer Ursache unterscheiden. Alle Varianten können dazu führen, dass Google Seiten zusammenfasst oder aus dem Index filtert. Immer mit direkten Folgen für Sichtbarkeit und Ranking.

Warum ist Duplicate Content ein Problem für die Suchmaschinenoptimierung (SEO)?

Und genau deswegen ist Duplicate Content eben ein Problem für SEO. Denn wer möchte schon gern an Sichtbarkeit verlieren? Doch es gibt noch andere Gründe, weshalb Duplicate Content zu vermeiden ist:

Ranking-Konkurrenz: Mehrere identische Seiten konkurrieren untereinander.
Verlust von Linkkraft: Backlinks und interne Links verteilen sich auf verschiedene Versionen.
Crawl-Budget-Verbrauch: Der Googlebot durchsucht Duplikate statt neuer Inhalte.
Abstrafung durch Google: Bei systematischem Kopieren droht eine algorithmische Herabstufung.

Wie erkennt Google doppelte Inhalte?

Aber wie erkennt Google sogenannten Duplicate Content? Google indexiert die Inhalte jeder Website für die Anzeige in den Suchergebnissen. Dabei achten die Bots nicht nur auf die Bedeutung der Texte. Es werden auch die Wortfolgen untersucht. Dazu verwendet der Konzern mathematische Modelle aus der Sprachverarbeitung: Vektoren.

Was sind Vektoren?

Vektoren sind mathematische Abbildungen von Sprache. Jeder Begriff, Satz oder Absatz wird in ein mehrdimensionales Koordinatensystem übersetzt, in dem Wörter durch Zahlen repräsentiert werden. Wörter mit ähnlicher Bedeutung liegen in diesem Raum nah beieinander, unähnliche Begriffe liegen weiter auseinander.

Die Methode stammt übrigens aus der Natural Language Processing (NLP)-Forschung. Systeme wie Word2Vec, BERT oder Google’s Transformer-Modelle erzeugen diese sogenannten semantischen Vektoren, um Bedeutungen zu vergleichen und eben nicht nur Wortfolgen.

Für die Duplicate-Content-Analyse bedeutet das: Google prüft nicht mehr, ob zwei Texte dieselben Wörter enthalten, sondern ob sie inhaltlich dieselbe Aussage treffen. So erkennt die Suchmaschine, dass „günstige Kaffeemaschine kaufen“ und „billige Espressomaschine bestellen“ dasselbe Nutzerziel ausdrücken.

Damit kann Google auch near duplicate content identifizieren: Also Texte, die formal unterschiedlich formuliert, aber semantisch fast identisch sind. Besonders relevant ist das bei KI Texten: Hier entstehen in der Regel viele Varianten, die sich nur oberflächlich unterscheiden, aber immer dieselben Bedeutungsvektoren haben.

Kurz gesagt:
Vektoren sind die numerische Sprachebene, mit der Google Inhalte versteht, vergleicht und gruppiert. Sie bilden die Grundlage, um semantisch ähnliche Seiten zu erkennen und Duplicate Content zuverlässig zuzuordnen. Das funktioniert auch dann, wenn er manuell oder automatisiert umgeschrieben wurde.

Was ist SimHash und wie arbeitet der Algorithmus?

Nach der semantischen Analyse folgt ein zweiter Schritt: die technische Erkennung über SimHash. SimHash ist ein Algorithmus, den Google entwickelt hat, um große Textmengen auf inhaltliche Ähnlichkeiten zu prüfen. Ein Google eigener Duplicate Content Checker also.

Das Verfahren stammt ursprünglich aus der Information Retrieval-Forschung und wird seit Mitte der 2000er-Jahre in der Indexierung von Suchmaschinen eingesetzt. Während Vektoren die Bedeutung von Sprache abbilden, arbeitet SimHash also auf der technischen Ebene: Es erzeugt aus jedem Dokument einen kompakten Hashwert, eine Art digitalen Fingerabdruck.

Der Ablauf vereinfacht:

Ein Text wird in kleine Einheiten zerlegt (z. B. Wörter oder Phrasen).
Jede Einheit erhält einen numerischen Wert auf Basis ihrer Merkmale (z. B. Häufigkeit, Position, Gewichtung).
Diese Werte werden zu einem Bitmuster verdichtet, dem Hash.
Hashes ähnlicher Texte unterscheiden sich nur in wenigen Bits.

Dadurch kann Google zwei Dokumente vergleichen, indem es lediglich prüft, wie viele Bits voneinander abweichen (Hamming-Distanz). Ist die Differenz klein, handelt es sich um near duplicate content.

Der Vorteil liegt in der Skalierbarkeit: Google muss nicht Milliarden Texte Wort für Wort vergleichen, sondern nur deren Fingerabdrücke. Das spart Rechenleistung und erlaubt, ähnliche oder doppelte Seiten zu clustern, also zusammenzufassen und nur eine Version in den Suchergebnissen zu zeigen.

SimHash ist damit eines der zentralen Werkzeuge der Suchmaschine, um doppelten Content automatisch zu erkennen.

Wie kann Duplicate Content auf einer Website entstehen?

Und auch wenn jeder versucht, doppelte Inhalte zu vermeiden, kann es dennoch passieren, dass verschiedene Seiten ähnlichen Content enthalten. Oft passiert das aus technischen oder organisatorischen Gründen:

1. Mehrere URLs für denselben Inhalt
Wenn eine Seite über verschiedene Pfade erreichbar ist (z. B. mit und ohne „www“, mit oder ohne Slash, über http und https oder mit zusätzlichen Parametern wie ?session=, ?ref= oder ?sort=), wertet Google jede Variante als eigene URL. Der Inhalt bleibt gleich, die Adresse nicht: Ein klassischer Fall von internem Duplicate Content.

2. Content Management Systeme (CMS)
Viele CMS generieren automatisch zusätzliche Seiten: Druckansichten, Tag- und Kategorieseiten, Filter- oder Paginierungsseiten. Diese Varianten haben häufig denselben Hauptinhalt, nur in anderer Struktur. Ohne Canonical-Tag oder Noindex-Hinweis erscheinen sie als Duplikate im Index.

3. Session-IDs und Tracking-Parameter
Dynamische URLs mit individuellen Sitzungskennungen oder Kampagnenparametern (z. B. UTM-Tracking) führen dazu, dass dieselbe Seite unter mehreren Adressen existiert. Für Suchmaschinen wirkt das wie mehrfach vorhandener Content.

4. Externer Duplicate Content
Texte, die auf mehreren Domains veröffentlicht werden, etwa durch Content-Syndication, Presseportale oder Partnerseiten, gelten als externe Duplikate. Google versucht dann, den echten, ursprünglichen Originaltext zu bestimmen. Dazu beachtet die Suchmaschine oft das Datum der Erstindexierung oder bewertet die Domain-Autorität und das Canonical-Signal.

5. Automatisierte Texterstellung mit KI
Regelbasierte Tools oder KI erstellen Inhalte mit identischem Aufbau und nur geringfügigen Variationen in Wortwahl oder Satzstruktur. Diese Texte sind near duplicate content und werden von Google mit semantischen Vektoren und SimHash erkannt.

6. Format- und Gerätevarianten
Wenn derselbe Inhalt zusätzlich als PDF, AMP- oder mobile Version veröffentlicht wird, können daraus ebenfalls Duplikate entstehen. Und das vor allem, wenn die Dokumente eigenständig indexiert werden.

Wie kann Duplicate Content in Texten vermieden werden?

Um nicht selbst mit dem Thema konfrontiert zu werden müssen Sie also einzigartige Inhalte schreiben. Leichter gesagt als getan. Und außerdem: Wie war das mit der Form von Duplicate Content, bei dem auch ähnliche Texte als doppelt gewertet werden? Also? Wie können Sie dann das Thema umgehen?

Technische Maßnahmen

Ein sauberer technischer Aufbau bildet die Grundlage. Er sorgt dafür, dass Suchmaschinen keine doppelten Versionen indexieren:

Canonical Tag setzen
Der Canonical Tag (<link rel="canonical" href="...">) teilt Google mit, welche URL als Hauptversion gilt. Das ist vor allem bei Produktvarianten, Filterseiten, PDFs oder Druckansichten wichtig. Der Tag sollte im <head>-Bereich jeder Seite eingebunden werden und auf die bevorzugte URL verweisen.
301-Weiterleitungen nutzen
Wenn mehrere URLs denselben Inhalt liefern, sollte nur eine davon erreichbar sein. Dauerhafte 301-Weiterleitungen bündeln alle Signale, etwa Backlinks und interne Links, auf die korrekte Adresse. Wichtig: Keine Ketten oder Schleifen erstellen, sondern klare Ziel-URLs definieren.
Einheitliche URL-Struktur pflegen
Konsistente Schreibweisen (mit oder ohne Slash, immer HTTPS, immer Kleinbuchstaben) verhindern, dass Google denselben Inhalt mehrfach crawlt. Das können Sie im CMS (Content Management System) und in der .htaccess-Datei festlegen.
Parameter-Handling in der Search Console
Die Google Search Console bietet im Bereich URL-Parameter und Indexierung Informationen, wenn Seiten mehrfach erreichbar sind. Hier können Sie Parameter definieren, die Google ignorieren soll (z. B. ?sort= oder ?session=).
hreflang und Cross-Domain Canonical bei Mehrsprachigkeit
Internationale Websites sollten über hreflang-Tags korrekt auf Sprach- und Regionsvarianten verweisen. Bei syndizierten Inhalten oder Content-Sharing zwischen Domains kann ein Cross-Domain-Canonical gesetzt werden, um Google die Originalquelle zu signalisieren.

Redaktionelle Maßnahmen

Auch inhaltlich ist die Vermeidung von Duplicate Content möglich:

1. Einzigartigen Content erstellen
Jeder Text sollte eine eigene Perspektive, Datengrundlage oder Argumentation haben. Statt identischer Produktbeschreibungen oder Pressemitteilungen sind eigenständige Formulierungen, Beispiele oder Fachbelege wichtig, um echten Mehrwert zu erzeugen.

2. Near Duplicate Content überarbeiten
KI-generierte oder automatisiert umgeschriebene Texte sind bekannt für semantische Dopplungen. Diese Varianten sollten überprüft, ergänzt und mit Fakten, Zitaten oder neuen Informationen erweitert werden.

3. Einheitliche CMS-Pflege
In Contentmanagement-Systemen sollten Autorenrichtlinien verhindern, dass Texte mehrfach angelegt oder kopiert werden. Besonders bei Kategorieseiten, Tag-Templates oder Übersichtsseiten ist Konsistenz wichtig.

Wie können Sie Duplicate Content erkennen oder Ihre Texte überprüfen?

Um doppelte Inhalte frühzeitig zu erkennen, ist eine Duplicate-Content-Analyse unverzichtbar. Sie zeigt, ob mehrere Unterseiten oder URLs erreichbar sind, die denselben Text enthalten.

Selbst die kostenfreie Google Search Console liefert Ihnen erste Hinweise. Unter Indexierung erscheinen beispielsweise betroffene Seiten mit dem Hinweis, dass Google eine andere Version als kanonisch eingestuft hat. Das bedeutet: Mehrere URLs sind erreichbar, aber nur eine davon wird indexiert.

Für eine technische Tiefenanalyse eignen sich Tools wie Screaming Frog, Semrush, Ahrefs oder Ryte. Sie crawlen komplette Websites, erkennen doppelte Inhalte und zeigen Ihnen, über welche URLs identische oder stark ähnliche Texte abrufbar sind. So können Sie gezielt prüfen, ob Parameter, Druckversionen oder Session-IDs ungewollte Varianten erzeugen.

Auch Copyscape und Siteliner liefern wichtige Daten, speziell bezüglich externem Duplicate Content. Sie durchsuchen das Web nach identischen Passagen und zeigen Ihnen, wenn identische Inhalte auf anderen Domains veröffentlicht wurde. Hier helfen übrigens auch Plagiatschecker.

Wer mit KI Texte schreibt, muss zwingend auf near duplicate content achten. Systeme wie der Semrush Site Audit Report oder Writer.com AI Detector erkennen automatisch generierte Varianten, die sich nur minimal unterscheiden, aber von Google als Duplikat gewertet werden können.

Schritt-für-Schritt-Anleitung zur Vermeidung von Duplicate Content

Domain crawlen (z. B. mit Screaming Frog oder Sitebulb).
Duplikate prüfen (Tabellen-Export, Hash-Vergleich, Content-Duplizierung).
Externe Checks durchführen (Copyscape oder Siteliner).
Canonical-Tags und Indexierungsstatus in der Search Console verifizieren.
Korrekturen umsetzen (Weiterleitungen, Canonicals, Textüberarbeitung).
Erneute Prüfung nach Re-Indexierung.

Duplicate Content vermeiden: Vor allem in KI Texten

Duplicate Content ist kein rein technisches Phänomen, sondern eine Frage von Qualität und Originalität. Google erkennt über Vektoren und SimHash, wenn Texte zu ähnlich sind; selbst dann, wenn sie von einer KI generiert und leicht umgeschrieben wurden.

Für nachhaltige Suchmaschinenoptimierung gilt daher: Doppelte Inhalte vermeiden, unique Content schreiben und technische Signale klar setzen. Nur so ranken Texte langfristig in den Suchergebnissen, ohne Gefahr einer Abstrafung oder Deindexierung.

Kathrin Landsdorfer

Als Senior Texterin und Senior Copywriterin schreibe ich SEO-optimierte Texte für Unternehmen verschiedener Branchen. Außerdem biete ich extra SEO Schulungen und Texter-Schulungen an (SEO Beratung). In meiner Freizeit schreibe ich natürlich auch, bevorzugt Kinderbücher. Und wenn ich nicht am Schreibtisch sitze, genieße ich das Wandern in meiner Heimat, dem Bayerischen Wald.

Wie Google KI-Texte entlarvt und warum Duplicate Content SEO gefährdet

Was ist Duplicate Content?

Welche Arten von Duplicate Content gibt es?

Was ist interner Duplicate Content?

Was ist externer Duplicate Content?

Was ist near duplicate content?

Warum ist Duplicate Content ein Problem für die Suchmaschinenoptimierung (SEO)?

Wie erkennt Google doppelte Inhalte?

Was sind Vektoren?

Was ist SimHash und wie arbeitet der Algorithmus?

Wie kann Duplicate Content auf einer Website entstehen?

Wie kann Duplicate Content in Texten vermieden werden?

Technische Maßnahmen

Redaktionelle Maßnahmen

Wie können Sie Duplicate Content erkennen oder Ihre Texte überprüfen?

Schritt-für-Schritt-Anleitung zur Vermeidung von Duplicate Content

Duplicate Content vermeiden: Vor allem in KI Texten

Ähnliche Beiträge

Was ist Duplicate Content?

Welche Arten von Duplicate Content gibt es?

Was ist interner Duplicate Content?

Was ist externer Duplicate Content?

Was ist near duplicate content?

Warum ist Duplicate Content ein Problem für die Suchmaschinenoptimierung (SEO)?

Wie erkennt Google doppelte Inhalte?

Was sind Vektoren?

Was ist SimHash und wie arbeitet der Algorithmus?

Wie kann Duplicate Content auf einer Website entstehen?

Wie kann Duplicate Content in Texten vermieden werden?

Technische Maßnahmen

Redaktionelle Maßnahmen

Wie können Sie Duplicate Content erkennen oder Ihre Texte überprüfen?

Schritt-für-Schritt-Anleitung zur Vermeidung von Duplicate Content

Duplicate Content vermeiden: Vor allem in KI Texten

Ähnliche Beiträge

Weitere interessante Artikel