KI-Texterstellung

Was können GPT und Bard wirklich?

Beatrice Eiring
Beatrice Eiring

Dr. Beatrice Eiring ist promovierte Sprachwissenschaftlerin und hat Germanistik sowie BWL an der Uni Würzburg studiert. Seit 2012 gehört sie zum Team der eology GmbH und leitet dort die 15-köpfige Content-Creation-Abteilung, deren Schwerpunkt die Erstellung hochqualitativer Online-Texte ist. Sie berät KMU ebenso wie Konzerne bei der Positionierung im Netz und erarbeitet für diese langfristige Content-Strategien.

Mehr von diesem AutorArtikel als PDF laden

Welche Möglichkeiten, Chancen und Risiken für die Texterstellung für die Suchmaschinenoptimierung bieten Chatbots? Meinungen und Vermutungen darüber kann man überall im Web lesen und verfolgen. Aber wäre es nicht hilfreich, wenn diese Fragen einmal mit wissenschaftlichem Hintergrund aus Praxissicht sauber evaluiert würden? Dr. Beatrice Eiring, promovierte Sprachwissenschaftlerin, hat mit ihrem Team eine entsprechende Studie erstellt und fasst für Sie hier ihre Ergebnisse zusammen. Sie erklärt, was ChatGPT und Google Bard aktuell können – und wo ihre Grenzen liegen. Sie bewertet aber auch die SEO-Tauglichkeit der KI-Texte, ihr Ranking- und Performance-Potenzial und gibt Best Practices zur Textarbeit mit den Chatbots. Wer die Autorin einmal live erleben oder sprechen möchte, kann dies übrigens auf der diesjährigen SMX im März in München tun, wo sie das Thema in einem Fachvortrag vertiefen wird.

„KI-Texte sind so gut, da braucht es keinen Texter mehr!“, „Texte von Chatbots sind nicht identifizierbar!“, „SEO-Texter wird es bald nicht mehr geben!“ – diese und ähnliche Sätze hört man seit Monaten. Doch wie wahr sind sie? Und wie objektiv? Halten KI-Texte wirklich den Anforderungen an sprachliche Qualität, SEO und Zielgruppenorientierung stand? Wie schaut es mit der Erfüllung von Googles E-E-A-T-Modell aus? Als Website-Betreiber ist es wichtig zu wissen, ob KI-Texte schädlich für Sichtbarkeit und Google-Rankings sind. Um dem objektiv nachzugehen, haben Sprach-, Literatur, Kultur- und Kommunikationsexperten der eology Content Creation in einer empirischen Studie vier Hypothesen geprüft:

  • Hypothese Nummer eins: KI schreibt nicht besser als der Mensch.
  • Hypothese Nummer zwei: KI-SEO-Texte sind eindeutig von Texten, die ein Mensch geschrieben hat, zu unterscheiden.
  • Hypothese Nummer drei: Die KI-SEO-Texterstellung hat mehr Risiken als Chancen.
  • Hypothese Nummer vier: KI wird die menschliche SEO-Texterstellung nicht ersetzen.

KI-Content-Studie – Short Facts

Für die Studie hat die eo KI Task Force die empirische Forschungsmethode angewendet, um qualitativ hochwertige Daten zu sammeln, tiefgründige Erkenntnisse zu liefern, ein umfassendes Verständnis für den Stand der KI-Texterstellung zu erreichen sowie Erfahrungen und Daten über die Einsatzmöglichkeiten bei der SEO-Texterstellung zu sammeln. Die aus der Beobachtung gewonnenen Beweise dienen dazu, Schlussfolgerungen zu ziehen und Handlungsempfehlungen für Website-Betreiber abzuleiten.

  • Vier Hypothesen getestet mit 134 Use-Cases aus der Digital-Content-Praxis
  • Testobjekte: ChatGPT 3.5 und 4.0 als die populärsten Chatbots sowie Bard mit ähnlichen Funktionen wie GPT und Chatbot von Google (Anm.: Da Gemini Pro zum Zeitpunkt der Veröffentlichung der eo-KI-Studie noch nicht in Deutschland verfügbar war, wurde es für Testings nicht verwendet.)
  • Use-Cases von Zuarbeiten wie der Themenrecherche bis hin zur gesamten Erstellung eines SEO-Textes inklusive Keyword-Verwendung
  • Use-Cases aus verschiedenen Branchen von soften Themen im B2C-Bereich wie Fashion, Lifestyle und Haustiere bis zu komplexen Themen im B2C- und B2B-Bereich wie Software und Technik, Telekommunikation, Finanzen sowie Baustoffe
  • Jeder Use-Case wird mehrfach getestet und ausgewertet.
  • Objektive Bewertungskriterien aus einem definierten SEO-Qualitätsstandard
  • Objektive Bewertbarkeit der Kriterien von jedem SEO-Experten
  • Bewertung der Kriterien auf einer Skala von null bis 100, die in Prozent das Erfüllungsmaß des jeweiligen Kriteriums angibt

Zwei wichtige Hinweise: Die KI-Texte wurden mit „menschlich“ erstellten Texten verglichen. Hierbei bedeutet „menschlich“ von einem ausgebildeten SEO-Texter geschrieben. Da es sich um eine empirische Studie handelt, der ein begrenztes Textkorpus zugrunde liegt, die jedoch das Ziel verfolgt, das SEO-Performance-Potenzial zu beurteilen, können andere Methoden sowie andere Testszenarien und Use-Cases zu abweichenden Ergebnissen führen.

Relevante Bewertungskriterien für die KI-SEO-Texte

Um Objektivität und Vergleichbarkeit zu gewährleisten, wurden die Bewertungskriterien des SEO-Content-Qualitätsstandards angewendet. Dieser definiert, was hochwertige (textliche) Digitalinhalte sind und was sie brauchen, um gut zu ranken bzw. positiv bei den Nutzern anzukommen. Er setzt sich zusammen aus

  1. sprachwissenschaftlichen Kriterien, Sprachqualität der Texte (Passiv-Vermeidung, Bevorzugung kurzer Satzlängen, Vermeidung von Nominalisierungen, Sprachvarianz, Allgemeinverständlichkeit),
  2. zielgruppenorientierten Kriterien, Ausrichtung der Texte auf die Nutzerbedürfnisse, also auf den Mehrwert (direkte Leseransprache, Korrektheit von Zahlen, Daten und Fakten, Grad der Kreativität, Zielgruppenfokus, Berücksichtigung der Wording-Guidelines der Unternehmensmarke, Mehrwert-Infos), und
  3. SEO-Kriterien, Suchmaschinenoptimierung und Ranking-Potenzial der Texte (Keyword-Fokus, Keyword-Verteilung, Keyword-Verwendung, SEO-Lesbarkeit).

Schreibt KI SEO-Texte besser als ein Mensch?

Für die Überprüfung von Hypothese Nummer eins hat die eo KI Task Force definiert, wann die KI schlechter schreibt als ein SEO-Texter. Das ist dann der Fall, wenn sie die Aufgabe nicht zufriedenstellend erfüllt. Ein zufriedenstellender KI-Text erfüllt 75 % aller definierten Bewertungskriterien.

Wie in Abbildung 1 zu sehen hat die eo-KI-Content-Studie Hypothese Nummer eins weder belegt noch widerlegt. In der sprachwissenschaftlichen Bewertung haben die Chatbots durchschnittlich über 75 % der Kriterien erfüllt und waren damit mindestens zufriedenstellend. In der SEO- und der Zielgruppen-Bewertung hingegen ist die Textarbeit der Chatbots durchschnittlich nicht zufriedenstellend.

Sprachlich sind KI-Texte auf einem guten Niveau. Was die Sprachqualität anbelangt, kann man sich also gut auf KI verlassen. Lediglich bei der Sprachvarianz haben die Chatbots Probleme, wie Abbildung 2 zeigt. ChatGPT vermeidet automatisch Passiv und Nominalisierungen, man muss diese Infos nicht explizit im Prompt angeben. Im Gegensatz zu Bard: Er neigt zu einem komplexeren Sprachstil.

Generell gibt es wenige Rechtschreib- und Grammatikfehler, zumindest nicht mehr als bei einem SEO-Texter auch vorkommen können. Fehler entstehen in der Regel bei der Keyword-Verwendung (EN-Keywords wie „Regualr Jeans“ oder Longtail-Keywords wie „Dirndl günstig“, die die KI grammatikalisch nicht anpasst). Ein finales Lektorat bezüglich Grammatik und Rechtschreibung empfiehlt sich jedoch immer. Dies ist aber auch bei einem ausgebildeten SEO-Texter angeraten, da man seine eigenen Fehler oft nicht selbst erkennt.

Fazit Hypothese Nummer eins: Chatbots sind gute Sparringspartner für die SEO-Texterstellung. Sie schreiben deutlich besser als erwartet. Die sprachliche Qualität ist so gut, dass KI einen großen Teil der Arbeit – das Ausformulieren des Textes – übernehmen kann. Chatbots schreiben nicht immer schlechter, aber auch nicht besser als SEO-Texter. Vorarbeit mit einem guten Briefing und Nacharbeit mit einer Prüfung sind angeraten.

Lassen sich KI-Texte eindeutig identifizieren?

Ein Blind-Testing mit drei Texten in je drei Varianten von einem SEO-Texter, von GPT 3.5 und 4, also insgesamt neun Textversionen, diente der Überprüfung von Hypothese Nummer zwei. Das Ergebnis: KI-Texte sind nicht eindeutig von menschlichen Texten (sprich: von SEO-Textern) zu unterscheiden. Einer der 40 Teilnehmer (bestehend aus eology-SEO-Experten, externen SEO-Experten sowie Freelancern) hat sich sogar KI-Detektoren bedient, die ebenfalls kein eindeutiges Ergebnis zeigten. Viele haben sich von Textmerkmalen in die Irre führen lassen, die man der KI zuschreibt:

  • Zu übertriebener Schreibstil: In diesem Fall war es den individuellen Projektanforderungen geschuldet, dass der Schreibstil des SEO-Texters recht übertrieben wirkt.
  • Falsche Fakten: Rumpfmuskulatur wurde in einer längeren Aufzählung dem Unterkörper zugeordnet. Im Sinne „errare humanum est“ ist dies fehlendem Fachwissen geschuldet und hätte einer Überprüfung bedurft.
  • Tippfehler wie fehlende Buchstaben oder Kommas: Sowohl KI als auch SEO-Texter machen Fehler und übersehen ihre eigenen Fehler. Ein Lektorat ist immer notwendig.

Die folgenden Merkmale sind hingegen tatsächlich Indizien für KI-Texte:

  • Starre Strukturen bei gleichartigen Textarten, zum Beispiel zu viele gleichförmige Listen oder strenge Einteilung in „Einleitung – Hauptteil – Schluss“ beziehungsweise „Einführung“ und „Fazit“
  • Untypische Beispiele, beispielsweise „Tasse mit Logo der Universität“; in Deutschland eher unüblich im Gegensatz zu den USA
  • Befremdliche Bilder und Vergleiche, zum Beispiel „Ein unvergessliches Erlebnis, das den Studienstart unvergesslich macht“, „heroischer Sturz“ beim Renntaxi
  • Unpassende Leseransprache, beispielsweise „Liebe Kundin, für alle jungen Damen mit eher geringem Einkommen“
  • Longtail-Keywords werden so eingebaut, wie sie angegeben sind, ohne grammatikalische Anpassung an das Satzgefüge.
  • Seltsame/lustige Formulierungen, zum Beispiel „Checke das Pflegeetikett. Die Anweisungen darauf sind deine besten Freunde“, „Bügelautomat und Bügelhilfe Hemden“, „Rocke die Slim Fit Jeans, denn Mode kennt kein Alter“

Fazit Hypothese Nummer zwei: Es ist deutlich schwerer, als man denkt, KI-Texte zu identifizieren. Das spricht für die sprachliche Qualität der Chatbots und bestätigt Hypothese Nummer eins, dass sie nicht (wesentlich) schlechter schreiben als SEO-Texter. Bei Website-Inhalten kommt es aber nicht nur auf die sprachliche Qualität an. Auch wenn es erst einmal beruhigend sein kann, dass KI-Texte nicht so leicht identifizierbar sind, in der SEO-Bewertung waren die KI-Texte durchschnittlich nicht zufriedenstellend. Entstehen dadurch Risiken für die Auffindbarkeit von Websites in der Google-Suche?

Sind KI-SEO-Texte „gefährlich“?

Laut Googles offiziellem Statement zu AI-Content ist der „Urheber“ eines Textes für die Suchmaschine irrelevant – sofern der Text den Richtlinien des Helpful Content Updates entspricht. Dieses Update, das Google noch vor dem eigentlichen AI-Hype im September 2022 gelauncht hat, richtet sich auf hochwertige, einzigartige Inhalte mit einem eindeutigen Fokus auf die Nutzerbedürfnisse. Wichtiger Bestandteil dabei: das bereits bekannte E-E-A-T-Modell (Expertise, Erfahrung, Autorität, Vertrauenswürdigkeit). Es ist also grundsätzlich erst einmal nicht „gefährlich“, KI-Texte für Websites zu verwenden, wenn die Qualität stimmt. Hypothese Nummer drei diente dazu, dies zu evaluieren. Hierfür lag der Fokus zum einen auf den Suchmaschinenoptimierungsfähigkeiten der Chatbots und zum anderen auf der Erfüllung der Google-Content-Richtlinien.

Wie Abbildung 4 zeigt, erfüllen KI-Texte die SEO-Bewertungskriterien nicht zufriedenstellend. Sie bleiben überall unter 75 %. SEO-Texter erzeugen ein höheres Ranking-Potenzial als Chatbots. Um das volle Potenzial zu erreichen, sollte man daher unbedingt KI-Texte noch einmal einer SEO-Prüfung unterziehen:

  • Stimmt der Keyword-Fokus? Ist das Hauptkeyword häufig genug vorhanden?
  • Passt die Keyword-Verteilung? Findet sich das Hauptkeyword in allen wichtigen SEO-Elementen (oberes Textdrittel, Hauptüberschrift)? Stehen wichtige Nebenkeywords in den Zwischenüberschriften?
  • Ist die Keyword-Verwendung natürlich und lesefreundlich? Wurden alle Keywords wenigstens einmal verwendet und alle W-Fragen beantwortet?
  • Ist der Text für Suchmaschinen gut lesbar und unterstützt er das Online-Leseverhalten? Ist er mit Zwischenüberschriften, Aufzählungen und weiteren Gliederungselementen gut strukturiert?

Ein SEO-Texter kann das alles durch seine Ausbildung und wendet es bei jedem Text an. Die KI muss man nachbessern lassen oder man muss selbst nacharbeiten.

Bei der Keyword-Verwendung schneiden die Chatbots am besten ab. Sie bauen häufig, aber nicht immer verlässlich alle vorgegebenen Keywords ein. Bard ist hier insgesamt unzuverlässiger als GPT. Beim Kriterium Keyword-Fokus, also der Fokussierung auf ein Hauptkeyword, für das ein Text primär in den Suchmaschinen gefunden werden soll, tun sich GPT und Bard schwerer. Das Gleiche gilt für die Keyword-Verteilung. Bei der Verwendung von Longtail-Keywords hat ChatGPT Probleme. Er baut sie ein, ohne sie grammatikalisch an den Satz anzupassen, oder er lässt Bestandteile weg (zum Beispiel: Er verwendet nur „Silber“ statt „Sterlingsilber“). Auch die SEO-Lesbarkeit macht Probleme: Verlangt man Aufzählungen, dann bestehen GPTs Texte oft nur aus diesen und Abschnittsüberschriften.

Noch „gefährlicher“ als nicht zufriedenstellende SEO bei Website-Inhalten ist jedoch, wenn diese nicht E-E-A-T-kompatibel sind. Denn dies kann dazu führen, dass Google Inhalte direkt abstraft. Abbildung 5 zeigt, dass KI-Texte die Anforderungen des Helpful Content Updates nicht zufriedenstellend erfüllen. An Mehrwert und Kreativität, die zu einzigartigen Texten beitragen, fehlt es oft. Gerade transaktionale Texte lesen sich zwar gut, sind aber in dieser Art zuhauf im Netz zu finden. Dies liegt bei ChatGPT an der begrenzten Basis aus den Trainingsdaten. Doch selbst wenn er die Bing-Schnittstelle einbezieht, werden die Texte nicht wesentlich besser. Persönliche Erfahrung, fundiertes, echtes Expertenwissen, emotionale Intelligenz kann KI nur halluzinieren. Transferleistungen, beispielsweise Quellen aus der Internetrecherche qualitativ zu bewerten, können Chatbots (noch) nicht leisten. Bei der Korrektheit von Zahlen, Daten, Fakten hat die KI zwar mit über 91 % am besten abgeschnitten. Allerdings sind hierfür die in der Studie verwendeten ausführlichen Briefings verantwortlich, die aus konkreten Textprojekten stammen und die Bots mit allen notwendigen Infos füttern. Darüber hinaus ist bei diesem Kriterium nur ein Erfüllungsgrad von 100 % befriedigend. Richtigkeit und Wahrheit der Website-Inhalte sind seit Jahren schon wichtige Ranking-Faktoren der Suchmaschinen. KI-Texte ohne Prüfung auf der eigenen Website online zu stellen, kann also durchaus gefährlich sein.

Fazit Hypothese Nummer drei: Die Chancen, qualitative Texte mit KI zu erhalten, und dadurch die Aufwände bei der Content-Creation zu reduzieren, stehen gut. Was die Risiken anbelangt, hängen diese davon ab, wie Website-Betreiber Chatbots nutzen. Ohne menschliche Kontrolle sollte kein SEO-KI-Text veröffentlicht werden. Dies kann Rankings und Image gefährden!

Ersetzt KI menschliche SEO-Texterstellung?

KI kann SEO-Texter dann ersetzen, wenn sie bei der Content-Creation an keine Grenzen stößt. Das tut sie jedoch Stand heute noch. Einige der Grenzen lassen sich durch gezieltes Prompting oder durch Nachbessern im Chatverlauf überwinden, bei anderen ist (noch) ein ausgebildeter Texter notwendig, um die Aufgabe zufriedenstellend zu lösen.

Überwindbare Grenzen der KI:

  • Texte über 500 Wörter: 500 Wörter scheinen das Limit für ChatGPT und Bard zu sein. Befehle wie „Weiter“ oder „Fahre fort“ können den Text verlängern. Längere Texte mit nur einem Befehl sind schwer zu bekommen. Wenn der Bot es doch schafft, dann wiederholt sich der Text häufig. Hier kann man mit einer Gliederung tricksen. Anstelle des Textes lässt man sich zunächst eine Gliederung zum Textauftrag erstellen. Die Gliederung lässt man dann Schritt für Schritt ausformulieren.
  • Fehlende Informationen: Bei fehlendem Input halluziniert GPT zuweilen, anstatt die Informationen einfach wegzulassen, wie es ein Mensch machen würde. Zum Beispiel: „In unserem Onlineshop finden sie lila karierte Schuhe“ oder „Kundenservice ist 24-7 erreichbar“. Hier kommt es auf Details im Prompt an oder man liefert ihm die fehlenden Informationen im Chatverlauf nach.
  • Nicht zufriedenstellende Texte: Wenn man KI (Kunden-)Briefings und Zielgruppe(n) vorgibt, schafft sie es nicht immer, den Text passend zu den Vorgaben zu erstellen. Hier helfen Trainingstexte. Man gibt dann als Modell menschlich erstellte Texte mit.

(Aktuell) unüberwindbare Grenzen der KI:

  • Fettungen: Statt aus Aspekten der Lesefreundlichkeit und des einfacheren Textscannens, wie es der SEO-Qualitätsstandard vorgibt, fettet ChatGPT nur Keywords. Bard fettet gerne einfach Wörter nur am Textende.
  • Natürliche Keyword-Verwendung: ChatGPT tut sich schwer, Keywords wirklich natürlich in den Text einzubetten, oft verwendet er sie eins zu eins ohne grammatikalische Anpassung. Wenn W-Fragen im Prompt stehen, passiert es, dass er nur diese beantwortet und darüber hinaus keinen weiteren Inhalt liefert.
  • Zielgruppenansprache: Den Bots fehlt oft das Fingerspitzengefühl, Zielgruppen anzusprechen. Es kommt zu klischeehaften oder plumpen Formulierungen, Infos aus dem Zielgruppenbriefing werden eins zu eins übernommen. Zum Beispiel: „Frauen ab 30 mit niedrigem Einkommen“, „Du gehörst zu den sportlichen Damen über 50?“. Manchmal geht der Bezug zur Zielgruppe im Laufe des Textes verloren.
  • SEO-Meta-Daten: Hier scheitert GPT an den von den Suchmaschinen vorgegebenen Pixellängen für Title-Tag und Meta-Description. Selbst wenn man die Pixel in Zeichenlängen angibt, scheitert er. Anscheinend ist er nicht kreativ genug, mit verschiedenen Wörtern und Kombinationen die mögliche Zeichenzahl auszureizen.

Kryptonit für die KI?

Wer SEO-Texte für softe Themen bis 500 Wörter von einer KI erstellen lässt, wird zufriedenstellende Ergebnisse erhalten. Nach einer Prüfung sind diese auf der Website problemlos zu verwenden. Wie schaut es mit komplexen Themen wie Telekommunikation, Software oder Industrie aus? Wenn es um Fachexpertise, Know-how und Erfahrung geht, scheitert die KI. Chatbots sind aktuell (noch) nicht fähig, fachlich fundierte, faktenlastige und informationstiefe Texte in einer annähernd ausreichenden Qualität zu erstellen. Hier muss man stets umfangreich selbst nachbessern, Informationen genau nachprüfen und persönliche Erfahrung hinzufügen. Bei informationsintensiven Produkten und Dienstleistungen halluziniert KI deutlich häufiger, erfindet Daten und Fakten. Auch scheint sie hier „unkreativer“ zu sein. Die Texte sind meistens viel kürzer als gewünscht und beschränken sich inhaltlich auf den Prompt-Input. Oder sie wiederholen sich.

Fazit

Die eo-KI-Content-Studie hat empirische Ergebnisse darüber geliefert, was aktuell mit ChatGPT und Google Bard möglich ist und wo deren Grenzen liegen.

KI eignet sich am besten für folgende Anwendungsfälle:

  • Top-of-the-Funnel-Texte
  • Texte mit niedriger inhaltlicher Tiefe (je niedriger die Inhaltstiefe, desto besser der KI-Text)
  • Je freier der Bot ist und je weniger es auf Zahlen, Daten, Fakten ankommt, desto besser ist das Ergebnis. Bei Texten mit vielen Vorgaben (umfangreiche Inhaltsbriefings, Wording-Guidelines, Zielgruppen) ist der manuelle Nachbesserungsaufwand deutlich höher.
  • Kurze Texte, zum Beispiel Artikelbeschreibungen. Hier sollte der Input ausreichend für zufriedenstellende Ergebnisse sein, Produktdaten sollte man immer prüfen.
  • Folgende Aufgaben bei der SEO-Texterstellung:
    • Textstrukturierung
    • FAQ-Erstellung
    • Überschriften für vorhandenen Text
    • Textzusammenfassungen
    • Brainstorming/Ideenfindung (KI kann ein Thema sehr gut aus verschiedenen Perspektiven beleuchten)

Ob Website-Betreiber KI-Texte verwenden sollten, hängt vor allem von der geforderten Qualitätsstufe ab. Es gibt Einsatzzwecke, für die sie sich sehr gut eignen und eine Prüfung von SEO sowie Briefinganforderungen ausreicht. Hierzu gehören Shoptexte mit eher geringer Komplexitäts- und Beratungstiefe. Bei ihnen ändern sich die Anforderungen selten, sie sind wiederkehrend. Bei ChatGPT können Website-Betreiber ein eigenes Profil für das Textprojekt anlegen, das für immer besser werdende Ergebnisse sorgt. Denn die KI lernt, was ihr Nutzer möchte.

Bei hohen Qualitätsanforderungen, wenn tiefgreifende Informierung und Beratung gefragt sind, ist hingegen mehr menschliche Arbeit notwendig. Persönliche Erfahrung, spezifisches Expertenwissen oder feinfühlige Emotionalisierung muss man selbst in den Text einbringen. Ob sich dann die Texterstellung mit KI noch lohnt, muss jeder selbst entscheiden. Das Sparring mit dem Chatbot führt zumindest zu Erfahrungswerten. Und die sind hilfreich, wenn KI noch besser im Texten wird.

PS: Dieser Text ist zu 100 % menschlichen Ursprungs.