KI-Content auf Knopfdruck

kann das gut gehen?  

Mario Fischer
Mario Fischer

Mario Fischer ist Herausgeber und Chefredakteur der Website Boosting und seit der ersten Stunde des Webs von Optimierungsmöglichkeiten fasziniert. Er berät namhafte Unternehmen aller Größen und Branchen und lehrt im neu gegründeten Studiengang E-Commerce an der Hochschule für angewandte Wissenschaften in Würzburg.

Mehr von diesem AutorArtikel als PDF laden

Derzeit vergeht kaum ein Tag, an dem aufmerksame Marketers nicht mit Berichten oder Werbung über die neuen Tools konfrontiert werden, die mittels künstlicher Intelligenz (KI oder engl. AI) Content quasi auf Knopfdruck generieren. Okay, man muss ggf. noch ein wenig nachjustieren, aber in Summe klappt das ganz gut, so ein oft zu lesendes Credo. Bei Unternehmen, die wegen ihrer Branche sehr viel Content erzeugen müssen und dafür heute oft Textagenturen beauftragen, bricht verhalten vorsichtiger Jubel aus. Kann das wirklich sein? Was taugen solche automatisch generierten Texte wirklich? Wie viel lässt sich damit schneller publizieren  und was kann man damit sparen? Und: Ist das eine stabile Lösung?

Vor allem der letzten Frage wollen wir in dieser Ausgabe nachgehen. Inwieweit erscheint aus heutiger Perspektive der Einsatz von KI-generierten Texten als ein tragfähiges Modell für die nächsten Jahre? Wir haben einige wichtige Fragen für Sie zusammengetragen und möchten gemeinsam mit Ihnen über die Antworten nachdenken. Ihre Schlussfolgerungen sollten und müssen Sie natürlich selbst ziehen. Vielleicht fallen diese aber nach dem Lesen dieses Beitrags etwas differenzierter aus … Schöne neue, bequeme, günstige, zeitsparende KI-Welt?

Ein Traum! Endlich gibt man nur noch ein paar Stichworte in ein Texteingabefeld, und schon bekommt man einen fertigen Text für die Website geliefert. Wenn man der Werbung glauben mag. Glaubt man den ersten Testern, müsse man hier und da ein wenig nachjustieren, aber die Texte wären schon erstaunlich gut. Ach ja, und die passenden Bilder dafür liefern KI-Tools dann auch gleich mit. „Ein Manager, der mit einem Aktenkoffer auf einem Porsche 911 steht“ liefert gleich mehrere künstlich generierte Bilder mit ebendiesem Inhalt (Abbildung 1). Nicht auszudenken, was es kosten würde, ein derartiges Bild als Serie mithilfe eines professionellen Fotografen schießen zu lassen. Und die Reparaturkosten des eingedellten Porsches würden die des Fotografen sicherlich noch toppen. Beim dritten Bild der Serie in Abbildung 1 zeigt sich, dass für die KI ein „Manager“ offenbar eben auch weiblich sein kann – erster Test bestanden. Ob eine typische Managerin in einem derartigen Outfit, mit diesem „Aktenkoffer“ und vor allem dem doch eher männlichen Gesicht (genauer zu erkennen in Abbildung 2) für eine Publikation auf einer Website taugen würde, sei dahingestellt. Das Ergebnis eines Variationsversuchs (Abbildung 2) ersparen wir Ihnen aus gutem Grund.

Wie macht eine KI das überhaupt?

Für alle, die bei dem Thema der maschinellen Erzeugung von Content noch Einsteiger sind, folgt eine wirklich kurze und stark vereinfachte Erklärung. Zunächst muss man einer Maschine sagen, was man haben möchte. Das geschieht in der Regel mit einer textlichen Formulierung, mit dem Hochladen eines Bildes oder Videos, versehen mit Zusatzinformationen, was damit zu tun wäre oder auch in gesprochener Form. Dieser Input wird an ein Modul weitergegeben, das versucht, die Absicht aus den hinterlassenen Wörtern zu erkennen bzw. zu interpretieren. Diese Systeme sind mittlerweile schon sehr weit fortgeschritten und kommen mit den meisten einfachen Anfragen gut zu recht.

Zur Generierung von Text, Bild, Video oder Ton muss eine Maschine bisher immer trainiert werden. Man braucht also einen möglichst großen Korpus an Dokumenten. Dies können Webseiten sein, aber auch Bücher oder andere informationstragende Medien. Ein Beispiel: Würde eine KI live alle Fernsehsender gleichzeitig empfangen und sowohl das jeweilige Bild (Videos bestehen ja aus einzelnen Bildern) mit dem gleichzeitig oder zuvor/danach gehörten und dekodierten Ton in Zusammenhang bringen, würde sie rein statistisch bemerken: Immer, wenn eine bestimmte Figur zu sehen ist, kommt häufig das Wort „Pferd“ vor. Zusätzlich wird auf der Tonspur oft „braun“, „weiß“, „schwarz“, „Schimmel“, „Rappe“ oder „Brauner“ verwendet. Über eine Farbmessung auf dem Objekt (Pferd) lässt sich das gut verifizieren oder eben falsifizieren. Fällt dann häufig bei einem weißen Pferd auch das Wort „Schimmel“, wäre die nächste Beziehung fixierbar.

Gibt es wichtige Beziehungen zwischen Wörtern oder Themen nur selten in den Datenpools, deren sich die KIs bedienen, werden sie auch weniger repräsentiert und nicht oder nur wenig beim dann automatisierten Output verwendet.

Gehen wir noch einmal einen Schritt zurück. Wie wird heute Content erzeugt, wenn der Websitebetreiber oder die Verantwortlichen keine Zeit, keine Kapazität, keine Muße oder vielleicht auch keine Lust haben, selbst etwas auf das Webpapier zu bringen? Man beauftragt in der Regel eine Textagentur. Dort wirft man ein Thema ein und spezifiziert dazu (hoffentlich) einige Nebenbedingungen. Und dem Vernehmen nach passiert es gar nicht mal so selten, dass sich diese Zusatzinformationen darauf beschränken, für einzelne Keywords die sogenannten WDF-IDF-Werte vorzugeben, die ein Tool bei einer Recherche ausgeworfen hat. Wir beauftragen also z. B. einen Text mit einer bestimmten Anzahl an Worten, der später für das Keyword „digitales Mischpult“ ranken soll. Leider ist bei der Textagentur zufällig kein Toningenieur beschäftigt, es ist also niemand da, der wirklich Know-how in diesem Bereich hätte. Was passiert? Der für die Texterstellung zuständige Mensch googelt. Was soll er auch sonst tun? Wo soll er sich mit tragbarem Aufwand schlau machen? Was hier oft passiert, ist also, dass zwei bis fünf oder sechs Texte gelesen werden und daraus das Wissen extrahiert wird, was ein digitales Mischpult ist und was es kann. Das Wissen wird mit mehr oder weniger anderen Worten und in anderer Reihenfolge dann erneut aufgeschrieben. „Erneut“ deswegen, weil es all diese Informationen ja schon im Web gibt, meist sogar unter den am besten rankenden Dokumenten und die Infoschnipsel neu angeordnet werden. Mit anderen Worten: Es kommt meist rein gar nichts Neues hinzu. Kein neuer Gedanke, kein echter Mehrwert, kein neuer Blickwinkel. Der Kunde zahlt dann, wenn die Plagiatsprüfung negativ ist, d. h., ein entsprechendes Tool sagt: Dieser Text wurde nicht exakt abgeschrieben. Wie in der Schule früher, wenn man versucht hat, „intelligent“ vom Nachbarn abzuschreiben, sodass es der Lehrer nicht merkt.    

In vielen Fällen bemerkt Google bereits heute, dass Menschen sich für einen Text aus bereits vorhandenen Texten bedient haben. Ein gutes Ranking unterbleibt dann regelmäßig, und das zu Recht. Niemand will in den zehn Suchergebnissen essenziell die gleichen Informationen haben. Im Gegenteil: Variationen, andere Blickwinkel, neue Vor- oder Nachteile, erklärende Illustrationen usw. sind sehr viel nützlicher.

Sind Text-KIs die neuen Textagenturen?

Vom Grundprinzip her macht eine KI genau das Gleiche wie eine Textagentur. Hat diese keine eigenen Experten für jede Branche und jede Frage, greifen sie bzw. die angestellten oder freien Mitarbeiter auf Textbestände zurück, die Menschen bereits erzeugt haben – auf Websites, in Büchern, Studien etc. Die KI arrangiert den aus diesem Pool bestehenden Text neu, mit völlig anderen Worten, aber im Kern wird zumindest bisher nicht wirklich neues Wissen bzw. neue Informationen erzeugt.

Das geht auch gar nicht, dazu sind die Maschinen auf absehbare Zeit noch nicht in der Lage. Ein Profiangler kann aus der Erfahrung heraus Tipps geben, die sich eine Maschine nicht einfach so ausdenken kann. Versucht sie es, kommt zumindest bisher in der Regel nur Unsinn, der aus der willkürlichen Zusammenstellung von Details besteht, heraus. 

Schreibt der Profiangler neue Tipps in seinen Blog, kann eine Suchmaschine erkennen, dass es hier neue Aspekte gibt. Der Blog hätte ein gutes Ranking verdient, oder? Er spendet Mehrwert für Suchende. Wenn nun genügend andere diese neuen Informationen aufgreifen (statistische Relevanz), kann es durchaus ein, dass sich dann auch eine KI diese Textabschnitte mit einverleibt und diese künftig mit ausgeben kann. Aber: Es gibt diese Infos schon, der Blog hat sein verdientes Ranking, und wenn man ehrlich wäre, braucht niemand weder eine und schon gar nicht mehrere Seite(n), auf denen dies nochmals und nochmals und nochmals aufgekocht wird.

„Wer soll die Ranking-Belohnung bekommen – jemand, der Mehrwert beiträgt, oder jemand, der auf einen Knopf drückt?“

Aus der Perspektive der Suchenden reicht eine bestimmte Information einmal. Alles Weitere möge bitte einen spürbaren Mehrwert zu dem eben schon Gelesenen bringen. Und genau dies ist Googles Mission: Einzigartigkeit genau aus diesem Grund zu befördern und inhaltliche Doppelungen mit einer Art Langweiligkeits-Flag zu unterdrücken. Nur bei vielen Website-Betreibern scheint sich das einfach nicht herumsprechen zu wollen. Man glaubt immer noch, wenn man nur kreativ genug vom Banknachbarn abschreibt, bekommt man wie damals in der Schule eben auch gute Noten. Nur Google hat vergleichsweise Millionen von aufmerksamen Augen, der Lehrer damals nur zwei.

Wer bisher eine Agentur damit beauftragt hat, einen Beitrag über das Angeln von Hechten zu schreiben, bekommt künftig diesen Text von einer Maschine. Abstrahiert man, wie ein Mensch ohne oder mit wenig Angelerfahrung einen solchen Text im Auftrag erzeugt, erkennt man, dass die Maschine im Prinzip eigentlich genauso vorgeht. Was ist im Web oder Büchern schon da? Das sammle ich, schreibe es um und arrangiere es neu. Damit an dieser Stelle kein falscher Eindruck entsteht. Natürlich haben Textagenturen ganz andere Möglichkeiten, können ggf. auch auf Fachexperten zurückgreifen, wenn es nötig und der Auftraggeber das zu zahlen bereit ist. Sitzen echte Fachexperten in einer Agentur, können diese ggf. auch kreativ Neues erzeugen. Hier soll es nur um den Prinzipvergleich gehen und nicht darum, dass man künftig jede Agentur einfach so durch eine Maschine ersetzen könnte.

Was sagt Google zu automatisch generierten Texten?

Für diese Frage möchte ich als Autor ausnahmsweise einmal eine persönliche Erfahrung mit einbringen, weil sie exakt zu diesem Thema passt. Vor vielen Jahren saß ich in Berlin bei einer SEO-Konferenz neben einer promovierten Googlerin. Auf der Bühne zeigte ein in der Szene recht bekannter SEO live, wie er aus 1,5 Seiten eines Textes in Word mit seinem Spinning-Tool innerhalb kürzester Zeit etwa elf Millionen Varianten erzeugen konnte. Diese würden sich zu mindestens einem Drittel im Umfang vom Ursprungsdokument unterscheiden und waren somit nach der damalig vorherrschenden (Erkennungs-)Technologie keine Dubletten. Er öffnete einige der so generierten Texte und las jeweils einen Abschnitt vor. Mit der menschlichen Intelligenz war sofort zu erkennen, dass hier immer und immer wieder das Gleiche gesagt wurde – nur eben mit anderen Worten. Das Prinzip dahinter ist bzw. war einfach. Man hinterlegt in Tabellen für Substantive, Verben und Adjektive Synonyme oder ähnliche Begriffe. Ein Textspinner tauscht diese automatisch aus und erzeugt so eben Millionen von Varianten.    

Den Anwendungsfall lieferte er dann auch gleich mit: Aus einer Pressemeldung kann man damit sehr viele machen, und alle enthalten einen Link auf die eigene Domain. Da diese Texte von Google damals nicht als Dubletten erkannt werden konnten, zählte jeder Backlink einzeln bzw. neu, was bei klassischen Eins-zu-eins-Kopien schon damals nicht funktioniert hätte. Ideal also für Linkaufbau über PR-Agenturen. Präventiv sei erwähnt, dass dies so heute keinesfalls mehr funktioniert. Ich lehnte mich nach rechts zu meiner Sitznachbarin und meinte „Ist das eigentlich übel, wenn man sich so was anhören muss, wie versucht wird, Google zu gamen und derart mit Müll zu fluten?“ Die Ruhe in der Antwort hat mich ganz besonders erstaunt und so beeindruckt, dass ich sie mir wortwörtlich gemerkt habe: „Ach Mario, wenn das für uns tatsächlich ein Problem wird, dann schauen sich die Engineers das genauer an und entwickeln etwas dagegen. Alles, was von einer Maschine erzeugt wird, kann als solches auch wieder von einer Maschine erkannt werden. Vielleicht nicht sofort, aber auf Dauer gesehen immer.“

Das ist wie erwähnt nun schon etwas länger her, und seither ist Google extrem gut darin geworden, prinzipiell gleiche Informationen zu erkennen, auch wenn sie mit unterschiedlichen Worten daherkommen.

„AI generated content is against our guidelines“, John Müller, Google.

Versteht man Google als auf der Seite der Suchenden stehend, ist es kein Wunder, dass man Texten ohne echten Mehrwert gegenüber dem, was schon vorhanden ist, eher kritisch gegenübersteht. So hat John Müller erst kürzlich in einer der bekannten Sprechstunden auf die Frage nach Texten, die mit einer KI erzeugt wurden, geantwortet, dass dies in den Augen von Google Spam ist und als solcher behandelt wird.

[…] Wenn Sie Tools für maschinelles Lernen verwenden, um Ihre Inhalte zu generieren, ist es im Wesentlichen dasselbe, als würden Sie nur Wörter mischen, Synonyme nachschlagen oder die Übersetzungstricks anwenden, die die Leute früher gemacht haben […] es handelt sich immer noch um automatisch generierte Inhalte, und das bedeutet für uns, dass es immer noch gegen die Richtlinien für Webmaster verstößt. Wir würden das also als Spam betrachten.“ – John Müller von Google auf YouTube; Quelle: einfach.st/aispam. Min. 22:20, ins Deutsche übersetzt)

Das bedeutet wohl, dass eine Domain, die sehr viel automatisiert erzeugten Content beinhaltet, Gefahr läuft, abgestraft zu werden. Entweder die betroffenen Seiten oder wenn es dumm läuft, die gesamte Domain. Das ist eine heftige Menge Salz, die hier in die Erwartungswunde der sparwilligen Content-Erzeuger gestreut wird.

Um es noch einmal klar herauszustellen: Google sagt, wer maschinell erzeugte Texte verwendet, verstößt gegen die Richtlinien und kann mit einer (Ranking-)Strafe belegt werden. Ob das jetzt schon so ist oder später so sein wird und wann, vermag man von außerhalb natürlich nicht zu sagen. Wahrscheinlich werden sich einige Experten zu Aussagen hinreißen lassen, dass Google solche Texte nie erkennen kann und man nur deshalb laut tönt, damit die Verwendung präventiv unterlassen wird. Ähnliches konnte man bisher immer beobachten, insbesondere z. B. bei der Einführung des Disavow Tools, beim Panda- und vor allem beim Pinguin-Update. Auch hier wurde nach Ankündigungen oder Warnungen von Google im Vorfeld auf Konferenzen herbeivermutet, dass Google nicht in der Lage wäre, das zu checken und man nur deswegen den Webmastern Angst machen will. In keinem dieser Fälle hatte die Fraktion der Beschwichtiger bisher recht behalten. Die Leidtragenden sind bzw. waren jedoch immer diverse Website-Betreiber, die sich nach solchen „Entwarnungen“ zurückgelehnt haben und sich überzeugen ließen, einfach so weiterzumachen wie bisher. Es wird schon nichts passieren. Ist es aber doch.

Droht jetzt eine ähnliche Situation? Tausende von Content-Verantwortlichen springen auf den Zug der KI-generierten Texte auf und ranken damit sogar eine Weile? Und dann kommt wie in der Vergangenheit so oft beobachtete, zeitlich nachlaufende, aber umso härtere rechte Haken von Google in Form eines „KI-Updates“? Der komplette Traffic-Einbruch über die organische Google-Suche kann für ein Unternehmen durchaus lebensbedrohlich sein. Auch das hat die Vergangenheit – leider teils sehr eindringlich – gezeigt.     

Bilder durch KI-Tools erzeugen

Den größten Boom erleben wohl derzeit die KI-Tools, mit denen man nach der Eingabe eines Textes ein Bild generieren kann, das diesen Text im Kern optisch wiedergeben kann. In vielen Fällen kommen damit schon ganz passable Bilder heraus. Für die kommerzielle Verwendung muss allerdings meist noch nachgebessert werden. Gleichwohl scheint die Möglichkeit, durch Eingabe von „zeige einen Fisch, der einen Koffer auf dem Kopf hat und gelben Pudding isst“ ein derartiges Bild zu erzeugen, eine spürbare Faszination zu vermitteln. Zumindest wird mit solchen Bildern oft die Leistungsfähigkeit in Beiträgen veranschaulicht.   

Dabei gilt bisher, je spezieller der Text am Promt (dem Eingabefeld für den Text, der umgewandelt werden soll), desto weniger sind die Bilder tatsächlich nutzbar.

Auf welchen Auftrag hin hat die Bilder-KI Openai.com wohl die in Abbildung 4 gezeigte visuelle Antwort erzeugt? Die Beschreibung lautete (in Englisch) „Artificial intelligence generates images and text for websites“. Das war einer von vielen Versuchen, für die aktuelle Ausgabe vielleicht erstmals mit einem von einer Maschine erzeugten Cover zu glänzen. Gelungen ist das leider nicht.  

Tipp

Wer selbst einmal die aktuelle Leistungsfähigkeit der KI-gestützten Bilderzeugung ausprobieren möchte, kann dies z. B. bei craiyon.com, www.midjourney.com, stability.ai/blog/stable-diffusion-public-release, huggingface.co/spaces/stabilityai/stable-diffusion oder openai.com/dall-e-2 kostenlos ausprobieren. Die Tools funktionieren immer nach dem gleichen Grundprinzip. Man gibt Text in ein Eingabefeld ein und nach einigen Sekunden oder Minuten erscheinen mehrere, meist abstrakte Bilder.

Rechtliche Überlegungen

Woher bekommt eine KI ihre Daten? Aus Büchern, aus Bildersammlungen, aus Texten und überall her, wo die Objekte zum „Lernen“ in genügender Anzahl vorhanden und einsammelbar sind. Wer hat all dieses digitalen Assets (bisher) geschaffen? Menschen, sprich „Urheber“. Ziehen wir das einmal auf das kurze Gras, erkennt man schnell, wie KIs zu Output kommen. Indem die Ersteller solcher Systeme urheberrechtlich geschützte Daten sammeln und einspeisen. Zwar werden diese dann oft umgebaut, reorganisiert, neu sortiert etc., aber man wird den Gedanken nicht los, dass all das organisierten geistigen Diebstahl als Betriebsgrundlage haben könnte.

„Wie werden KIs schlau? Indem sie geistiges Eigentum anderer als Basis verwenden.“

Ein einfaches Prinzipbeispiel soll das verdeutlichen: Einige geniale Suchmaschinenoptimierer finden ein neues Rankingsignal von Google heraus und beschreiben dies in ihren Webblogs. Bei allen Besuchern dieses Beitrags steigt die Reputation der Verfasser. Vielleicht buchen einige diese als Dienstleister oder Berater. Zitiert jemand diese neue Erkenntnis, bleiben die Credits noch immer bei den Verfassern. So der Idealfall, und nur den wollen wir hier betrachten. Kommen jetzt die Erntemaschinen der KIs, verleiben die sich diese Informationen in ihren Datenpool, aus dem sie später ihre Texte generieren, ein. Lässt sich nun Udo Unwissend per KI einen Text generieren, wie man gutes SEO macht und was besonders zu berücksichtigen wäre, könnten die oben genannten Tipps und Hinweise durchaus darin enthalten sein – in umgetexteter Form, aber essenziell können diese Textbestandteile nur durch geistigen Diebstahl auf Udos Website auftauchen. Bezahlt wird der Betreiber der KI; der Erzeuger der Information, die diesen Wert schafft, bleibt im Dunkeln und unberücksichtigt.

Bei den ganzen Bild-KIs kann man das heute schon gut beobachten. Diese werden mit Millionen oder Milliarden Bildern „gefüttert“, die in der Hauptsache sehr wahrscheinlich mit Urheberrechten belegt sind. Bisher ist das durch den Begeisterungstaumel der ersten Nutzer noch untergegangen.

Letztlich wird juristisch die Frage zu beurteilen sein, ob das Verwenden von urheberrechtlich geschütztem Material zum Training einer Maschine zulässig ist. Ist es das nicht, müssen die Betreiber von KIs dafür geradestehen. Das kann den Website-Betreibern aber relativ egal sein. Was aber, wenn die KI ein Bild/einen Text erzeugt, das den ursprünglichen Bildern oder Texten sehr nahe kommt oder wo in Details ungewollt die Herkunft nachweisbar ist? Setze ich Derartiges auf meine Website, hafte ich dafür. Vielleicht nicht heute, sondern später, wenn die Erkennungstechnologien aufgeholt haben. Ob hier der Grundsatz „in gutem Glauben verwendet“ greifen wird, ist unsicher. Solange nicht geklärt ist, wer bei derartigen Problemen haftet, könnte eine großflächige Verwendung von KI-Inhalten durchaus ein schwebendes Risiko darstellen. Und wenn uns die Juristen eines für das Web gelehrt haben – sie brauchen lange, um zurückzuschlagen, sitzen aber meist am längeren Hebel.  

„Maschinell erzeugter Content kann doch frei verwendet werden? Oder?“

Vielleicht kommt aber alles am Ende doch anders, und die Gerichte entscheiden, dass die Entwickler der KI-Systeme durch den von ihnen erdachten Code die Urheberrechte an den durch den Code erzeugten Dingen haben? Oder auch die KI selbst, wenn ihr eine eigene Rechtspersönlichkeit ähnlich einer GmbH als Status zuerkannt werden sollte? In beiden Fällen wäre man ebenfalls nicht vor Abmahnungen gefeit. Wer kann schon in drei Jahren nachweisen, dass auf der Website des Tools im Betastadium stand, dass man das frei verwenden dürfe? Oder stand das dort etwa gar nicht? Oh! 

Datenschutz und andere Gefahren

Prinzipiell ist auch nicht auszuschließen, dass sich in dem Pool an Texten, aus denen eine KI einen neuen Text generiert, auch persönliche Daten befinden können. Und auch wenn die Entwickler Filter und Sicherungen einbauen, können sich Hacker bei Erfolg aus den Datensammlungen bedienen. Erst kürzlich wurde im MIT Technology Review (8/22) darüber berichtet, was GPT-3 und BlenderBot über Menschen alles weiß. Die finnische Journalistin Melissa Heikkilä fand in Texten, die sie mit GPT-3 und der Startfrage „Wer ist Melissa Heikkilä“ erzeugt hatte, persönliche Daten von ihr vor. Und da am Ende wohl in Summe nicht genügend Daten vorhanden waren, hat GPT-3 angefangen, über sie zu fantasieren und dichtete ihr u. a. falsche Berufe an oder bezeichnete sie schmeichelhaft als gekrönte Schönheitskönigin. Das mag man auf den ersten Blick als Ausnahme abtun, aber es zeigt, wie gefährlich es sein kann, wenn man selbst nur unzureichende Informationen über das hat, was die Maschine liefert. Dann kann man derartige „Fake News“ nicht korrigieren, da man sie nicht als solche erkennt. Was passieren kann? Der Content auf Webseiten fängt an, zu „trumpisieren“. Falsche Dinge werden publiziert und verbreitet. Im schlimmsten Fall nimmt dieselbe oder eine andere KI dann solche Fehler in die Textdatenbanken auf, und der Fehler verstärkt sich.

„Spinat enthält besonders viel Eisen!“

Sie glauben, dass in Spinat besonders viel Eisen wäre? Dass Zecken sich von den Bäumen auf Menschen fallen lassen? Oder dass Nero Rom angezündet hätte? Wenn ja, dürfen Sie sich in guter Gesellschaft wähnen, denn diese mittlerweile erkannten Fehler findet man teils nach über 100 Jahren noch überall zu lesen und zu lernen (!). Haben sich solche Info-Bugs einmal verbreitet, kann man sie nur schwer wieder korrigieren. Ganze Generationen von Kindern wurden und werden mit dem oft ungeliebten Spinat traktiert, und das nur, weil bei einer Analyse der Inhaltsstoffe ein Komma versehentlich nach rechts verrutscht ist.  

Das hat mit einem Urprinzip des Menschen zu tun: Man muss das Rad nicht mehrmals erfinden. Also liest man sich ein, wenn man etwas nicht weiß. Niemand prüft selbst den Eisengehalt von Spinat – man glaubt, was man liest. Bisher war das durch die vielen (menschlichen) Filter bei Print generell nicht so dramatisch. Heute publiziert jeder, und jeder kann es finden und lesen. Die krassen Falschinformationen aus dem Gesundheitsbereich, denen Jugendliche derzeit oft in TikTok aufsitzen, lassen erahnen, welche Gefahr hier lauern kann. Als geistig gesetzter Mensch würde man solchen tanzenden und hüpfenden Kids wahrscheinlich nicht glauben, wenn sie in einem solchen Video voll krass empfehlen, Hustenmittel zusammen mit Opas Herztabletten in taurinschwangere Energydrinks zu mixen, wenn man heute noch hart steilgehen will. Wenn solche Infos, bei denen Mediziner sich fassungslos zeigen, im zweistelligen Millionenbereich gelikt und geteilt werden, könnte eine lauschende KI durchaus sogar auf den Gedanken kommen, dass sich so viele Fliegen nicht irren können, und die braune Substanz zum Verzehr als Empfehlung in den eigenen Wissensspeicher schreiben. Ein übertriebenes Beispiel, ja. Aber es zeigt, wie schnell sich falsche oder gar gefährliche Informationen, Tipps und Hinweise dann auch über ein nahezu automatisiertes Content-Web verteilen könnten.

Fragen an die KI

Frage: Who is Prof. Dr. Mario Fischer?
Antwort der KI: Mario Fischer is a professor at the University of Bern in Switzerland. He specializes in the history of the Middle East and North Africa. Quelle: beta.openai.com
Realität: Mauro Fischer arbeitet laut Research Gate an der Uni Bern am Institut für Geographie

Fragen an die KI

Frage: Who is Website Boosting?
Antwort der KI: Website Boosting is a company that offers website design, development, and marketing services. Quelle: beta.openai.com

Das Problem bei Maschinen ist, dass sie in der Regel der Masse folgen. Sagen zehn Millionen Menschen, dass Spinat viel Eisen enthält, und nur wenige, dass darin genauso viel Eisen wie in anderen Salatsorten vorhanden ist und sogar in Schokolade, schlägt das Statistikpendel in die falsche Richtung aus. Machine Learning basiert letztlich auf reiner Statistik. Sie liefern statistisch gesichertes Wissen, jedenfalls bisher. Das ist auch der Grund, warum Google Milliarden investiert, um Expertenaussagen vom gut gemeinten Wissensrauschen zu trennen, das Stichwort wäre hier E-A-T.      

Nebenbeobachtungen: Vorurteile? – Na klar!

Zugegeben, maschinelle Systeme haben in der Vergangenheit viel Prügel einstecken müssen, was Vorurteile angeht. Da hat ein armer Algorithmus in den Daten von zehn Jahren Einstellungspolitik eines Unternehmens herausgefunden, dass eher weiße Männer in einem bestimmten Alter eingestellt werden und dies im operativen Betrieb für Entscheidungen/Empfehlungen so fortgeschrieben. Dass KIs rassistisch, sexistisch oder nach anderen Kriterien verzerrt Entscheidungen fällen, liegt immer an den Daten, mit denen sie trainiert werden. Eine Maschine hat keine irgendwie geartete Bevorzugung oder Benachteiligung – sie ist objektiv. Oft wird den Programmierern angelastet, (unbewusst) bereits im Code Vorurteile einzubauen, was natürlich durchaus der Fall sein kann. Maschine Learning basiert aber systemisch weniger auf dem Code, sondern kommt durch die eingefütterten Daten zu Entschlüssen.

Und, auch darüber muss man nachdenken, man darf nicht zwangsläufig den Fehler machen, zu glauben, dass sich das Unternehmen halt bisher in den Entscheidungen von Vorurteilen hinreißen lassen hat und die halt nun mal in den Daten stecken. Das kann sein. Aber vielleicht haben solche Verzerrungen ganz einfache Ursachen. Bei einem Unternehmen in der Oberpfalz würde vielleicht bei einer Datenanalyse herauskommen, dass man Menschen bevorzugt, die den gleichen Dialekt sprechen. Grund hierfür könnte aber einfach nur ein lokaler Radius sein. Hier fällt eine Verzerrung zwar auf, aber die Ursache liegt auf der Hand. Vielleicht hat eine schlaue KI aber herausgemessen, dass Oberpfälzer generell vom Typus her kooperativer sind und damit der Leistung des Unternehmens guttun? Oder sie sind so kommunikativ, dass sie größere fachliche Netzwerke haben und somit Probleme schneller lösen können? Vielleicht sind sie aber auch besonders loyal dem Unternehmen gegenüber? Diese fiktiven (!) Überlegungen zeigen schnell den Kern unseres Problems: Wir neigen dazu, einfache, leicht einzusehende Zusammenhänge zu glauben. Komplexe(re) Wechselwirkungen durchschauen wir nicht, wahre Ursachen oder Abhängigkeiten ebenso nicht und lehnen sie oft ab. Solange Menschen Vorurteile haben und Maschinen diese Daten zur Entscheidungsfindung verwenden, werden auch maschinelle Urteile mit diesen Vorurteilen belastet sein. Einige kann man erkennen, andere, nicht so offensichtliche eben nur schwer oder gar nicht.  

Damit wir uns hier wirklich richtig verstehen: Jede (!) Art von Benachteiligung oder Bevorzugung nach Vorurteilen ist strikt abzulehnen und darf keinesfalls toleriert werden. Die Erklärung, warum KIs hier danebenliegen können, darf nicht als Entschuldigung verstanden werden. Sie zeigt, wie verzerrt Daten und darauf basierende Entscheidungen sein können und dass dies erst durch den Einsatz solcher Systeme transparent wird. Hier besteht tatsächlich dringender Handlungsbedarf.

„Frauen können faul sein und Webseiten kreieren – aber nicht beides zusammen.“

Manchmal wird durch die Angst, von klickheischenden Medien in eine Ecke gestellt zu werden, das Kind mit dem Bade ausgeschüttet. Bilder-KIs filtern daher offenbar aktuell lieber dreimal zu viel, bevor es einmal zu wenig passiert. Wie Abbildung 5 beispielhaft zeigt, machen einige dieser Automaten (hier Openai.com) deutliche Unterschiede zwischen den Geschlechtern. Der Beschreibungssatz „lazy men create a website“ zeigt zwei Männer auf einem Bett mit aufgeklapptem Notebook. So stellt sich die KI also Programmierer vor. Große Brille und barfuß – und wohl auch mit unterschiedlich großen Füßen. Der Punkt ist aber, wenn man nun das englische Wort „man“ in „women“ tauscht, verstößt diese Generierungsabfrage plötzlich gegen die Richtlinien des Anbieters. Kurios: Ohne das Wort „lazy“, also faul, funktioniert es wieder. Auch faule Frauen (lazy women) lassen sich bildlich generieren. Nur eben nicht, wenn sie eine Website entwerfen sollen. Höchstwahrscheinlich blockieren sich einige Filter gegen Missbrauch irrlichternd knirschend und müssen noch optimiert werden. Die optische Antwort, wer oder wer nicht faul kreativ sein kann, muss wohl überarbeitet werden. 

Gesellschaftliche Auswirkungen

Was wird mit den Fotografen, Seiten- und Werbetextern, Layoutern, Photoshop-Zauberern und Agenturen, wenn KI-Content on demand automatisiert produziert? Wie werden sich die Auftraggeber entscheiden? Relativ sicher dürfte wohl sein, dass die oben nur exemplarisch genannten Berufsgruppen deswegen zumindest auf absehbare Zeit nicht völlig obsolet werden. Wenn die Nachfrage nach Automatisierung allerdings stark ansteigen sollte, je nach aktueller Leistungsfähigkeit der Tools, wird am Ende vielleicht weniger Arbeit zu verteilen sein. So könnte es schnell passieren, dass in den noch vor wenigen Jahren als hoffnungsvoll boomend bezeichneten Branchen ganz schnell Ernüchterung und Umschulungsbedarf entstehen kann.

„Gestern umgeschult, morgen arbeitslos?“

Die Gefahr der künftig in anderen Bereichen durch Automatisierung und Roboter wegfallenden Arbeitsplätze wird bereits konkret gesehen. Viele versuchen, aus Überzeugung zu beruhigen. Schließlich hätten die Schreibmaschine oder der Einsatz von Word auch keine Textersteller arbeitslos gemacht, im Gegenteil. Schreibmaschinen ersetzen keine Künstler oder Dichter. Das wäre alles nur ein zusätzliches Tool. Und man hört das Argument, man müsse sich halt anpassen, sich anderen Branchen zuwenden. Jetzt erkennt man, dass selbst die „neuen“ und zukunftsorientierten Bereichen Web & Co. bereits kurz vor einem Beschäftigungsabschwung stehen könnten. Wer gestern noch auf „Web“ ungeschult hat, könnte morgen schon obsolet werden, bevor diese Maßnahme beendet ist. Das Rad dreht sich immer schneller und irgendwann zu schnell, als dass Menschen der Dynamik der Veränderungsnotwendigkeiten noch folgen könnten. Die Reaktionsspanne einer Gesellschaft von „gestern“ zu „morgen“ wird immer kleiner. Das „heute“ schrumpft und lässt immer weniger Zeit, sich darin einzugewöhnen.     

Gedankenexperiment: Werden Websites künftig obsolet?

Nehmen wir an, es gelingt, erklärende Texte per Automat auf unsere Webseiten zu werfen. Und wir erwarten, dass nun Menschen via Google auf der Suche nach Problemlösungen und Erklärungen aller Art dort hingelangen und es uns gelingt, einige davon zum Konvertieren zu bringen. Wenn eine Maschine künftig aber tatsächlich gut und umfassend „erklären“ kann, werden das bald auch unsere digitalen Assistenten können. Warum sollte ich also künftig googeln und diese Website besuchen? Würde ich nicht viel wahrscheinlicher mit „OK Google“ (oder einer anderen KI) mir direkt eine Antwort auf dem Smartphone oder PC geben lassen? Was als qualitativ hochwertiger Content dort hinproduziert wurde, kann ja auch mit der gleichen oder einer besseren Technologie als direkte Antwort ohne diesen Umweg „Website“ gegeben werden. Das geht viel schneller und ist sicherlich einfacher.

„Was Du kannst, kann ich schon lange!“

Oh! Daran haben wir noch gar nicht gedacht. Läutet die Ära der automatisierten Textproduktion auch gleichzeitig die der informationsorientierten Webseiten ein? Wenn man darüber nachdenkt, erscheint dieser Weg als gar nicht mal so abwegig. Lässt sich das aufhalten, lassen sich unsere Milliarden mühsam aufgebauter Webseiten noch retten? Wahrscheinlich nicht. Sehen wir mal über eine Übergangszeit hinweg, in der wir automatische Texte (heute) noch nachbessern müssen, und stellen uns vor, der maschinell erzeugte Text wird direkt an andere Ausgabegeräte (Handys, Brillen, Headsets, akustische Systeme etc.) geliefert. Oh! Der ist wahrscheinlich sehr viel aktueller, da er in Echtzeit auf Daten von bis eben gerade erzeugt wird. Oh! Der ist wahrscheinlich sehr viel besser formuliert, weil er meine speziellen Interessen berücksichtigt – schließlich kennt mich mein Personal Assistent besser als ein Website-Text, der zwar auch automatisiert formuliert wurde, aber für alle gleich und statisch. Oh! Ich bekomme nur „neue“ Informationen vom Assistenten, da der mein Vorwissen kennt. Während eine Website mir erst erklärt, was z. B. die Abkürzung „CPC“ bedeutet, bevor sie ins Detail geht, weiß mein Assistent, dass ich das ganz sicher schon weiß, und verschont mich. Er gibt mir nur die Information, die für mich (wahrscheinlich) neu ist und geht gleich in die Tiefe.

„Füttern sich Maschinen künftig selbst?“

Setzen wir unserem Denkspiel noch eins drauf. Wenn es dann so kommen würde, dass wir immer weniger Websites besuchen, wenn wir etwas wissen wollen, wird es sich immer weniger lohnen, eine Webpräsenz mit derartigen Informationen vorzuhalten. Auch wenn alles automatisiert gehen sollte – warum sollte man das tun, wenn keine Besucher mehr kommen? Zugegeben, es ist ein verwegener Gedanke. Aber was passiert im Anschluss daran? Es gibt am Ende vielleicht keine informationsorientierten Seiten mehr, es lohnt sich nicht mehr. Woher beziehen dann KIs ihr künftiges Wissen? Wie kommt neues Wissen in den Pool, aus denen die Maschinen Erklärungen herausschöpfen, wenn der Pool nicht mehr von Menschen manuell mit Neuem versorgt wird? Den Maschinen könnte in einem solchen Szenario also durchaus das Material ausgehen. Eine rekursive Schleife würde entstehen.

Doch so weit müsste man gar nicht gehen beim Nachdenken über mögliche Folgen. Es reicht bereits, wenn eine gewisse Prozentzahl an Website-Betreibern automatische Texte verwenden. Diese sind dann mit wachsendem Anteil Grundlage zur Produktion neuer Texte. Die Maschinen verwenden ihren eigenen Output, um „neuen“ Input zu generieren? Oh!     

Und am Ende?

Natürlich werden auch mit Künstlicher Intelligenz erzeugte Texte ihre Daseinsberechtigung haben. Gilt es, eher beschreibende Texte für eine Produktseite automatisiert zu erstellen oder aus einer Liste von Produktmerkmalen Fließtext zu generieren, kann man hier viel Geld und Zeit sparen. Gute Rankings darf man von solchen Seiten aber wahrscheinlich auf Dauer nicht erwarten. Auch Nachrichten, Börsennews oder Berichte über ein Fußballspiel lassen sich wahrscheinlich bald in guter Qualität und schnell aus Stichworten erzeugen. Texte oder Illustrationen mit echtem Mehrwert für die Besucher werden wohl noch etwas auf sich warten lassen und beinhalten die oben benannten Probleme des (grob) prinzipiell gleichen Inhalts. Und ein kreatives Erfinden von Sachverhalten, um sich dann doch irgendwie abzuheben, kann außer Spammern wohl niemand ernsthaft wollen. Hier liegt wohl auch der Kern der überall lesbaren Begeisterung für die neuen Technologien: Sie erzeugen nach Eingabe einiger Worte kreativ Neues und Erstaunliches. Geht es aber um das „Erzeugen“ belastbarer Fakten sieht es zumindest heute noch eher dürftig aus. Neue Fakten lassen sich in der Regel eben nicht aus bekanntem bzw. alten Wissen generieren. Zumindest noch nicht.     

Am Ende müssen wir alle bekennen, dass niemand in die Zukunft schauen kann. Und gerade die Entwicklungen in jüngster Zeit haben gezeigt, dass Neues sehr viel schneller – immer schneller – unerwartet vor der Tür steht. Meist kommen Problemlösungen dann aus völlig anderen Richtungen. So wird es sicherlich auch und gerade beim Thema künstliche Intelligenz passieren, dass wir von heute auf morgen überrascht werden von Tools, die Dinge leisten, an die man letzte Woche noch gar nicht gedacht oder geglaubt hätte. Den Impact einer bahnbrechenden Technologie abzuschätzen, ist eine der schwierigsten, wenn nicht gar unmögliche Aufgabe. Kritisch nachdenken sollte man aber in jedem Fall.

Und auch wenn wir zu Recht erwarten, dass bei KI-basierten Tools eine enorme Leistungssteigerung eintreten wird, so bleiben einige Problembereiche wie oben erwähnt wohl dennoch bestehen. Wahrscheinlich wird die Verlockung, die Website künftig per Knopfdruck betreiben zu können und damit für lau vermeintlich Erfolg dafür ernten zu können, für viele sehr groß sein. Wir werden wohl in nicht allzu ferner Zeit von KI-basierten Texten überschwemmt werden. Diese werden besser und besser zu lesen sein. Vielleicht sogar deutlich besser als von Menschen verfasste Texte. Aber werden wir dann noch wertvolle neue Informationen finden? Können KIs künftig selbstständig aus Bestehendem erkennen, mit welchen Tricks man eine Mauer schneller oder schöner verputzt? Werden das weiterhin nur Menschen „entdecken“ und weitergeben? Werden KIs solche neuen Informationsstücke schlicht ignorieren, weil sie diese aufgrund des zahlenmäßigen Vorkommens als statistisch irrelevant einstufen? Natürlich könnte man „Einzelmeinungen“ mit analysieren – aber aufgrund welcher Hinweise? Können KIs auf absehbare Zeit basierend auf Massendaten entscheiden, was uns wirklich interessiert oder für uns neu und damit nützlich ist?

Und letztlich bleibt für KI-basierten Content ein leichtes oder gar schwergewichtiges Damoklesschwert hängen: Googles algorithmische Reaktion auf zunehmend automatisiert Erzeugtes. Was zu Anfang nicht erkannt wird, kann in Wochen, Monaten oder Jahren plötzlich zum De-Ranking und damit zum Aus führen. Vielleicht ist das eine der größten Gefahren für Website-Betreiber: die lange Reaktion, bis derartiger Content „bestraft“ wird. Wenn man dann in vermeintlicher oder eingeflüsterter Sicherheit („Das kann Google niemals erkennen, keine Sorge“) den Großteil der Texte automatisiert hat, wird man schwerlich bei einem Absturz von heute auf morgen alles manuell nacheditieren können. Möglicherweise kommt dann wieder eine Boomnachfrage nach zuvor in die Wüste geschickten Textern? Mit Preisen, die dann ähnlich explodieren wie derzeit bei Handwerkern?

Letztlich haben wir es mit zu vielen Unbekannten zu tun. Den Besuchern und deren Reaktion, den Website-Beitreibern und am Ende mit Google oder anderen beurteilenden Maschinen. Wahrscheinlich kommt dann doch wieder alles anders, als wir es heute vorhersehen können.

Was glauben Sie, wohin die automatisierte Content-Reise gehen wird? Schreiben Sie mir doch einfach unter chefredaktion@ websiteboosting.com. Die interessantesten Gedanken dazu stellen wir gerne für Sie in der nächsten Ausgabe zusammen.