Abbildung 19 zeigt etwas anderes, nämlich einen weiteren Erkenntniswert für SEO. Über das Modell lässt sich prüfen, welche Worte nicht zusammenpassen. Das Beispiel ist sehr einfach und so würde es natürlich noch nicht dazu taugen, die Qualität eines Textes wirklich valide zu prüfen. Allerdings arbeitet Google auch nicht nur mit einer vergleichsweise so kleinen Datenbasis, sondern hat über das Web über 80 Trillionen Dokumente als Korpus zur Verfügung. Nicht zu vergessen die vielen Datenbanken und Entitäten, die mittlerweile aufgebaut wurden (siehe Website Boosting #36, Google RankBrain). Und natürlich verwendet man dort nicht nur einen PC dafür. Experten vermuten, dass mittlerweile weltweit jeder zweite Webserver bei Google steht.
Aber ist das jetzt schon Intelligenz?
Was „intelligent“ ist, darüber lässt sich sicher trefflich streiten. Wer die Vergangenheit aufmerksam beobachtet hat, erkennt, dass wir Menschen auch dazu neigen, die Schwelle, ab wann wir etwas so nennen, beständig zu verschieben. Meist immer dann, wenn uns ein Computer in einer Domäne geschlagen hat, die wir für uns reklamiert hatten (Backgammon, Dame, Schach, Jeopardy, Go und zuletzt Poker). Fischerländer wählte dazu einen einfachen Wald- und-Wiesen-„Intelligenz“-Test auf Brigitte.de aus und ließ die zehn Fragen durch das Modell laufen. Und dieses war tatsächlich in der Lage, sechs der zehn Fragen korrekt zu beantworten. Die Wahrscheinlichkeit, dass dies zufällig passierte, lag rechnerisch bei nur zwei Prozent. Klar, das ist alles andere als ein wissenschaftlicher Rahmen. Erstaunlich aber allemal.
Im entsprechenden Forschungspaper „Efficient Estimation of Word Representations in Vector Space“ von vier Google Engineers (PDF unter einfach.st/w2vpaper) steht dazu bei den Schlussfolgerungen:
„Our ongoing work shows that the word vectors can be successfully applied to automatic extension of facts in Knowledge Bases, and also for verification of correctness of existing facts. Results from machine translation experiments also look very promising.“
Das war Stand 2013! Und wurde damals wie immer in der Szene nicht ganz so ernst genommen, wie es nötig gewesen wäre. Der Sinn einer solchen Faktenerkennung liegt wie oben angedeutet klar auf der Hand. Die Qualität von Sätzen, Aussagen und Texten lässt sich maschinell sehr viel besser einschätzen. Fischerländer stellte rhetorisch die Frage, wie seriös wohl der folgende Satz auf einer Webseite auf einen Menschen wirkt.
„Die besten Online-Shops für Mode sind Zalando, Otto, MeinTollerModeShop24 und Bonprix.“
Natürlich würde uns auffallen, dass hier etwas nicht stimmt. Zumindest das kann das einfache Vektorenmodell von Fischerländer aber auch. Und bereits sein kleines Vektorenmodell wäre in der Lage, eine solche Aussage als unseriös für ein Ranking abzulehnen oder zurückzustufen. Wer kann sich ausmalen, um wie viel weiter das Modell mittlerweile von Google entwickelt wurde, wie groß das Dokumentkorpus ist und die Geschwindigkeit, das alles zu verarbeiten?
Einsatzmöglichkeiten für word2vec
Über Klassifizierungen lassen sich (auch neue) Begriffe bereits bestehenden zuordnen. Damit ließen sich ggf. automatisch Texte generieren, wie Fischerländer zeigte. Nach der Zuordnung eines Automodells X über das Vektorenmodell zu 75 % für „Klein- und Kompaktwagen“ und zu 25 % zu „Sportwagen“ könnten Sätze wie „X ist ein Klein- und Kompaktwagen mit sportlicher Note“ generiert werden.
Aber auch für die Optimierung der internen Verlinkung kann man wertvolle Erkenntnisse ableiten. Ebenso ließe sich die interne Suchfunktion damit verbessern.
In der Szene ist bereits länger bekannt, dass sich die Rankingsignale immer mehr in Richtung Content verschieben. Stefan Fischerländer zeigte eindrucksvoll in der Praxis, wie so etwas funktionieren kann, und öffnete somit sicher dem einen oder der anderen die Augen, dass die Vision einer intelligenten Maschine, die Webseiten aufgrund inhaltlicher Qualität anstatt von Titles, Überschriften oder Backlinks beurteilt, gar nicht mehr so visionär ist, sondern zunehmend Realität. Wer selbst so etwas nachvollziehen oder nachbauen möchte, dem empfiehlt Fischerländer, Python zu lernen.