Warum hat Google Gemini Chat-Daten geleakt?

Es dauerte nur 24 Stunden nach der Veröffentlichung von Gemini, bis jemand bemerkte, dass die Katzen öffentlich in den Suchergebnissen von Google angezeigt wurden. Google reagierte schnell auf das, was wie ein Leck aussah. Der Grund, warum dies geschah, ist ziemlich überraschend und nicht so unheimlich, wie es auf den ersten Blick scheint.

@shemiadhikarath twitterte:

"Wenige Stunden nach dem Start von @Google Gemini indexierten Suchmaschinen wie Bing die öffentlichen Konversationen von Gemini."

Sie veröffentlichten einen Screenshot der Suche auf der Website gemini.google.com/share/.

Aber wenn Sie sich den Screenshot anschauen, sehen Sie, dass es eine Meldung gibt, die besagt: "Wir würden Ihnen hier gerne eine Beschreibung zeigen, aber die Website erlaubt es uns nicht".

Am frühen Morgen des Dienstags, den 13. Februar, begannen Google Gemini-Katzen aus den Suchergebnissen von Google zu verschwinden, sodass nur noch drei Ergebnisse angezeigt wurden. Am Nachmittag reduzierte sich die Anzahl der geleakten Gemini-Katzen, die in den Suchergebnissen erschienen, auf einen einzigen Treffer.

Wie wurden die Seiten des Gemini-Chats erstellt?

Mit Gemini können Sie einen Link zu einer öffentlichen Version einer privaten Diskussion erstellen.

Google erstellt nicht automatisch Webseiten aus privaten Chats. Die Nutzer erstellen die Chatseiten mithilfe eines Links am Ende jedes Chats.

Screenshot der Erstellung einer geteilten Diskussionsseite

Screenshot der Erstellung einer öffentlichen Webseite eines privaten Google Gemini-Chats

Warum wurden die Seiten des Gemini-Chats indiziert?

Der offensichtliche Grund, warum die Chat-Seiten gecrawlt und indexiert wurden, ist, dass Google vergessen hatte, eine robots.txt-Datei im Stammverzeichnis der Gemini-Subdomain (gemini.google.com) zu platzieren.

Eine robots.txt-Datei ist ein Dokument, mit dem die Aktivität von Webcrawlern auf Websites überwacht werden kann. Ein Publisher kann bestimmte Robots blockieren, indem er die in der Robots.txt standardisierten Befehle verwendet.

Ich habe die robots.txt am 13. Februar um 4.19 Uhr morgens überprüft und gesehen, dass es eine gibt:

robots.txt-Datei von Google Gemini

Ich habe dann im Internet Archive nachgeschaut, wie lange die robots.txt-Datei schon vorhanden war, und festgestellt, dass sie mindestens seit dem 8. Februar vorhanden war, dem Tag, an dem die Gemini-Anwendungen angekündigt wurden.

Screenshot aus dem Internet Archive

Screenshot der Datei Google Gemini robots.txt aus dem Internet Archive, der zeigt, dass er am 8. Februar 2024 anwesend war.

Das bedeutet, dass der offensichtliche Grund, warum die Diskussionsseiten erforscht wurden, nicht der richtige ist, sondern einfach der offensichtlichste Grund.

Obwohl die Google Gemini-Subdomain eine robots.txt-Datei hat, die die Crawler von Bing und Google blockiert, wie konnten die Crawler diese Seiten crawlen und indexieren?

Zwei Möglichkeiten, private Chatseiten zu entdecken und zu indizieren

  • Vielleicht gibt es irgendwo einen öffentlichen Link.
  • Es ist weniger wahrscheinlich, aber vielleicht möglich, dass sie durch den mit Cookies verknüpften Browserverlauf entdeckt wurden.

Es ist wahrscheinlicher, dass es eine öffentliche Verbindung gibt.

Ich fragte Bill Hartzer (@bhartzer) zu diesem Thema und er entdeckte einen öffentlicher Link für eine der indizierten Seiten :

Öffentlicher Link zu einer gemeinsamen Diskussionsseite von Google Gemini

Wir wissen nun also, dass es sehr wahrscheinlich ist, dass ein öffentlicher Link das Crawlen und Indexieren dieser Gemini-Chat-Seiten bewirkt hat.

Bill Hartzer machte folgende Beobachtung:

"Obwohl die Gemini-URL in der robots.txt gesperrt ist, gibt es in einem Blogkommentar einen Link zur Gemini-URL, so dass die Gemini-URL indexiert wird.

Dies beweist, dass Google immer noch URLs indiziert, deren Crawling in der Datei robots.txt blockiert ist.

Wenn Google wirklich sicherstellen wollte, dass die Gemini-URL nicht indexiert wird, würde es das Crawlen in der robots.txt-Datei erlauben und den Seiten ein noindex-Meta-Tag hinzufügen. Vielleicht sollte Google seinen eigenen Rat befolgen"?

Warum begannen die Chat-Seiten aus den Suchergebnissen zu verschwinden?

Aber wenn es eine öffentliche Verknüpfung gibt, warum hat Google dann angefangen, die Diskussionsseiten zu löschen? Hat Google eine interne Regel für den Suchroboter erstellt, um Webseiten im Ordner /share/ aus dem Suchindex auszuschließen, auch wenn sie öffentlich verlinkt sind?

Überblick darüber, wie Bing und Google Search Inhalte indexieren

Hier kommt nun der wirklich interessante Teil für alle Geeks, die sich dafür interessieren, wie Google und Bing Inhalte indexieren.

Microsofts Suchindex Bing reagierte auf den Inhalt von Gemini anders als der von Google. Während Google am frühen Morgen des 13. Februar noch drei Suchergebnisse anzeigte, zeigte Bing nur ein einziges Ergebnis aus der Subdomain an. Die Qualität dessen, was indexiert wurde, und seine Quantität schienen zufällig zu sein.

Warum sind die Chatseiten von Gemini durchgesickert?

Hier sind die bekannten Fakten:

  • Google hat seit dem 8. Februar eine robots.txt-Datei.
  • Sowohl Google als auch Bing haben die Seiten der Subdomain gemini.google.com indexiert.
  • Es ist möglich, dass Google und Bing Links zu Katzen entdeckt und diese dann indexiert haben.
  • Suchmaschinen indexierten den Inhalt ohne Berücksichtigung der robots.txt-Datei und begannen dann, ihn abzulehnen.

Das bringt uns wieder zu der Frage zurück, warum diese Seiten begonnen haben, aus den Suchergebnissen von Google und Bing zu verschwinden. Meiner Meinung nach handelt es sich bei den Google Gemini-Chat-Seiten um qualitativ minderwertige Webseiten, die es nicht wert sind, für das angezeigt zu werden, was im Wesentlichen eine langfristige Suche ist (site:gemini.google.com/share/). Es gibt wirklich keinen sinnvollen Grund, diese Seiten in den Suchergebnissen aufscheinen zu lassen.

Inhalte, die von Robots.txt blockiert werden, können immer noch entdeckt, erforscht und in den Suchindex aufgenommen werden. Wenn die Seiten nützlich sind, können sie auch eingestuft werden, es sei denn, sie sind nicht nützlich. Ich denke, das ist der Fall.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert