Bastaron veinticuatro horas después de la publicación de Gemini para que alguien se diera cuenta de que los gatos aparecían públicamente en los resultados de búsqueda de Google. Google respondió rápidamente a lo que parecía ser una filtración. La razón por la que esto ocurrió es bastante sorprendente y no tan siniestra como parece a primera vista.
@shemiadhikarath tuiteó:
"A las pocas horas del lanzamiento de @Google Gemini, buscadores como Bing indexaban las conversaciones públicas de Gemini".
Publicaron una captura de pantalla de la búsqueda en el sitio web gemini.google.com/share/.
Pero si miras la captura de pantalla, verás que hay un mensaje que dice: "We'd like to show you a description here but the site won't let us".
A primera hora de la mañana del martes 13 de febrero, los gatos Géminis de Google empezaron a desaparecer de los resultados de búsqueda de Google, quedando sólo tres resultados. Por la tarde, el número de gatos Géminis filtrados que aparecían en los resultados de búsqueda se había reducido a solo uno.
¿Cómo se crearon las páginas de chat de Géminis?
Gemini le permite crear un enlace a una versión pública de un debate privado.
Google no crea automáticamente páginas web a partir de chats privados. Los usuarios crean páginas de chat mediante un enlace situado en la parte inferior de cada chat.
Captura de pantalla de la creación de una página de debate compartida
¿Por qué se indexaron las páginas de chat de Géminis?
La razón obvia por la que se rastrearon e indexaron las páginas de chat es que Google olvidó colocar un archivo robots.txt en la raíz del subdominio de Gemini (gemini.google.com).
Un archivo robots.txt es un documento utilizado para controlar la actividad de los robots de indexación en los sitios web. Un editor puede bloquear robots específicos utilizando comandos estandarizados en el protocolo Robots.txt.
Comprobé el archivo robots.txt a las 4.19 del 13 de febrero y vi que había uno:
Entonces consulté el Archivo de Internet para ver cuánto tiempo llevaba el archivo robots.txt y descubrí que llevaba ahí al menos desde el 8 de febrero, el día en que se anunciaron las candidaturas Gemini.
Captura de pantalla de Internet Archive
Esto significa que la razón obvia para explorar las páginas de discusión no es la correcta, es simplemente la razón más obvia.
Aunque el subdominio Google Gemini tiene un archivo robots.txt que bloquea los rastreadores de Bing y Google, ¿cómo han podido estos rastreadores explorar estas páginas e indexarlas?
Dos formas de descubrir e indexar páginas de chat privadas
- Puede que haya un enlace público en alguna parte.
- Es menos probable, pero quizá posible, que hayan sido descubiertos gracias al historial de navegación vinculado a las cookies.
Es más probable que exista un enlace público.
Le pregunté a Bill Hartzer (@bhartzer) sobre este tema y descubrió un enlace público para una de las páginas indexadas :
Así que ahora sabemos que es muy probable que un enlace público fuera la fuente de la exploración e indexación de estas páginas de chat de Géminis.
Bill Hartzer hizo esta observación:
"Aunque la URL de Géminis está bloqueada en el archivo robots.txt, hay un enlace a la URL de Géminis en un comentario del blog, por lo que la URL de Géminis está indexada.
Esto demuestra que Google sigue indexando URL cuyo rastreo está bloqueado en el archivo robots.txt.
Si Google realmente quisiera asegurarse de que la URL de Gemini no se indexara, permitiría el rastreo en el archivo robots.txt y añadiría una metaetiqueta noindex a las páginas. Quizá Google debería seguir su propio consejo".
¿Por qué han empezado a desaparecer las páginas de chat de los resultados de búsqueda?
Pero si existe un enlace público, ¿por qué ha empezado Google a eliminar las páginas de discusión? ¿Ha creado Google una regla interna para que el robot de búsqueda excluya las páginas web de la carpeta /share/ del índice de búsqueda, aunque estén enlazadas públicamente?
Cómo indexan los contenidos Bing y Google Search
Ahora viene la parte realmente interesante para cualquier friki interesado en cómo Google y Bing indexan el contenido.
El índice de búsqueda Bing de Microsoft reaccionó al contenido de Gemini de forma diferente al de Google. Mientras que Google seguía mostrando tres resultados de búsqueda en las primeras horas del 13 de febrero, Bing sólo mostraba un resultado del subdominio. La calidad y cantidad de lo indexado parecía aleatoria.
¿Por qué se filtraron las páginas del chat de Géminis?
Estos son los hechos conocidos:
- Google introdujo un archivo robots.txt el 8 de febrero.
- Tanto Google como Bing han indexado páginas del subdominio gemini.google.com.
- Es posible que Google y Bing hayan descubierto enlaces a gatos y los hayan indexado.
- Los motores de búsqueda indexaban el contenido sin tener en cuenta el archivo robots.txt y empezaban a rechazarlo.
Esto nos lleva de nuevo a la cuestión de por qué estas páginas han empezado a desaparecer de los resultados de búsqueda de Google y Bing. En mi opinión, las páginas de chat de Google Gemini son páginas web de baja calidad que no merece la pena mostrar para lo que son esencialmente búsquedas a largo plazo (site:gemini.google.com/share/). Realmente no hay ninguna razón útil para que estas páginas aparezcan en los resultados de búsqueda.
El contenido bloqueado por Robots.txt aún puede ser descubierto, explorado e incluido en el índice de búsqueda. Si las páginas son útiles, también pueden clasificarse, a menos que no lo sean. Creo que este es el caso.