Una gran filtración destapa cómo Google decide lo que se ve en internet y desata el caos

No hay autoridad de dominio

Aunque lo ha negado, la revelación de estos documentos confirma que Google da mucha importancia a la trayectoria de una página. Si esta es antigua, se muestra más arriba. Además, también se ha filtrado una etiqueta de sitios pequeños, lo que les produce cierta desventaja en el posicionamiento.

Extraído de la API de Content Warehouse de Google

GoogleApi.ContentWarehouse.V1.Model.CompressedQualitySignals
┗ La tradución de este concepto que se incluye en la API de Google es 'señales de calidad comprimidas' y hace referencia a métricas o datos que indicarían, para Google, la calidad de una página web.

Attributes

[...]

siteAuthority (type: integer(), default: nil) - site_authority: converted from quality_nsr.SiteAuthority, applied in Qstar.
┗ La autoridad del sitio es uno de los atributos referenciados, junto a otros poco intuitivos desde fuera, como 'experimentalQstarDeltaSignal'.

Google sobre la filtración

«Recomendamos tener cuidado con las suposiciones inexactas sobre la búsqueda basadas en información descontextualizada, desactualizada o incompleta. Hemos compartido información extensa sobre cómo funciona la Búsqueda y los tipos de factores que nuestros sistemas consideran, al mismo tiempo que trabajamos para proteger la integridad de nuestros resultados contra la manipulación»

No usamos clics

En una declaración ante el Departamento de Justicia de Estados Unidos, Pandu Nayak, vicepresidente de Google Search, confirmó la existencia de una herramienta que medía la calidad de los enlaces que ahora se ha confirmado.

Extraído de la API de Content Warehouse de Google

GoogleApi.ContentWarehouse.V1.Model.QualityNavboostCrapsCrapsClickSignals
┗ Este componente está relacionado con la calidad de la navegación ('QualityNavboost') y los clics ('ClickSignals') de los usuarios, de modo que se almacenaría la información de esos clics en cierto contenido y se evaluaría con ello la calidad de ese contenido.

Attributes

absoluteImpressions (type: float(), default: nil) - Thus far this field is only used for host level unsquashed impressions. When compressed (e.g., in perdocdata.proto, CompressedQualitySignals), this value is represented individually and thus is generally incompatible with the other values which are compressed as click-ratios.

badClicks (type: float(), default: nil) -
┗ La documentación hace referencia a clics buenos y malos, últimos clics buenos o clics largos (si el usuario se queda más tiempo en página). Además, la filtración revela que si una página no tiene clics se considera de baja calidad y se ignora. Por el contrario, si tiene muchos pinchazos se eleva la posición.

clicks (type: float(), default: nil) -

goodClicks (type: float(), default: nil) -

impressions (type: float(), default: nil) -

lastLongestClicks (type: float(), default: nil) -

unicornClicks (type: float(), default: nil) - The subset of clicks that are associated with an event from a Unicorn user.

unsquashedClicks (type: float(), default: nil) - This is not being populated for the current format - instead two instances of CrapsClickSignals (squashed/unsquashed) are used. We are migrating to the new format where this field will be populated.

unsquashedImpressions (type: float(), default: nil) - This is not being populated for the current format - instead two instances of CrapsClickSignals (squashed/unsquashed) are used. We are migrating to the new format where this field will be populated.

unsquashedLastLongestClicks (type: float(), default: nil) -

Categorización humana

Durante muchos años, los especialistas SEO han especulado con la posibilidad de calificaciones humanas. Se desconoce, en la filtración no hay más datos, del alcance que pueden tener las anotaciones en la muestra de los resultados en las búsquedas.

Extraído de la API de Content Warehouse de Google

GoogleApi.ContentWarehouse.V1.Model.RepositoryWebrefEntityJoin
┗ Sobre este concepto, podría utilizarse para modelar las relaciones entre entidades almacenadas en el repositorio y las referencias web asociadas a esas entidades. Es decir, podría ser una forma de conectar información dentro del almacén de contenido de Google con las páginas web relacionadas.

Attributes

[...]

humanRatings (type: GoogleApi.ContentWarehouse.V1.Model.RepositoryWebrefHumanRatings.t, default: nil) - Human ratings (e.g. ratings from EWOK). This is typically only populated in the evaluation pipelines (e.g. P@5).
┗ De este modo, este podría ser un marcador de posición para las calificaciones generadas por humanos que se utilizan específicamente al evaluar el contenido dentro del sistema Google Content Warehouse.

[...]

No usamos nada de Chrome

Durante mucho tiempo, Google y sus ingenieros han negado el uso de su navegador, Chrome, para alimentar de datos a su buscador. Pero una etiqueta revela que sí y lo hacen para recopilar información del comportamiento del usuario.

Extraído de la API de Content Warehouse de Google

GoogleApi.ContentWarehouse.V1.Model.QualityNsrNsrData
┗ Hace referencia a la calidad de los datos, probablemente relacionado con la recuperación y almacenamiento de información, de modo que pueda ser usada internamente por Google para evaluar la calidad de sitios web según criterios específicos definidos por 'Nsr' (este concepto no es público y, al cuestionarlo a Gemini, la IA de Google, devuelve que podría referenciarse como 'Non-Search Result' (Resultado que no es de Búsqueda), pero no lo asegura.

Attributes

[...]

chromeInTotal (type: number(), default: nil) - Site-level Chrome views.
┗ Una etiqueta que puede añadir un motivo más a las investigaciones por monopolio a las que se enfrenta la compañía.

[...]

1. Embeddings

Representación numérica de un texto, frase, palabra o token. Normalmente es un vector con muchas dimensiones.

Para dos palabras con significado parecido o muy relacionadas entre sí (aparecen a menudo juntas en un corpus) sus embeddings tendrán valores cercanos.
— Juan González Villa (@seostratega) May 30, 2024

Noticias relacionadas

A la búsqueda del nuevo Google

José A. González

La inteligencia artificial revolucionará las búsquedas en internet disparando la información falsa

Edurne Martínez

¿Va a cambiar algo después de esto?

No parece probable que Google vaya a tomar ninguna acción tras la filtración por los límites que presenta la complejidad del sistema. Además, como Google no opera con una única fórmula para crear su algoritmo, el proceso de clasificación «involucra múltiples modelos independientes que se ponderan mediante Machine Learning». Por ejemplo, en 2022 Google realizó 4.725 actualizaciones de su algoritmo basadas en 800.000 experimentos con evaluadores, unas 13 actualizaciones del algoritmo al día.

Natzir Turrado, consultor SEO para grandes marcas, aclara que el éxito de Google no reside en las fórmulas, sino en la gran cantidad de datos que posee para mejorar sus algoritmos. «Esto ha sido posible al forzar a los usuarios a que utilicen Google como el buscador por defecto y Chrome como navegador, uno de los motivos por los cuales está siendo juzgado en Estados Unidos», explica el consultor SEO.

Los 2.500 folios con casi 15.000 factores publicados revelan cómo funcionan hasta la fecha los 5.600 millones de búsquedas diarias que se hacen en Google. O, quizá, cómo han funcionado, porque los últimos avances de la inteligencia artificial generativa cambian todas las etiquetas y todas las cartas sobre la mesa. Donde se muestra un enlace, ahora es una respuesta elaborada a una pregunta. O lo que es lo mismo un golpe a un negocio de 400.000 euros por minuto.

Sobre las fuentes

Para el análisis de los diferentes conceptos y estructuras de la API de Content Warehouse de Google que se referencian en este artículo se han realizado diferentes consultas a Gémini, la IA conversacional de Google, y ChatGPT. En todos los casos, las herramientas indican que sus respuestas son «solo una posibilidad basada en el análisis del nombre» del concepto consultado. Esta información, contrastada con diferentes personas expertas en la materia y otras fuentes, ha servido para aproximar las definiciones que se muestran en este artículo. Toda la información de la API está extraída del repositorio consultable aquí .

Una gran filtración destapa cómo Google decide lo que se ve en internet y desata el caos

Expertos SEO de todo el mundo tratan de descifrar el algoritmo que el gigante de internet siempre ha mantenido bajo llave y salen a la luz algunos de sus «engaños»

A la búsqueda del nuevo Google

La inteligencia artificial revolucionará las búsquedas en internet disparando la información falsa

¿Va a cambiar algo después de esto?

España cierra su segundo ejercicio con menos bosques quemados en 50 años

Los animales provocan más de un accidente diario en las carreteras riojanas

Una denuncia, dos versiones y un juez: las declaraciones de Mouliaá y Errejón