Secciones
Servicios
Destacamos
El mayor gigante de internet ha quedado al descubierto. Google ha sufrido la filtración de su santo grial: el algoritmo con el que ha posicionado las webs y noticias en un lugar u otro cuando un usuario realiza cualquier búsqueda en su sistema. Esto ha desatado una gran controversia en internet y grandes expertos SEO (especialistas en optimizar las web de sus empresas para posicionar en Google) de todo el mundo tratan de descifrar esta cantidad ingente de información previa a la última gran actualización de sus funcionalidades (14.000 factores distintos en 2.500 folios de datos), aunque con resultados hasta ahora muy limitados.
«Es muchísima información y falta mucho contexto. Google nombra a sus factores con términos muy especiales que incluso los SEO más especializados en ello no saben descifrar», explica a este periódico Juan González Villa, consultor SEO y director de la agencia USEO. Aún así, esta filtración ha sido para los expertos de internet como avanzar en la «fórmula de la Coca-Cola» de Google, aunque por ahora solo hay indicios, «pistas para que sepamos que estamos yendo en la buena dirección, pero no una filtración que permita accionar directamente una nueva forma de trabajar con los contenidos, reconoce el experto.
No hay autoridad de dominio
Aunque lo ha negado, la revelación de estos documentos confirma que Google da mucha importancia a la trayectoria de una página. Si esta es antigua, se muestra más arriba. Además, también se ha filtrado una etiqueta de sitios pequeños, lo que les produce cierta desventaja en el posicionamiento.Extraído de la API de Content Warehouse de Google
GoogleApi.ContentWarehouse.V1.Model.CompressedQualitySignals
┗ La tradución de este concepto que se incluye en la API de Google es 'señales de calidad comprimidas' y hace referencia a métricas o datos que indicarían, para Google, la calidad de una página web.
Attributes
[...]
siteAuthority (type: integer(), default: nil) - site_authority: converted from quality_nsr.SiteAuthority, applied in Qstar.
┗ La autoridad del sitio es uno de los atributos referenciados, junto a otros poco intuitivos desde fuera, como 'experimentalQstarDeltaSignal'.
La filtración, realizada hace escasos días por el SEO Mike King y el cofundador de la empresa de analítica Sparktoro, Rand Fishkin, ha sido confirmada por el propio gigante de internet. Más que confirmado, no lo ha desmentido. Google ha hecho una comunicación en la que no niega la información contenida en la filtración y advierte de que se tenga cuidado porque la información que se extraiga puede ser incorrecta por falta de contexto. «Es una comunicación que es prácticamente un reconocimiento de que son documentos suyos, pero Google siempre deja espacio a la interpretación», asegura Villa.
Lo realmente clave para los departamentos SEO de las empresas es que en esta filtración se han descubierto los engaños de Google.
No usamos clics
En una declaración ante el Departamento de Justicia de Estados Unidos, Pandu Nayak, vicepresidente de Google Search, confirmó la existencia de una herramienta que medía la calidad de los enlaces que ahora se ha confirmado.Extraído de la API de Content Warehouse de Google
GoogleApi.ContentWarehouse.V1.Model.QualityNavboostCrapsCrapsClickSignals
┗ Este componente está relacionado con la calidad de la navegación ('QualityNavboost') y los clics ('ClickSignals') de los usuarios, de modo que se almacenaría la información de esos clics en cierto contenido y se evaluaría con ello la calidad de ese contenido.
Attributes
absoluteImpressions (type: float(), default: nil) - Thus far this field is only used for host level unsquashed impressions. When compressed (e.g., in perdocdata.proto, CompressedQualitySignals), this value is represented individually and thus is generally incompatible with the other values which are compressed as click-ratios.
badClicks (type: float(), default: nil) -
┗ La documentación hace referencia a clics buenos y malos, últimos clics buenos o clics largos (si el usuario se queda más tiempo en página). Además, la filtración revela que si una página no tiene clics se considera de baja calidad y se ignora. Por el contrario, si tiene muchos pinchazos se eleva la posición.
clicks (type: float(), default: nil) -
goodClicks (type: float(), default: nil) -
impressions (type: float(), default: nil) -
lastLongestClicks (type: float(), default: nil) -
unicornClicks (type: float(), default: nil) - The subset of clicks that are associated with an event from a Unicorn user.
unsquashedClicks (type: float(), default: nil) - This is not being populated for the current format - instead two instances of CrapsClickSignals (squashed/unsquashed) are used. We are migrating to the new format where this field will be populated.
unsquashedImpressions (type: float(), default: nil) - This is not being populated for the current format - instead two instances of CrapsClickSignals (squashed/unsquashed) are used. We are migrating to the new format where this field will be populated.
unsquashedLastLongestClicks (type: float(), default: nil) -
«Más que mentiras yo hablaría de medias verdades», concreta Villa, que explica que «al fin y al cabo es una empresa que ha intentado proteger un secreto comercial, no pueden ser totalmente transparentes», pero siempre han hablado haciendo algún truco para no responder claramente a las dudas de los SEO de todo el mundo sobre al criterio de posicionamiento en su buscador.
Categorización humana
Durante muchos años, los especialistas SEO han especulado con la posibilidad de calificaciones humanas. Se desconoce, en la filtración no hay más datos, del alcance que pueden tener las anotaciones en la muestra de los resultados en las búsquedas.Extraído de la API de Content Warehouse de Google
GoogleApi.ContentWarehouse.V1.Model.RepositoryWebrefEntityJoin
┗ Sobre este concepto, podría utilizarse para modelar las relaciones entre entidades almacenadas en el repositorio y las referencias web asociadas a esas entidades. Es decir, podría ser una forma de conectar información dentro del almacén de contenido de Google con las páginas web relacionadas.
Attributes
[...]
humanRatings (type: GoogleApi.ContentWarehouse.V1.Model.RepositoryWebrefHumanRatings.t, default: nil) - Human ratings (e.g. ratings from EWOK). This is typically only populated in the evaluation pipelines (e.g. P@5).
┗ De este modo, este podría ser un marcador de posición para las calificaciones generadas por humanos que se utilizan específicamente al evaluar el contenido dentro del sistema Google Content Warehouse.
[...]
Además, el experto asegura que ahora se conoce que Chrome (el navegador de Google) actúa como un espía «recopilando datos sobre el comportamiento de los usuarios en cada web después de realizar una búsqueda». «Son teorías inventadas», llegó a comentar Gary Illyes,analista del equipo de Búsqueda de Google.
No usamos nada de Chrome
Durante mucho tiempo, Google y sus ingenieros han negado el uso de su navegador, Chrome, para alimentar de datos a su buscador. Pero una etiqueta revela que sí y lo hacen para recopilar información del comportamiento del usuario.Extraído de la API de Content Warehouse de Google
GoogleApi.ContentWarehouse.V1.Model.QualityNsrNsrData
┗ Hace referencia a la calidad de los datos, probablemente relacionado con la recuperación y almacenamiento de información, de modo que pueda ser usada internamente por Google para evaluar la calidad de sitios web según criterios específicos definidos por 'Nsr' (este concepto no es público y, al cuestionarlo a Gemini, la IA de Google, devuelve que podría referenciarse como 'Non-Search Result' (Resultado que no es de Búsqueda), pero no lo asegura.
Attributes
[...]
chromeInTotal (type: number(), default: nil) - Site-level Chrome views.
┗ Una etiqueta que puede añadir un motivo más a las investigaciones por monopolio a las que se enfrenta la compañía.
[...]
En los post que el SEO González Villa está compartiendo desde que hace dos días estalló la filtración, detalla 42 términos o conceptos que aparecen en el macro documento y que no se conocían antes o, al menos, no había confirmación de si Google los usaba como fórmula para posicionar mejor o no. Algunos de los más importantes son 'SiteFocus', una estimación de cuánto se centra una web en su temática principal; 'Topicality', esto es el grado de confianza en que un documento habla de lo mismo que la cuestión introducida por el usuario; o 'QualitySignals', un módulo que lista todas las señales de calidad a nivel de página web.
1. Embeddings
— Juan González Villa (@seostratega) May 30, 2024
Representación numérica de un texto, frase, palabra o token. Normalmente es un vector con muchas dimensiones.
Para dos palabras con significado parecido o muy relacionadas entre sí (aparecen a menudo juntas en un corpus) sus embeddings tendrán valores cercanos.
Pedro Martínez, director de Desarrollo de Audiencias de Vocento, aclara que no ha sido un 'hackeo' de la base de datos de Google, sino una filtración, la más grande de la historia de Google, que ha permitido reconocer si lo que se estaba haciendo en los departamentos SEO por intuición o a base de prueba y error sí que tenía sentido.
Noticias relacionadas
José A. González
El coordinador de la estrategia SEO del grupo editorial indica que algunos de los puntos clave revelados en esta filtración son el denominado 'EEAT', es decir, la autoridad que dan los expertos en una temática a la web; la autoridad del 'Site', la reputación de una web por antigüedad, comentarios o historia; las visitas Chrome, esto es el tiempo que pasan los lectores en una web desde que pinchan en el enlace; y la velocidad a la que se carga la página por la mejor o peor experiencia que ofreces al usuario.
No parece probable que Google vaya a tomar ninguna acción tras la filtración por los límites que presenta la complejidad del sistema. Además, como Google no opera con una única fórmula para crear su algoritmo, el proceso de clasificación «involucra múltiples modelos independientes que se ponderan mediante Machine Learning». Por ejemplo, en 2022 Google realizó 4.725 actualizaciones de su algoritmo basadas en 800.000 experimentos con evaluadores, unas 13 actualizaciones del algoritmo al día.
Natzir Turrado, consultor SEO para grandes marcas, aclara que el éxito de Google no reside en las fórmulas, sino en la gran cantidad de datos que posee para mejorar sus algoritmos. «Esto ha sido posible al forzar a los usuarios a que utilicen Google como el buscador por defecto y Chrome como navegador, uno de los motivos por los cuales está siendo juzgado en Estados Unidos», explica el consultor SEO.
Los 2.500 folios con casi 15.000 factores publicados revelan cómo funcionan hasta la fecha los 5.600 millones de búsquedas diarias que se hacen en Google. O, quizá, cómo han funcionado, porque los últimos avances de la inteligencia artificial generativa cambian todas las etiquetas y todas las cartas sobre la mesa. Donde se muestra un enlace, ahora es una respuesta elaborada a una pregunta. O lo que es lo mismo un golpe a un negocio de 400.000 euros por minuto.
Para el análisis de los diferentes conceptos y estructuras de la API de Content Warehouse de Google que se referencian en este artículo se han realizado diferentes consultas a Gémini, la IA conversacional de Google, y ChatGPT. En todos los casos, las herramientas indican que sus respuestas son «solo una posibilidad basada en el análisis del nombre» del concepto consultado. Esta información, contrastada con diferentes personas expertas en la materia y otras fuentes, ha servido para aproximar las definiciones que se muestran en este artículo. Toda la información de la API está extraída del repositorio consultable aquí .
Publicidad
Alfonso Torices (texto) | Madrid y Clara Privé (gráficos) | Santander
Sergio Martínez | Logroño
Sara I. Belled, Clara Privé y Lourdes Pérez
Esta funcionalidad es exclusiva para suscriptores.
Reporta un error en esta noticia
Comentar es una ventaja exclusiva para suscriptores
¿Ya eres suscriptor?
Inicia sesiónNecesitas ser suscriptor para poder votar.