Cómo mejorar la indexación de entidades en Google

(Nota: Este artículo es la segunda parte de nuestra guía sobre el uso de entidades en SEO. Te recomendamos que primero leas la primera parte si no estás familiarizado con el concepto de entidades en SEO).

¿Por qué la indexación de entidades es esencial para tu estrategia SEO?

Cualquier dueño de un sitio web o experto en SEO conoce la importancia de la indexación de páginas por los motores de búsqueda. Pero indexar el URL de una página solo es el primer paso. Se ha vuelto esencial revisar cómo Google interpreta el contenido en esas páginas.

En la parte previa de esta guía, vimos que las entidades se han vuelto un elemento central en la estrategia de indexación de Google: cada página indexada mediante el bot de Google es posteriormente analizada para extraer e indexar las entidades presentes en el texto.

La indexación de entidades ofrece muchas ventajas para Google:

  • Entender el significado del contenido publicado en una página,
  • Establecer conexiones entre páginas,
  • Entender las solicitudes de sus usuarios y reformularlos si es necesario.
  • Mapear áreas de interés para mejorar los resultados de búsqueda y las sugerencias de contenido.

Google ahora utiliza entidades en la mayoría de sus servicios. Así que es fundamental saber cómo Google indexa las entidades de un sitio web y de esta manera ser capaces de mejorar este indexado si se demuestra que es insuficiente.

¿Cómo puedes medir el estatus de indexación de las entidades en tu sitio?

Para poder medir el estatus de indexación de un sitio, necesitas dos herramientas:

  • Una API de análisis de lenguaje natural de Google (disponible aquí)
  • Una API de referencia que permite la identificación de todas las entidades presentes en un texto.

(También puedes usar una herramienta todo en uno como InLinks)

La API de Google, tiene algunas características interesantes para tener en cuenta:

  • Esta API es particularmente poderosa para detectar personas, empresas, lugares y puntos de interés que pueden ser encontrados en un texto. Para estos tipos de entidades, la tasa de detección está cerca del 100%. La API también es buena para detectar ciertos tipos de productos, como modelos de autos o programas de televisión.
  • Sin embargo, esta API tiene dificultades para detectar correctamente las entidades relacionadas a objetos y conceptos, expresados en la forma de nombres comunes (ver abajo).
  • También sabemos de Google que la API está basada en la misma tecnología que es usada en su algoritmo de búsqueda.

Descripción general del rendimiento de la API de PNL de Google


InLinks regularmente publica reportes de investigación sobre la habilidad de Google para detectar entidades. Aquí está el resumen:

Google's ability to detect entities (French)

Además del sector turístico, para el cual la API muestra una tasa de detección cercana al 50% (el cual está explicado por el gran número de lugares y puntos de interés que están presentes en el texto), notamos que, para la mayor parte de los sectores de la actividad analizada, la tasa de detección está por debajo del umbral del 25%, con un promedio para todos los sectores de 20.8%.

Los análisis en mercados de habla inglesa han llevado a una detección general aún más baja, aunque no se ha realizado ningún análisis en inglés en el sector turístico, con solo el sector inmobiliario alcanzando un umbral del 25%.

Google's ability to detect entities (English)

Ahora vamos a ir al corazón del asunto: indexar las entidades al nivel de página, luego al nivel de sitio.

Auditar entidades indexadas en una página

Para saber qué entidades han sido detectadas por Google en una página y cuáles entidades no, vamos a utilizar la herramienta de análisis directamente disponible en la página de inicio de InLinks. Esta herramienta compara los resultados de la API de Google con aquellas regresadas por la API de InLinks.

El ejemplo de abajo analizó el contenido de la página de inicio de un conocido software SEO.

Entities detected or missed by Google in a webpage

A primera vista, las 4 entidades detectadas por Google son bastante satisfactorias; sin embargo, muchas entidades importantes no fueron detectadas, incluyendo:

  • Software
  • Marketing de contenido  
  • Marketing de atracción
  • Así como una investigación de palabras clave (que se muestra más abajo en la línea de resultados)

Estas entidades son importantes porque hacen posible ya sea caracterizar el producto ofrecido en el sitio (Software), o para resaltar el uso del software.

Así que indexar las entidades en esta página es insuficiente y necesita ser reforzado.

Como se explica en la primera parte de la guía, sabemos que Google también usa factores off-page para indexar entidades. Por lo tanto, es importante conocer si estas entidades que faltan son detectadas al nivel global del sitio.

Auditar entidades indexadas al nivel del sitio

Al repetir la misma operación en las páginas principales del sitio (páginas que generan la mayoría del tráfico o páginas estratégicamente importantes en términos de la generación de ingresos), la compilación de los resultados permite obtener una vista general de las entidades no indexadas al nivel del sitio.

Aquí está el resultado de este análisis, realizado en las primeras 130 páginas que generan tráfico del mismo sitio que antes. Las entidades detectadas por Google están en un texto verde.

indexed entities at site level
Gráfica de conocimiento generada por Inlinks (a nivel de sitio) – Las entidades detectadas por Google están en verde, con el porcentaje de detección asociado

Las entidades detectadas por Google están en verde, con el porcentaje se detección asociado.

Al analizar los resultados, podemos ver que las entidades Content Marketing y Software no fueron detectadas al nivel del sitio. Por lo tanto, es necesario mejorar el indexado de esas dos entidades.

Por otro lado, algunas entidades importantes tampoco son detectadas. Este es particularmente el caso con las entidades Competitor Analysis (análisis de la competencia) o Local Search Engine Optimization (Optimización de Motores de Búsqueda para Entidades Locales), lo que representa casos de uso para este software. Aquí nuevamente, esta falta de detección requiere la implementación de acciones correctivas.

¿Cómo podemos mejorar la forma en la que Google detecta las entidades?

Para mejorar la detección de entidades por Google, esencialmente tenemos 3 posibilidades:

  1. La forma en la que está escrito el texto.
  2. Usar lenguaje de marcado para resaltar las entidades (schema.org)
  3. Factores Off-page (tener entidades indexadas en otras páginas del sitio)

Desde hace mucho ha sido claro que escribir para el lector y no para los motores de búsqueda, debe ser lo primero por hacer. Sin embargo, es interesante saber cuáles estilos tienen más posibilidades de ser entendidos por Google.

Enumeramos aquí varios consejos para promover la detección de entidades por parte de Google.

(Como recordatorio, las entidades detectadas por Google PLN son visibles a través de los enlaces de Wikipedia asociados con las palabras clave enumeradas)

¿Cómo puedes escribir para que Google te entienda?

Destacar la entidad principal de la página

Considera por ejemplo una página con la siguiente oración:

“Cuando horneo pan, amaso la masa”

Google no va a detectar ninguna entidad para esta oración (ningún enlace de Wikipedia está asociado con esas palabras).

Google NLP API results

Si ahora ponemos en mayúsculas las dos entidades principales:

“Cuando horneo Pan, amaso la Masa”

En este caso, Google va a identificar las entidades Pan y Masa (Presencia de enlaces de Wikipedia asociados con cada palabra).

Google NLP API results with words capitalized

El problema es que usar todo en mayúsculas puede no ser suficiente.

La API de Google depende especialmente del uso de mayúsculas. Sin embargo, poner mayúsculas en los temas importantes no es suficiente para asegurar la detección apropiada.

Por lo tanto, en la oración “Amasa la Masa antes de hornear Pan”, Google no va a detectar ninguna entidad.

Google NLP API results with words capitalized

Finalmente, ¿qué sucede al capitalizar cada palabra?

Cuando Yo Horneo Pan, Amaso La Masa.

El resultado es catastrófico: Google no va a ser capaz de distinguir entre las palabras importantes en el texto y las palabras secundarias, y ninguna otra entidad es detectada.

Google NLP API results with all words capitalized

Consejo n.° 1: Escribe las entidades principales en mayúsculas si es posible (aunque eso puede no ser suficiente) No uses letras mayúsculas en palabras secundarias (especialmente para los títulos).

Para maximizar la detección potencial de las entidades principales, también es necesario desarrollar su contexto.

Desarrolla el contexto alrededor de las entidades principales

Vamos a tomar el ejemplo francés en el campo de la joyería con el siguiente ejemplo, tomado de una página de categorías de un sitio mercantil.

Al enviar este texto tal como está a la API de Google, esta identifica 7 entidades que han sido traducidas al inglés para ti. (Necklace (Collar), Pendant (Colgante), Silver (Plata), Curb (Bordillo), Paladio (Paladio), Titanium (Titanio) y Tugngsten (Tungsteno)).

Podemos ver que la contribución del contexto termina permitiéndole a Google detectar correctamente la entidad Money (Dinero), que no ha sido capaz de detectar arriba.

Ahora, si enviamos el mismo texto a Google, pero una de las partes 1 a 4 han sido eliminadas, la API solo va a identificar una entidad individual: Gourmette.

Podemos obtener muchas lecciones de este ejemplo:

Proporcionar contexto es crucial para Google. En el ejemplo de arriba, 4 tipos de contexto son proporcionados:

  • Productos similares,
  • El material de los productos,
  • Los receptores de los productos (hombres, mujeres, etc.)
  • Las marcas de los productos.

Si solo uno de estos elementos contextuales hace falta, la capacidad de Google de detectar entidades de texto se reduce dramáticamente.

Finalmente, proporcionar contexto le permite a Google detectar las entidades para las palabras plurales.

Consejo n.° 2: añade entidades contextuales, enlazadas a tu entidad principal.

Desambigua las entidades esenciales del texto

Ahora vamos a tomar un ejemplo en inglés: esta es una página web que ofrece servicios SEO para dentistas en los Estados Unidos

 (sí, ¡los dentistas de allá tienen sitios web!)

Aquí está el resultado de la entidad de análisis para esta página. En azul, las primeras entidades detectadas por InLinks, en café, aquellas detectadas por Google.

Entity disambiguation in a text

Ya que el texto es de cerca de 1,500 palabras de largo y cubre la mayoría de los temas más importantes de SEO (investigación de palabras clave, marketing en línea, SEO local, redes sociales, etc.), el hecho es que Google no ha detectado ni la entidad de Search Engine Optimization, ni la entidad Dentista (para los dentistas).

¿Por qué este resultado desastroso cuando el editor de la página se encargó de desarrollar el contexto en torno a todas las actividades relacionadas con el SEO?

La razón es simple: la página trata dos temas separados, SEO y odontología. Para Google, estos dos temas tienen poco que ver entre ellos y el algoritmo de procesamiento de lenguaje natural y termina por no entender nada.

Ahora bien, si tomamos el mismo texto y eliminamos todas las apariciones de la palabra dental, ¿qué sucede? Google ahora detecta la entidad SEO. Por lo tanto, es la influencia de la palabra dental la que evita que Google entienda completamente el significado de la página.

Obviamente esto no es posible en una página de este tipo para borrar una palabra tan importante, así que ¿Qué hacemos?

La solución: desambigua explícitamente las entidades importantes del texto. 

Por ejemplo, simplemente agregando la oración al final del texto: SEO significa Search Engine Optimization (en inglés por supuesto), Google detectará correctamente la entidad correspondiente.

Desafortunadamente, este truco no funciona para todos los tipos de entidades (especialmente dentistas). Entonces es necesario recurrir a una desambiguación a través de Schema.org, que veremos más adelante.

Consejo n.° 3: Los textos que tratan varios temas diferentes dentro de la misma página tendrán más dificultades para ser «comprendidos» por los motores de búsqueda que los textos que se centran en un solo tema

Usa Schema.org para declarar las entidades principales de una página

Acabamos de ver que puede ser realmente difícil hacer que Google detecte correctamente las entidades de un texto confiando únicamente en la calidad editorial. En caso de falta de contexto, de la multiplicidad de temas tratados en la página, o incluso de la presencia o ausencia de determinadas palabras, la capacidad de detección de Google puede variar considerablemente.

Afortunadamente, hay una solución milagrosa para declarar entidades importantes del contenido web: es Schema.org

Schema.org for declaring main entities in a text

Este tipo de Schema usa dos etiquetas particulares:

  • la etiqueta Acerca de, que te permite declarar las entidades principales del texto (típicamente aquellas que se encuentran en el título de la página)
  • la etiqueta de Menciones, que te permite declarar entidades secundarias, a aquellas que aparecen en los primeros párrafos, o que son significativas en relación al resto del sitio.

En cada etiqueta será así posible especificar, para cada palabra importante, la entidad que le corresponde, utilizando el enlace de Wikipedia correspondiente.

De esta forma, los motores de búsqueda (y particularmente Google) va a saber exactamente cuáles son las entidades importantes en la página y de esta manera indexarlas mejor y categorizarlas.

Consejo n.° 4: para asegurar la indexación de entidades por Google, usa Schema.org con las etiquetas Acerca de y Menciones en las páginas más importantes de tu sitio.

Para más información sobre cómo configurar este marcado (configuración que puede ser completamente automatizada por InLinks), el siguiente artículo te va a dar una vista general de los beneficios SEO: https://inlinks.com/help/case-study-does-webpage-schema-about-mentions-improve-rankings/

Conclusión

¿Cómo escribir contenido SEO para optimizar la detección de entidades?

  1. Si es posible, pon en mayúscula tus entidades principales (aunque esto puede no ser suficiente). No uses las mayúsculas en tus palabras secundarias (especialmente para los títulos).
  2. Añade entidades contextuales, enlazadas a tu entidad principal.
  3. Los textos que tratan de temas diferentes en la misma página van a tener más dificultad para ser “entendidos” por los motores de búsqueda que textos que solo se enfocan en un tema individual.
  4. Para asegurar el indexado de tus entidades, usa Schema.org con las etiquetas Acerca y Menciones en las páginas más importantes de tu sitio.
  5. Usa Inlinks.net para automatizar y facilitar este proceso.

REVISA ESTO EN @INLINKSNET

Share this entry

Category

Replies

0 comentarios

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *