Resumen:

Los motores de búsqueda modernos pueden derivar ideas a través de múltiples documentos de forma instantánea. Los sistemas de catalogación han avanzado con los años hacia los resultados de búsqueda de los “10 enlaces azules” y ahora en cierto modo se han movido a un formato más enciclopédico. De alguna manera, los métodos de recuperación han completado el círculo.

El viaje desde los Directorios hasta la Búsqueda Semántica

Antes cuando todos utilizábamos las bibliotecas del mundo real un poco más (esas bibliotecas aún siguen ahí, eran lugares muy pacíficos para trabajar, lejos de la sección infantil), ¿Cómo buscaba el bibliotecario un libro cuando se lo pedías? Invariablemente tenían un sistema de catalogación. En mi juventud, este era un Sistema basado en tarjeras, que estaba basado en números. El día de hoy todavía vemos los libros de la biblioteca con un número de catálogo pegado en la parte posterior.

Cuando comenzó el Internet, Jerry Yang y David Filo pensaron que alguien debería comenzar a hacer la misma cosa con sitios web y de esa manera crearon el directorio de YAHOO. Esta era una lista de sitios web seleccionada manualmente, con un pequeño resumen del propósito de cada sitio y una categoría jerárquica. Comparado con los estándares modernos, no era sofisticada, pero en algún momento Yahoo! era el negocio en línea más valioso en el mundo. Dos variaciones populares del modelo eran Looksmart, que era utilizado por Microsoft y el Proyecto Directorio Abierto, que era una variación de Fuente abierta que puede ser utilizado por cualquier motor de búsqueda, (más tarde se incluiría Google).

La forma de competir con esta idea de catalogar los sitios web fue el concepto de “búsqueda del texto completo”, que fue lidereado por AltaVista e infinidad de otras empresas (incluyendo un valioso esfuerzo por Yahoo!) pero que finalmente ganó Google en occidente, Baidu en China y Yandex en Rusia. La búsqueda del texto completo ofrecía más esperanza, ya que entregaba todo en un mismo lugar. La curación del sitio Web era lenta y se hacía de forma manual. ¡Todos los contenidos del sitio web tenían que ser explicados en pocas frases! Tal como un Sistema de catalogación en la biblioteca local. La búsqueda de texto completo, por otro lado, no necesitaba una intervención manual y cada PÁGINA podría ser una entidad separada en el índice. Eso permitió un índice global más grande. Las bases de conocimiento son, hasta cierto punto, un regreso a las formas antiguas de hacer las cosas. Vamos a regresar a este argumento después, pero primero vamos a explorar las diferencias entre indexación por catálogo o basada en directorio y una indexación basada en texto y luego profundizaremos en algunos de los conceptos detrás del indexado basado en texto. Los expertos en SEO hambrientos de tiempo que ya sabían la búsqueda basada en texto pueden elegir brincarse la siguiente sección.

Búsqueda basada en directorios vs búsqueda basada en textos

Había algunas ventajas de ambas aproximaciones a la indexación de la web. Aún las hay. A final de cuentas, el enfoque basado en texto ganó apenas recientemente. Conforme la red continúa creciendo, sin embargo, la misión de Google de “organizar la información del mundo” se ha topado con varias barreras nuevas. Dado que hay más páginas en Internet sobre cualquier tema dado que las que nadie puede leer, ¿Qué sentido tiene que Google continuamente trate de recopilar la información y ordenarla, si nadie nunca ve más allá de la primera página de resultados? Incluso si los recursos de Google son finitos, e incluso si no lo fueran, los recursos del planeta SON finitos. Puede que te sorprenda saber que un sitio web de energía ha estimado que la energía que se necesita para impulsar las búsquedas de Google es casi la misma que la energía que consumen 200,000 hogares. Statista reporta que Google utiliza 4 veces más energía, por lo que se estará aproximando a un millón para el siguiente año si algo no cambia! Google podría sostener esto comprando energía renovable hasta cierto punto. Aun así, la ley de Moore, que sugería que los microchips continuarían siendo cada vez más y más rápidos ha alcanzado una barrera tanto física como económica. Las computadoras cuánticas pueden llenar este vacío, pero por ahora, ningún motor de búsqueda necesita hacer compromisos.

Pero hasta este punto de crisis, la búsqueda de texto completo estaba acabando la búsqueda curada por humanos. Para alcanzar resultados de calidad para los usuarios en la búsqueda de texto completo, los motores de búsqueda necesitan cambiar las cadenas de texto (que son notoriamente difíciles para que las máquinas lo analicen) a conceptos matemáticos y numéricos, que pueden ser fácilmente clasificados o calificados, listos para el momento en que los usuarios necesitan respuestas a sus solicitudes de búsquedas. El proceso avanza en algo como esto:

Fase de rastreo y descubrimiento

La mayoría de los motores de búsqueda descubren contenido rastreándolo, aunque el rastreo tradicional está lejos de ser la única forma en la que los motores de búsqueda pueden ingerir contenido. De acuerdo con Incapsula (ahora Impervia), la mayoría del tráfico web viene de los bots. Esto no solo es Google y Bing. Rastreadores distribuidos como Majestic (donde yo solía ser director) un motor de búsqueda especializado analiza los enlaces ENTRE sitios web, rastrea más rápido que Bing. Discutí esto una vez con un amigo en Microsoft y dijo que uno de los objetivos de Microsoft era reducir la necesidad de rastrear por completo. No sé qué tan cierto sea esto, pero ciertamente, en este punto, el rastreo web es la forma principal en la que los motores de búsqueda ingieren texto. También es la forma principal en la que descubren nuevos URLs y contenido para alimentar estos rastreadores insaciables porque rastrear una página revela enlaces a nuevas páginas, que pueden ser colocados en un sistema de filas para el siguiente rastreo. El descubrimiento también viene en muchas otras formas. Los mapas de sitio son muy útiles para Google y hacen fácil para los dueños de los sitios web enviar mapas directamente a Google a través de la “Consola de búsqueda para Webmaster”. También pueden cortar esquinas viendo las fuentes de noticias o las fuentes RSS que se actualizan conforme el contenido del sitio web se actualiza.

Rastrar a escala fue relativamente eficiente durante muchos años. El bot simplemente podía tomar el HTML de la página y alguna otra metadata y procesar el texto en la página en un punto posterior. Sin embargo, la tecnología nunca se detiene y first frames, luego iFrames, luego CSS y luego Javascript comenzaron a añadir complejidad a este proceso. Javascript, de forma particular, crea una enorme sobrecarga que los motores de búsqueda tienen que procesar. El contenido entregado por Javascript está renderizado en el lado del cliente. Es decir, tu propia PC o laptop o teléfono utiliza algo de su CPU para hacer que la página web aparezca de la forma en que lo hace. Para un rastreador web leer cada página en internet es una cosa. Rastrearla Y entender  Javascript al mismo tiempo alentaría a los rastreadores a una velocidad tal que el rastreado no escalaría. Por lo tanto, Google introdujo cuatro pasos al proceso de indexado.

Retos de Javascript

Actualmente Google parece liderear la carga de analizar Javascript y ciertamente han mejorado de manera significativa durante los años recientes. Sin embargo, la sobrecarga informática que se requiere es inmensa, el procesamiento tiene que llevarse a cabo varias semanas después del rastreo inicial y se tienen que hacer compromisos significativos. Martin Splitt, de Google, ejecuta muchos videos excelentes alrededor de este reto.

Convertir texto a conceptos matemáticos

Ahora volvemos al corazón de la búsqueda de texto completo. Los SEOs tienden a habitar en la parte indexada de la búsqueda o la parte de la recuperación de la búsqueda, llamada Páginas de Resultados de los Motores de Búsqueda (SERPs, por sus siglas en inglés). Creo que hacen esto porque pueden ver estas partes de la búsqueda. Pueden decir si sus páginas han sido rastreadas, o si aparecen. Lo que tienden a hacer es ignorar la caja negra a la mitad. La parte donde un motor de búsqueda toma esos montones de palabras y las pone en un índice de forma que permite una entrega instantánea. Al mismo tiempo, son capaces de combinar resultados de texto con videos, imágenes y otros tipos de información en un proceso conocido como “Búsqueda Universal”. Esto es centro del asunto y si bien este libro no intentará cubrir todos estos temas complejos, vamos a ir a un gran número de algoritmos que utilizan los motores de búsqueda. Espero que estas explicaciones de algoritmos que algunas veces son complejas, pero en su mayoría iterativos, atraigan al especialista en marketing que llevas dentro y no desafíen demasiado tus habilidades matemáticas. Si quieres ver estas ideas en un video, recomiendo altamente un video de Peter Norvig de Google en 2011: https://www.youtube.com/watch?v=yvDCzhbjYWs

Bolsa continua de palabras (COBW) y nGrams

Este es un gran algoritmo para comenzar porque es fácil de visualizar. Imagina una computadora leyendo palabras a una velocidad vertiginosa. Lee una palabra en una página, luego la siguiente, luego la siguiente. Para cada palabra que lee, inicialmente hace una decisión:

Decisión: ¿Esta palabra es potencialmente importante?

Hace una determinación aquí eliminando todas palabras muy comunes como “un”, “eso”, “como”. Hace esto revisando contra una lista (curada) de palabras de STOP.

Decisión: ¿Es la variante correcta?

Al mismo tiempo que se decide si debe omitir una palabra, puede cambiar la palabra ligeramente, removiendo la “s” de “herraduras” o haciendo coincidir las palabras en mayúscula con variantes sin mayúsculas. En corto, agrega diferentes variantes a una forma. Vamos a regresar a esto cuando hablemos sobre las entidades porque no hay mucha diferencia entre “basura”, “desperdicio” y “sobras”.

Luego el sistema simplemente cuenta las palabras. Cada vez que ve la palabra “Herradura” añade 1 al número total de veces que ha visto la palabra herradura en Internet y añade 1 al número de veces que lo ve en la página que está viendo actualmente. Técnicamente, los expertos en recuperación de la información llaman a las páginas “documentos”, principalmente debido a razones históricas antes de que el Internet existiera, pero posiblemente en parte ¡solo para hacer que nosotros los mortales nos sintiéramos inferiores!

Ahora el motor de búsqueda puede ver fácilmente que un buscador busca la palabra “herradura” y puede encontrar una página con la palabra más densamente mencionada en ella. Esta es una forma muy MALA de construir un motor de búsqueda porque una página que solo envíe Spam con la palabra herradura aparecería en la parte superior, en lugar de una que habla sobre herraduras, pero vamos a lidiar con este tipo de spam cuando hablemos de PageRank y otras herramientas de clasificación. Sin embargo, es una GRAN manera, de almacenar todas las palabras en el Internet de forma eficiente. Ya sea que la palabra se utilice una vez o un millón de veces, la cantidad de almacenamiento necesario es más o menos la misma y solo se incrementa por el número de páginas en Internet. (Los expertos en recuperación de información llaman parcialmente al Internet como el “cuerpo” de “documentos” … en parte debido a razones históricas, pero ahora estoy comenzando a pensar que lo hacen a por un sentido pasivo agresivo de intelectualismo. Ustedes juzguen por su cuenta).

Este sistema se vuelve mucho más útil cuando el rastreador comienza a contar palabras que están juntas, llamadas n-grams. El rastreador puede contar el número de frases para varias palabras, después de eliminar primero palabras vacías y seleccionar la variante dominante de cada palabra. Google fue muy lejos en el 2006 al publicar un conjunto de datos de n-grams de 13 millones de palabras, que se muestran en la conferencia de Peter Norvig y está disponible para descargar.

  • Número de oraciones:    95,119,665,584
  • Número de unigrams:         13,588,391
  • Número de bigrams:         314,843,401
  • Número de trigrams:        977,069,902
  • Número fourgrams:     1,313,818,354
  • Número fivegrams:     1,176,470,663

Ahora podemos deducir grandes cantidades de información a partir de esta información. Google sabe que la frase “the quick fox” es mucho más común en internet que “the clever fox”. No sabe por qué, pero no necesita saberlo, solo necesita regresar páginas relevantes para “the quick fox” cuando una persona busca esto. Si no estás seguro(a) de por qué es más probable que un zorro sea más “rápido” que “astuto”, es porque esto forma parte de la famosa oración que utiliza todas las letras del alfabeto, lo que la hace idea para enseñar a escribir en un teclado QWERTY.

Imagen 1: También puedes revisar el uso. La línea azul es «The quick fox» mientras que el rojo es «The clever fox».

Un motor de búsqueda puede buscar las veces que aparecen las palabras de la búsqueda, tanto de forma individual como en grupo – aparecen en una página. Dejando de lado el spam, hay infinidad de formas para calificar cada documento por esta frase. ¡Así nace un motor de búsqueda!

Vectores

Hay otra revelación aquí. Al haber visto que “the quick fox” es mucho más popular como una frase en internet que “the clever fox”, también podemos deducir que la palabra “quick” está semánticamente más cerca de la palabra “fox” que de “clever”. Hay muchos algoritmos como “Word2Vec” que utilizan este tipo de intuición para mapear palabras con base en su “proximidad”. “Rey y Reina” terminan cerca, aunque “rey y zorro” terminan muy separados. Para leer más sobre este tema, busca “Modelos de Espacio Vectorial“.

El movimiento al marcado semántico

Al añadir el Marcado Semántico a páginas, Google y otros motores de búsqueda pueden acortar los algoritmos que necesitan para convertir las palabras en conceptos. Puedes ayudar a explicar el contenido de forma que las máquinas puedan digerirlo y leerlo. Sin embargo, por su cuenta, sería muy fácil para el contenido abusar de este sistema. La gráfica de conocimiento necesita solo aumentar la información que ya tiene cuando tiene confianza que las recomendaciones en el marcado semántico son válidas. Si los motores de búsqueda hacen esto mal, entonces el Marcado Semántico sería un poco más efectivo que “los viejos días del SEO” con todo y sus palabras clave.

¡Para hacer esto, los motores de búsqueda todavía necesitan confiar en los seres humanos! La Gráfica del conocimiento comenzó con un conjunto de datos seleccionados por humanos.

Conjuntos de semillas de confianza: ¡un directorio glorificado!

Comenzamos el trayecto de búsqueda discutiendo cómo los directorios web dirigidos por humanos como Yahoo! Directory y el Open Directory Project fueron superados por las búsquedas de texto completo. El movimiento a la búsqueda semántica, sin embargo, es una combinación de dos ideas. En su corazón, el conocimiento basado en Google extrapola ideas desde las páginas web y aumenta su base de datos. Sin embargo, el conjunto de datos inicial es capacitado usando “conjuntos de semillas confiables”. La más visible de estas es la fundación Wikipedia. Wikipedia está curado por humanos y si algo está listado en Wikipedia, está casi siempre listado como una entidad en la Gráfica de conocimiento de Google.

Esto significa que toda la integridad del enfoque de búsqueda basado en Entidades se depende en la integridad y la autenticidad de esos voluntarios (usualmente sin pago) curando contenido Wikipedia. Esto produce retos de tanto la escala como la ética que, son discutidos por el autor aquí.

Así que en relación con la Gráfica del Conocimiento es el antiguo directorio web que cierra el círculo. El directorio original usó una estructura en forma de árbol para dar el directorio y la ontología, mientras que la Gráfica de Conocimiento es más fluida en su ontología. Además, la unidad más pequeña de una estructura de directorio era en realidad una página web (o más a menudo un sitio web) mientras que la unidad más pequeña de un gráfico de conocimiento es una entidad que puede aparecer en muchas páginas, pero ambas ideas de hecho provienen de humanos que toman las decisiones iniciales.

Esto nos lleva a lo que Google considera una entidad y qué es lo que no. Claramente, saberlo es importante si vamos a comenzar a “optimizar” SEO semántico.