Patente de Google Sobre Datos Estructurados JSON-LD

Los datos estructurados son información que se presentan de una manera que facilitan la lectura de un motor de búsqueda. Algunos ejemplos incluyen el marcado XML en los sitemaps XML y el vocabulario de esquema que se encuentra en los scripts JSON-LD.

Búsqueda mediante datos estructurados

Un motor de búsqueda (Search Engine) responde a preguntas basadas en el rastreo y la indexación de hechos encontrados dentro de datos estructurados en un sitio y funcionan de manera diferente a un motor de búsqueda que mira las palabras utilizadas en una consulta y trata de devolver documentos que contienen las mismas palabras que las que aparecen en la consulta, con la esperanza de que tal coincidencia de cadenas pueda contener una respuesta real a la necesidad de información que inspiró la consulta en primer lugar. La búsqueda con datos estructurados funciona de manera un poco diferente, como se ve en este diagrama de flujo de una patente de Google:

Google Datos Estructurados JSON-LD

El Primer Invento de Búsqueda Semántica de Google fue Patentado en 1999. Esa patente y algoritmo describían cómo se podía rastrear la web para recopilar información sobre patrones y relaciones sobre hechos específicos. En la patente de Google sobre datos estructurados, vemos cómo Google podría buscar información fáctica contenida en datos semiestructurados como JSON-LD, para poder responder a preguntas sobre hechos como “Qué es un libro, de Ernest Hemingway, publicado en 1948-1952”.

Esta nueva patente nos dice que podría resolver la búsqueda de libros de esta manera:

En particular, para cada elemento de datos codificado asociado a un determinado esquema identificado, el sistema busca en las ubicaciones del elemento de datos codificado identificado por el esquema como valores de almacenamiento de las claves especificadas para identificar los elementos de datos codificados que almacenan valores para las claves especificadas que cumplen los requisitos especificados en la consulta.

Por ejemplo, si la consulta se refiere a elementos de datos semiestructurados que tienen un valor “Ernest Hemingway” para una clave de “autor” y que tienen valores en un rango de “1948-1952” para una clave de “año de publicación”, el sistema puede identificar los elementos de datos codificados que almacenan un valor correspondiente a “Ernest Hemingway” en la ubicación identificada en el esquema asociado con el elemento de datos codificado como almacenando el valor de la clave “autor” y que almacenan un valor comprendido entre “1948 y 1952” en la ubicación identificada en el esquema asociado con el elemento de datos codificado como almacenando el valor de la clave “año de publicación”. Así, el sistema puede identificar los elementos de datos codificados que satisfacen la consulta de manera eficiente, es decir, sin buscar elementos de datos codificados que no incluyan valores para cada clave especificada en la consulta recibida y sin buscar ubicaciones en los elementos de datos codificados que no estén identificados como valores de almacenamiento para las claves especificadas.

Datos estructurados y JSON-LD

Fue interesante ver a Google patentar la búsqueda de datos semiestructurados centrados en el uso de JSON-LD. Los vemos proporcionando un ejemplo de JSON en una de las páginas de Google Developer en Introduction to Structured Data

Como nos dice en esa página:
Esta documentación describe qué campos son obligatorios, recomendados u opcionales para los datos estructurados con un significado especial para Google Search. La mayoría de los datos estructurados de búsqueda utilizan el vocabulario de schema.org, pero debes confiar en la documentación de developers.google.com como definitiva para el comportamiento de Google Search, en lugar de en la documentación de schema.org. Los atributos u objetos no descritos aquí no son necesarios para la Búsqueda de Google, incluso si están marcados como lo requiere schema.org.

A continuación, la página nos indica la Herramienta de pruebas de datos estructurados, que se utilizará al preparar las páginas para su uso con datos estructurados. También nos dice que para comprobar los datos estructurados una vez configurados, el informe de datos estructurados de la Consola de búsqueda de Google puede ser útil, y es lo que suelo tener en cuenta cuando realizo auditorías de sitios web.

Se han añadido muchos ejemplos de JSON-LD al sitio web Schema.org, y fue interesante ver que esta patente se centra en él. Como nos dicen en la patente, parece que les gusta:

Los datos semiestructurados son datos autodescriptivos que no se ajustan a un formato estático y predefinido. Por ejemplo, un formato de datos semiestructurado es JavaScript Object Notation (JSON). Un elemento de datos JSON generalmente incluye uno o más objetos JSON, es decir, uno o más conjuntos no ordenados de pares clave/valor. Otro ejemplo de formato de datos semiestructurado es Extensible Markup Language (XML). Un elemento de datos XML generalmente incluye uno o más elementos XML que definen valores para una o más claves.

Extracción de datos legible por máquina

He utilizado la analogía de cómo los sitemaps XML son legibles por máquina, comparados con los HTML Sitemaps, y así es como JSON-LD muestra los hechos de forma legible por máquina en un sitio, a diferencia del contenido que está en formato HTML. Como nos dice la patente, ese es el propósito de esta patente:

En general, esta especificación describe técnicas para extraer datos de colecciones de documentos.

La patente discute los esquemas que podrían estar en un sitio, y los pares clave/valor que podrían buscarse, y los detalles sobre dicha búsqueda de datos semiestructurados en un sitio:

El aspecto incluye además la recepción de una consulta de elementos de datos semiestructurados, en la que la consulta especifica los requisitos para los valores de una o más claves; la identificación de esquemas a partir de la pluralidad de esquemas que identifican ubicaciones para valores correspondientes a cada una de las claves; la búsqueda de los elementos de datos codificados asociados con el esquema para identificar elementos de datos codificados que satisfacen la consulta; y el suministro de valores de identificación de datos a partir de los elementos de datos codificados que satisfacen la consulta en respuesta a la consulta. La búsqueda de los elementos de datos codificados asociados con el esquema incluye: buscar, para cada elemento de datos codificado asociado con el esquema, las ubicaciones en el elemento de datos codificado identificado por el esquema como valores de almacenamiento para las claves especificadas para identificar si el elemento de datos codificado almacena valores para las claves especificadas que satisfacen los requisitos especificados en la consulta.

La patente que proporciona detalles del uso de JSON-LD para proporcionar un conjunto de datos legibles por máquina sobre un sitio se puede encontrar aquí:

Almacenamiento de datos semiestructurados
Inventores: Martin Probst
Cesionario: Google Inc.
Patente de EE.UU.: 9,754,048
Concedido: 5 de septiembre de 2017
Archivado: 6 de octubre de 2014

Resumen

Métodos, sistemas y aparatos, incluidos los programas informáticos codificados en soportes informáticos de almacenamiento, para el almacenamiento de datos semiestructurados. Uno de los métodos incluye el mantenimiento de una pluralidad de esquemas; la recepción de un primer elemento de datos semiestructurado; la determinación de que el primer elemento de datos semiestructurado no coincide con ninguno de los esquemas de la pluralidad de esquemas; y en respuesta a la determinación de que el primer elemento de datos semiestructurado no coincide con ninguno de los esquemas de la pluralidad de esquemas: generar un nuevo esquema, codificar el primer elemento de datos semiestructurado en el primer formato de datos para generar el primer nuevo elemento de datos codificado de acuerdo con el nuevo esquema, almacenar el primer nuevo elemento de datos codificado en el depósito de elementos de datos y asociar el primer nuevo elemento de datos codificado al nuevo esquema.

Eliminar el uso de datos estructurados

Mediante el uso de Datos estructurados, como en el Vocabulario de esquema en formato JSON-LD, se asegura de proporcionar datos precisos en pares clave/valor que proporcionan una alternativa al contenido basado en HTML en las páginas de un sitio. Asegúrate de seguir las Directrices generales de datos estructurados de Google cuando las añadas a un sitio. Esa página nos dice que las páginas que no siguen las directrices pueden no ser tan altas, o pueden llegar a ser inelegibles para los resultados ricos que aparecen para ellos en los SERPs de Google.

Y si estás optimizando un sitio para Google, también ayuda a optimizar el mismo sitio para Bing, y es bueno ver que a Bing también parece gustarle JSON-LD. Le ha tomado un tiempo a Bing hacer eso. Parece que Bing ha escuchado un poco, añadiendo algo de capacidad para chequear a JSON-LD después de ser desplegado: Bing anuncia que Bing AMP Viewer y JSON-LD son compatibles con las Herramientas para webmasters de Bing. El Validador de marcas de verificación de Bing todavía no ayuda con JSON-LD, pero las Herramientas para webmasters de Bing ahora ayudan a depurar JSON-LD.