Monográfico en ‘BID’ sobre webs de datos y grafos de conocimiento

Miquel Centelles Velilla

Universidad de Barcelona

ORCID: https://orcid.org/0000-0003-1739-4889

EXIT: https://www.directorioexit.info/ficha292

DOI: https://doi.org/10.1344/BID2023.51.09

Hace ahora más de veinte años que el World Wide Web Consortium (W3C) impulsó su visión y programa de la web semántica, con el objetivo de proporcionar a los sistemas automáticos metadatos procesables de manera automática sobre los datos y la información que se publica en la web. El reto de sistemas automáticos capaces de interpretar semánticamente los datos y de generar procesos autónomamente, basados en esta capacidad, se divisaba como una revolución definitiva en internet. Pasados estos veinte años, las tecnologías y los estándares que se han desarrollado en el marco de este programa, y que conformaban el mítico conjunto o pastel de capas de la web semántica, han experimentado un grado de desarrollo desigual.

Algunas tecnologías se han consolidado y han impactado en múltiples áreas de actividad y especialidad. Es el caso de los identificadores únicos/internacionales de recursos (URI/IRI) —preexistentes a la web semántica—, de determinados formatos de serialización, por ejemplo, JSON-LD, o las ontologías vinculadas, por ejemplo, a esquemas de metadatos y a grafos de conocimiento. Finalmente, hay un grupo de tecnologías situadas en lo alto del montón o del pastel, como Confianza o Trust (vinculado a afirmaciones verificables sobre la identidad, la procedencia del contenido y cuestiones relacionadas) y Prueba o Proof of work (que proporciona una base flexible para la Confianza), que si bien hasta ahora han sido postergadas, pueden obtener su rehabilitación en el contexto de la Web3.

El modelo de datos RDF, clave de bóveda de la visión de la web semántica, ha tenido que asumir la competencia con otros modelos dentro y fuera del ámbito orientado a grafos. No han salido bien los intentos de suavización, con un guiño a los desarrolladores, con iniciativas como EasyRDF, pero sí que ha sabido compartir, sin complejos, espacios de desarrollo con su competencia en el marco de los modelos orientados a grafos, como los grafos de propiedades (Neo4J), o incluso del tradicional modelo relacional. En el contexto de los datos estructurados, un formato vinculado a la web semántica, JSON-LD, aliado con el vocabulario Schema.org, se está imponiendo como vehículo para incrustar metadatos que describen productos, personas, organizaciones, lugares y eventos en las páginas HTML. Así lo testimonia la evolución del número total de dominios de nivel de pago (PLD) que recogen Bizer et al. (2023), donde JSON-LD se ha impuesto desde hace años como formato preferido (frente a Microdata, Microformato hCard) y ha compensado el descenso progresivo de RDFa. JSON-LD aporta beneficios destacables en SEO, y además los desarrolladores pueden reutilizar las mismas estructuras de datos para crear nuevos widgets de interfaz de usuario de recepción, así como alimentar los rastreadores de los motores de búsqueda con los metadatos que describen el significado exacto del contenido de las páginas.

En diferentes momentos de su evolución, los autores que han analizado el estado de desarrollo de la web semántica han destacado que los productos y los servicios se mantienen, excesivamente, en el reducto del laboratorio. La percepción de los motivos de este complejo ha evolucionado con el paso del tiempo. Por ejemplo, pocos años después de su nacimiento, Tjoa et al. (2005, p. 1163) indicaban:

«[…] it should be mentioned that the Semantic Web might not promise a quick return-on-investment for those formatting their data to suit the Semantic Web».

En cambio, más recientemente, Hassan et al. (2015, p. 14587) atribuían una excesiva sumisión a postulados de datos abiertos, lo cual dificultaba su adopción por parte de las que denominaban killer applications.

La panorámica entera, aun así, nos permite identificar múltiples casos de éxito.

La publicación de datos enlazados, iniciada en 2006, ha tenido una gran repercusión en el ecosistema de los datos abiertos en todos los dominios del conocimiento, puesto que cumplen con el esquema de cinco estrellas. Consiste en un conjunto (ya bastante grande) de grafos RDF que están vinculados en el sentido de que muchos identificadores IRI en los grafos también aparecen en otros, a veces múltiples, grafos. En cierto modo, la colección de todos estos grafos RDF vinculados se puede entender como un solo grafo RDF muy grande. Los proveedores de los datos facilitan la consulta mediante puntos de acceso SPARQL. En el momento actual, el sitio web Linked Open Data Cloud, que recoge conjuntos de datos que se han publicado en el formato de datos enlazados, contiene 1.314 conjuntos de datos con 16.308 enlaces que los vinculan.

Una posición central en la publicación de datos enlazados lo ocupan Dbpedia y Wikidata. La segunda es la base de datos secundaria y distribuida más grande y más utilizada en el mundo. Algunas decisiones fundamentales sobre su arquitectura se basaron en los estándares de la web semántica y, a pesar de las diferencias finales, la interoperabilidad entre Wikidata y los conjuntos de datos RDF está perfectamente asegurada. En el momento actual, sus dimensiones impresionan: 565.000 editores registrados, 359 bots, 1.440 millones de declaraciones, 101 millones de elementos, 10.800 propiedades y 420 millones de visualizaciones mensuales de datos sobre los elementos descritos. Por medio de su servicio de consultas basado en SPARQL, Wikidata da respuesta a 3,8 millones de consultas en el día, 44 por segundo. Aun así, no son las dimensiones de Wikidata el único aspecto de interés para sus promotores. Este conjunto de datos está inmerso en un proceso de mejora de la calidad del servicio de búsqueda que, como no podía ser de otro modo, afecta profundamente a la mejora de los datos y de la ontología que las dota de significado. También facilita el acercamiento a las tecnologías de la web semántica e incorpora componentes lógicos para la creación y validación de grafos RDF, como SHACL.

En el contexto de la investigación, la creación y la publicación de datos abiertos enlazados han recibido el impulso de los principios FAIR (hallable, accesible, interoperable y reutilizable). En su aplicación, la mayoría de los principios de interoperabilidad y de reutilización se pueden tratar con tecnologías estándar de la web semántica ya establecidas. Esta aplicación se ha ampliado a otros componentes del universo FAIR, como las herramientas semiautomáticas de verificación del cumplimiento de los principios, por ejemplo, FAIR-Checker, descrito por Gaignard et al. (2023).

La mejora de los sistemas de acceso a la información también ha sido un ámbito de bastante implicación de las tecnologías y de los estándares de la web semántica.

En algunos contextos, como el jurídico, la implementación de los lenguajes y de las tecnologías exitosas ha dado muestras de trabajo coordinado a escala internacional y de resultados que han transcendido los límites del laboratorio y del beta constante. Es el caso, por ejemplo, del Identificador Europeo de Legislación (ELI), un sistema de acceso en línea a la legislación en el contexto de la Unión Europea que impulsa el desarrollo de servicios de información críticos para los ciudadanos de este milenio. Se trata de un proceso ordenado de implementación basada en cuatro pilares: los identificadores, la ontología y los metadatos, la publicación de datos y, desde 2023, la sincronización de metadatos. La compatibilidad con este último pilar impone a los proveedores de ELI el ofrecimiento de dos canales de sindicación de contenidos: ELI Sitemap y ELI Atom feed (ELI TF, 2022).

También muchas bibliotecas nacionales han transformado sus datos catalográficos y de autoridades en el modelo RDF, para ofrecerlas como datos abiertos. Son ejemplos de ello el ID.LOC.GOV: Linked Data Service y Datos.bne.es. Este segundo proyecto fue impulsado principalmente a partir del marco legal de la UE establecido en 2015 sobre reutilización de los datos de la Administración pública. Un hecho relevante es que la adaptación del modelo de datos a los estándares de la web semántica no atiende solo a la arquitectura de los datos, sino principalmente a la interacción de los usuarios con los recursos de información. Es aquí donde tiene un papel muy relevante el vínculo de los datos propios de la BNE con bases de datos externas, como Wikidata, en una relación simbiótica de crecimiento mutuo.

Las ontologías, que en el marco de la web semántica, y más específicamente de la especificación OWL 2, se definen como una descripción formal de un dominio de interés formada por entidades, expresiones y axiomas, han formado parte de los proyectos de acceso a la información que hemos visto anteriormente, y han tenido una especial incidencia en el dominio de la biomedicina, como SNOMED-CT y Gene Ontology. Más recientemente, las ontologías se han integrado en un ecosistema de generación y publicación de datos semánticamente enriquecidos, como los grafos de conocimiento. Estos artefactos incorporan recursos individuales expresados en RDF, representados semánticamente por medio de clases de una o más ontologías y relacionados mediante propiedades de las mismas ontologías. La búsqueda por los datos es posible gracias a servicios SPARQL y por la aplicación de razonadores automáticos para generar inferencia y validar la consistencia. El desarrollo de grafos de conocimiento en entornos institucionales y empresariales implica un reto para principios fundacionales, como los datos abiertos y una mejora de las funcionalidades de los sistemas de inteligencia artificial, de los sistemas de recomendación, de los sistemas de preguntas y respuestas y de las herramientas de recuperación de información. El informe de última hora Knowledge Graph Industry Survey Report: Data and Analysis on Industry Maturity (2022) muestra que la mayoría de los encuestados en el estudio todavía están en la etapa experimental de su viaje, y, una vez más, hay reticencias por parte de senior stakeholders que exigen resultados inmediatos. Los casos de uso inicial se relacionan más con actividades asociadas a la ordenación de la casa de datos en forma de integración de datos, la agregación entre fuentes diversas y la aplicación de normas de calidad de datos.

¿Es posible entrever una «tercera vida» para las tecnologías de la web semántica? Actualmente, se está produciendo lo que Seneviratne y McGuinness (2023) describen como una «convergencia sinergética» entre, por un lado, las tecnologías semánticas, que han dado lugar a la Web 3.0, y, por otro lado, las tecnologías de cadenas de bloques, que han catalizado el próspero ecosistema Web3. El uso de vocabularios y de ontologías estandarizados permite la interoperabilidad entre nodos de las cadenas de bloques, promueve la confianza y minimiza los errores en el intercambio de conocimiento.

A pesar de los beneficios que se pronostican, los retos y las dudas todavía están latentes y hay acusaciones de «palabra de moda» o de «término de marketing» incluso por parte de personas significadas del sector de la información y la comunicación digitales, como Elon Musk y Jack Dorsey.

El tiempo dirá cuál será el futuro de la visión de la web semántica. De momento, podemos afirmar que ha sabido transitar durante dos décadas y que ha dado importantes frutos, no siempre perceptibles.

Bibliografía

Bizer, Christian;Meusel, Robert; Primpeli, Anna; Brinkmann, Alexander (2023, 30 abril). Web Data Commons: Microdata, RDFa, JSON-LD, and Microformat Data Sets. Companion Proceedings of the ACM Web Conference 2023. <https://webdatacommons.org/structureddata/index.html>.

ELI TF (2022). ELI ‘Pillar IV’ specification: Protocol to synchronise ELI metadata [en línea]. Disponible en : <https://eur-lex.europa.eu/content/eli-register/ELI-Pillar-IV-protocol-specification-v1.0_en.pdf>.

Gaignard, Alban; Rosnet, Thomas; De Lamotte, Frédéric; Lefort, Vincent; Devignes, Marie-Dominique (2023). «FAIR-Checker: Supporting digital resource findability and reuse with Knowledge Graphs and Semantic Web standards». Journal of Biomedical Semantics, vol. 14, núm. 7. DOI: <https://doi.org/10.1186/s13326-023-00289-5>.

Hassan, Bryar; Dasmahapatra, Srinandan (2015). «Towards Semantic Web: Challenges and Needs». International Journal Of Engineering And Computer Science, vol. 4, núm. 10, págs. 14585-14588 [en línea]. Disponible en: <https://ijecs.in/index.php/ijecs/article/view/2953>.

Knowledge Graph Industry Survey Report: Data and Analysis on Industry Maturity (pág. 30). (2022). Enterprise Knowledge Graph Foundation; Knowledge Graph Conference.

Seneviratne, Oshani; McGuinness, Deborah L. (2023). Web 3.0 Meets Web3: Exploring the Convergence of Semantic Web and Blockchain Technologies [en línea]. Disponible en: <https://ceur-ws.org/Vol-3443/ESWC_2023_TrusDeKW_paper_247.pdf>

Tjoa, A. Min; Andjomshoaa, Amin; Shayeganfar, Ferial; Wagner, Roland (2005). «Semantic Web challenges and new requirements». 16th International Workshop on Database and Expert Systems Applications (DEXA’05), págs. 1160-1163. DOI: <https://doi.org/10.1109/DEXA.2005.177>.

licencia de Creative Commons de tipo «Reconocimiento-NoComercial-SinObraDerivada«. Esto significa que se pueden consultar y difundir libremente siempre que se cite el autor y el editor con los elementos que constan en la opción «Cita recomendada» que se indica en cada uno de los artículos, pero que no se puede hacer ninguna obra derivada (traducción, cambio de formato, etc.) sin permiso del editor. En este sentido, se cumple con la definición de open access de la Declaración de Budapest en favor del acceso abierto. La revista permite al autor o autores mantener los derechos de autor y retener los derechos de publicación sin restricciones.