Número 51 (desembre 2023)

Monogràfic a 'BID' sobre webs de dades i grafs de coneixements

 

DOI: https://doi.org/10.1344/BID2023.51.08

 

Ara fa més de vint anys que el World Wide Web Consortium (W3C) va impulsar la seva visió i programa del web semàntic, amb l'objectiu de proporcionar als sistemes automàtics metadades processables de manera automàtica sobre les dades i la informació que es publica en el web. El repte de sistemes automàtics capaços d'interpretar semànticament les dades i de generar processos autònomament, basats en aquesta capacitat, s'albirava com una revolució definitiva a internet. Passats aquests vint anys, les tecnologies i els estàndards que s'han desenvolupat en el marc d'aquest programa, i que conformaven la mítica pila o pastís de capes del web semàntic, han experimentat un grau de desenvolupament desigual.

Algunes tecnologies s'han consolidat i han impactat en múltiples àrees d'activitat i especialitat. És el cas dels identificadors únics/internacionals de recursos (URI/IRI) —preexistents al web semàntic—, de determinats formats de serialització, com ara JSON-LD, o les ontologies vinculades, per exemple en esquemes de metadades i en grafs de coneixement. Finalment, hi ha un grup de tecnologies situades en la cúspide de la pila o del pastís, com Confiança o Trust (vinculat a afirmacions verificables sobre la identitat, la procedència del contingut i qüestions relacionades) i Prova o Proof of work (que proporciona una base flexible per a la Confiança), que si bé fins ara han estat postergades, poden obtenir la seva rehabilitació en el context de la Web3.

El model de dades RDF, pal de paller de la visió del web semàntic, ha hagut d'assumir la competència amb altres models dins i fora de l'àmbit orientat a grafs. No han reeixit els intents de suavització, amb una picada d'ullet als desenvolupadors, amb iniciatives com ara EasyRDF, però sí que ha sabut compartir, sense complexos, espais de desenvolupament amb la seva competència en el marc dels models orientats a grafs, com són els grafs de propietats (Neo4J), o, fins i tot del tradicional model relacional. En el context de les dades estructurades, un format vinculat al web semàntic, JSON-LD, aliat amb el vocabulari Schema.org, s'està imposant com a vehicle per incrustar metadades que descriuen productes, persones, organitzacions, llocs i esdeveniments en les pàgines HTML. Així ho testimonia l'evolució del nombre total de dominis de nivell de pagament (PLD) que recullen Bizer et al. (2023), on JSON-LD s'ha imposat des de fa anys com a format preferit (enfront de Microdata, Microformat hCard) i ha compensat el descens progressiu d'RDFa. JSON-LD aporta beneficis destacables en SEO, i a més els desenvolupadors poden reutilitzar les mateixes estructures de dades per crear nous ginys d'interfície d'usuari de recepció, així com alimentar els rastrejadors dels motors de cerca amb les metadades que descriuen el significat exacte del contingut de les pàgines.

En diferents moments de la seva evolució, els autors que han analitzat l'estat de desenvolupament del web semàntic han posat de rellevància que els productes i els serveis es mantenen, excessivament, en el reducte del laboratori. La percepció dels motius d’aquest complex ha evolucionat amb el pas del temps. Per exemple, pocs anys després del seu naixement, Tjoa et al. (2005, p. 1163) indicaven:

"[...] it should be mentioned that the Semantic Web might not promise a quick return-on-investment for those formatting their data to suit the Semantic Web".

En canvi, més recentment, Hassan et al. (2015, p. 14587) atribuïen una excessiva submissió a postulats de dades obertes, la qual cosa dificultava la seva adopció per part de les que anomenaven killer applications.

La panoràmica sencera, tanmateix, ens permet identificar múltiples casos d’èxit.

La publicació de dades enllaçades, iniciada l’any 2006, ha tingut una gran repercussió en l'ecosistema de les dades obertes en tots els dominis del coneixement, ja que compleixen amb l'esquema de cinc estrelles Consisteix en un conjunt (ja bastant gran) de grafs RDF que estan enllaçats en el sentit que molts identificadors IRI en els grafs també apareixen en altres grafs, de vegades múltiples. En certa manera, la col·lecció de tots aquests grafs RDF enllaçats es pot entendre com un únic graf RDF molt gran. Els proveïdors de les dades faciliten la consulta mitjançant punts d’accés SPARQL. En el moment actual, el lloc web Linked Open Data Cloud, que recull conjunts de dades que s'han publicat en el format de dades enllaçades, conté 1.314 conjunts de dades amb 16.308 enllaços que els vinculen.

Una posició central en la publicació de dades enllaçades l'ocupen Dbpedia i Wikidata. La segona és la base de dades secundària i distribuïda més gran i més utilitzada al món. Algunes decisions fonamentals sobre la seva arquitectura es van emmirallar en els estàndards del web semàntic i, tot i les diferències finals, la interoperabilitat entre Wikidata i els conjunts de dades RDF està perfectament assegurada. En el moment actual, les seves dimensions impressionen: 565.000 editors registrats, 359 bots, 1.440 milions de declaracions, 101 milions d’elements, 10.800 propietats i 420 milions de visualitzacions mensuals de dades sobre els elements descrits. Per mitjà del seu servei de consultes basat en SPARQL, Wikidata dona resposta a 3,8 milions de consultes al dia, 44 per segon. Tanmateix, no són les dimensions de Wikidata l’únic aspecte d’interès per als seus promotors. Aquest conjunt de dades està immers en un procés de millora de la qualitat del servei de cerca que, com no podia ser d’una altra manera, afecta profundament la millora de les dades i de l’ontologia que les dota de significat. També estreteix l’apropament a les tecnologies del web semàntic i incorpora components lògics per a la creació i validació de grafs RDF, com ara SHACL.

En el context de la recerca, la creació i la publicació de dades obertes enllaçades han rebut l'impuls dels principis FAIR (trobable, accessible, interoperable i reutilitzable). En la seva aplicació, la majoria dels principis d'interoperabilitat i de reutilització es poden tractar amb tecnologies estàndard del web semàntic ja establertes. Aquesta aplicació s'ha ampliat a altres components de l'univers FAIR, com són les eines semiautomàtiques de verificació del compliment dels principis, per exemple FAIR-Checker descrit per Gaignard et al. (2023).

La millora dels sistemes d'accés a la informació també ha estat un àmbit de força implicació de les tecnologies i dels estàndards del web semàntic.

En alguns contextos, com el jurídic, la implementació dels llenguatges i de les tecnologies reeixides ha donat mostres de treball coordinat a escala internacional i de resultats que han transcendit els límits del laboratori i del beta constant. És el cas, per exemple, de l'Identificador Europeu de Legislació (ELI), un sistema d'accés en línia a la legislació en el context de la Unió Europea que impulsa el desenvolupament de serveis d'informació crítics per als ciutadans d'aquest mil·lenni. Es tracta d'un procés ordenat d'implementació organitzada en quatre pilars: els identificadors, l'ontologia i les metadades, la publicació de dades i, des del 2023, la sincronització de metadades. La compatibilitat amb aquest darrer pilar imposa als proveïdors d'ELI l'oferiment de dos canals de sindicació de continguts: ELI Sitemap i ELI Atom feed (ELI TF, 2022).

També moltes biblioteques nacionals han transformat les seves dades catalogràfiques i d’autoritats al model RDF per tal d'oferir-les com a dades obertes. En són exemples l'ID.LOC.GOV: Linked Data Service i Datos.bne.es. Aquest segon projecte va ser impulsat principalment a partir del marc legal de la UE establert l’any 2015 sobre reutilització de les dades de l'Administració pública. Un fet rellevant és que l'adaptació del model de dades als estàndards del web semàntic no atén únicament a l'arquitectura de les dades, sinó principalment a la interacció dels usuaris amb els recursos d'informació. És aquí on té un paper molt rellevant l'enllaçament de les dades pròpies de la BNE amb de bases de dades externes, com Wikidata, en una relació simbiòtica de creixement mutu.

Les ontologies, que en el marc del web semàntic i més específicament de l'especificació OWL 2 es defineixen com una descripció formal d'un domini d'interès formada per entitats, expressions i axiomes, han format part dels projectes d’accés a la informació que hem vist anteriorment i han tingut una especial incidència en el domini de la biomedicina, com ara SNOMED-CT i Gene Ontology. En temps més recent, les ontologies s'han integrat en un ecosistema de generació i publicació de dades semànticament enriquides com són els grafs de coneixement. Aquests artefactes incorporen recursos individuals expressats en RDF, representats semànticament mitjançant classes d'una o més ontologies i relacionats mitjançant propietats de les mateixes ontologies. La cerca per les dades és possible gràcies a serveis SPARQL i per l’aplicació de raonadors automàtics per generar inferència i validar-ne la consistència. El desenvolupament de grafs de coneixement en entorns institucionals i empresarials implica un repte per a principis fundacionals com són les dades obertes, una millora de les funcionalitats dels sistemes d'intel·ligència artificial, dels sistemes de recomanació, dels sistemes de preguntes i respostes i de les eines de recuperació d'informació. L'informe de darrera hora Knowledge Graph Industry Survey Report: Data and Analysis on Industry Maturity (2022) mostra com la majoria dels enquestats en l'estudi encara són en l'etapa experimental del seu viatge, i, un cop més, hi ha reticències per part de senior stakeholders que exigeixen resultats immediats. Els casos d'ús inicial es relacionen més amb activitats associades a l'ordenació de la casa de dades en forma d'integració de dades, l'agregació entre fonts diverses i l'aplicació de normes de qualitat de dades.

És possible albirar una "tercera vida" per a les tecnologies del web semàntic? Actualment s'està produint el que Seneviratne i McGuinness (2023) descriuen com una "convergència sinergètica" entre, d'una banda, les tecnologies semàntiques, que han donat lloc a la Web 3.0, i, de l'altra, les tecnologies de cadenes de blocs, que han catalitzat el pròsper ecosistema Web3. L'ús de vocabularis i d'ontologies estandarditzats permet la interoperabilitat entre nodes de les cadenes de blocs, promou la confiança i minimitza els errors en l'intercanvi de coneixement.

Malgrat els beneficis que es pronostiquen, els reptes i els dubtes encara són latents i hi ha acusacions de "paraula de moda" o de "terme de màrqueting" fins i tot per part de persones significades del sector de la informació i la comunicació digitals, com ara Elon Musk i Jack Dorsey.

El temps dirà quin serà el futur de la visió del web semàntic. De moment, podem afirmar que ha sabut transitar durant dues dècades i que ha donat importants fruits, no sempre perceptibles.

Bibliografia

Bizer, Christian; Meusel, Robert; Primpeli, Anna; Brinkmann, Alexander (2023, 30 abril). Web Data Commons: Microdata, RDFa, JSON-LD, and Microformat Data Sets. Companion Proceedings of the ACM Web Conference 2023. <https://webdatacommons.org/structureddata/index.html>.

ELI TF (2022). ELI ‘Pillar IV’ specification: Protocol to synchronise ELI metadata [en línia]. Disponible a : <https://eur-lex.europa.eu/content/eli-register/ELI-Pillar-IV-protocol-specification-v1.0_en.pdf>.

Gaignard, Alban; Rosnet, Thomas; De Lamotte, Frédéric; Lefort, Vincent; Devignes, Marie-Dominique (2023). "FAIR-Checker: Supporting digital resource findability and reuse with Knowledge Graphs and Semantic Web standards". Journal of Biomedical Semantics, vol. 14, núm. 7. DOI: <https://doi.org/10.1186/s13326-023-00289-5>.

Hassan, Bryar; Dasmahapatra, Srinandan (2015). "Towards Semantic Web: Challenges and Needs". International Journal Of Engineering And Computer Science, vol. 4, núm. 10, pàg. 14585-14588 [en línia]. Disponible a: <https://ijecs.in/index.php/ijecs/article/view/2953>.

Knowledge Graph Industry Survey Report: Data and Analysis on Industry Maturity (pàg. 30). (2022). Enterprise Knowledge Graph Foundation; Knowledge Graph Conference.

Seneviratne, Oshani; McGuinness, Deborah L. (2023). Web 3.0 Meets Web3: Exploring the Convergence of Semantic Web and Blockchain Technologies [en línia]. Disponible a: <https://ceur-ws.org/Vol-3443/ESWC_2023_TrusDeKW_paper_247.pdf>

Tjoa, A. Min; Andjomshoaa, Amin; Shayeganfar, Ferial; Wagner, Roland (2005). "Semantic Web challenges and new requirements". 16th International Workshop on Database and Expert Systems Applications (DEXA’05), pàg. 1160-1163. DOI: <https://doi.org/10.1109/DEXA.2005.177>.

 

Similares

 

Articles similars a Temària

Articles del mateix autor a Temària

Térmens Graells, Miquel

[ més informació ]

llicencia CC BY-NC-ND
Creative Commons
Llicència Creative Commons de tipus Reconeixement-NoComercial-SenseObraDerivada. Aquest article es pot difondre lliurement sempre que se'n citi l'autor i l'editor amb els elements que consten en la secció "Citació recomanada". No se'n pot fer, però, cap obra derivada (traducció, canvi de format, etc.) sense el permís de l'editor. Així, BiD compleix amb la definició d'open access de la Declaració de Budapest a favor de l'accés obert. La revista també permet que els autors mantinguin els drets d'autor i els de publicació sense restriccions.