I principi FAIR sono una bussola imprescindibile quando si parla di gestione dei dati in ottica Open Science. Tuttavia, nella loro enunciazione originale non offrono nessuna soluzione tecnica, e come rendere un prodotto digitale FAIR rimane una sfida. Nel praticare e applicare il portato dei principi, si è arrivati a parlare di FAIR Digital Object (FDO), oggetti digitali progettati secondo i principi FAIR, e dunque strutturati in modo da consentire una maggiore scoperta, accessibilità, interoperabilità e riutilizzo dell'oggetto digitale stesso, facilitando la condivisione e l'integrazione delle informazioni. In un recente summit a Berlino si è cercato di guardare al futuro.
Il 20 e 21 marzo si è tenuto al museo di storia naturale di Berlino l’International FAIR Digital Objects Implementation Summit, secondo incontro del FAIR Digital Objects (FDO) Forum dopo quello del 2022, che è stata l’occasione per discutere le implementazioni e le future azioni che riguardano il futuro lavoro del Forum. Di seguito troverete non tanto una sintesi dell’evento (tutto il materiale è disponibile qui: https://drive.google.com/drive/folders/1ixdLKnFhT6vIQ_Bj_fYfadOmf45S4gAO), quanto una serie di indicazioni di strumenti pratici nel percorso verso FAIR. Sarebbe utile in futuro condividere storie di applicazioni pratiche e di casi di studio sull’uso di questi strumenti.
La struttura dell’FDO
Può essere definito “oggetto digitale” (Digital Object – DO) un qualsiasi oggetto che può essere gestito attraverso l’utilizzo di un computer. Questo può includere: documenti di testo, dataset, dati geospaziali, immagini, video, database, pagine web, applicazioni software, archivi, record di metadati e qualsiasi altro prodotto in forma digitale. Subito dopo la pubblicazione dei principi FAIR, il concetto di FDO ha offerto un quadro di riferimento per le implementazioni tecniche dei principi FAIR, che si basano appunto sui concetti di machine readability e, soprattutto, machine actionability. La machine readability si riferisce alla capacità di un sistema informatico di interpretare e comprendere i dati in un formato digitale. Ad esempio, i dati strutturati in formati come JSON o XML possono essere interpretati da una macchina, che riesce a “leggerli” perché sono scritti in una lingua che “conosce”. Al contrario, il contenuto di un file di testo in formato .doc o .pdf, pur essendo oggetti digitali gestibili dagli umani in modo semplice, non sono interpretabili da una macchina. La machine actionability va oltre e si riferisce alla capacità di una macchina di utilizzare queste informazioni per compiere azioni specifiche o prendere decisioni senza l'intervento umano. Si pensi ad esempio ai file di installazione delle app.
Il concetto di FDO definisce quindi un modello minimale per rappresentare gli oggetti in un ambiente digitale in maniera FAIR. Viene comunemente rappresentato come una serie di quattro strati concentrici (Figura 1), tutti essenziali per soddisfare i requisiti minimi per rendere l'Oggetto Digitale FAIR.
Figura 1. From De Smedt et al., 2020 https://doi.org/10.3390/publications8020021
Il primo strato che una macchina “incontra” leggendo un FDO è l'Identificatore persistente, che consente all'Oggetto Digitale di essere reperibile, accessibile e adeguatamente citato quando viene utilizzato. Quando una macchina “incontra” un FDO, può leggerlo e assumere un comportamento prevedibile di risoluzione dell'identificatore. Lo strato chiamato ‘operations’ serve a fornire le informazioni necessarie alla macchina per capire di che tipo di operazioni è possibile fare, ed è costituito dall’insieme dei formati, standard, documentazione e software necessari per accedere e riutilizzare efficacemente FDO in modo interoperabile. Infine, il quarto strato è rappresentato dai metadati che forniscono informazioni contestuali fondamentali per riutilizzare il FDO. Al centro si trova l'Oggetto Digitale stesso, cioè una sequenza di bit.
I documenti tecnici di riferimento di trovano sulla pagina del FDO Forum, nella sezione “Specifications” (https://fairdo.org/specifications/).
Un concetto chiave emerso durante una delle tavole rotonde è che non esiste un’unica soluzione tecnica per creare Oggetti Digitali FAIR, ma i diversi strumenti costituiscono altrettante componenti dell’ecosistema FAIR, e contribuiscono a raggiungere un certo livello di machine-actionability e FAIRness, come risulta dall’immagine creata da Barend Mons (Figura 2). In altre parole, nessuna di queste soluzioni è perfetta o esaustiva.
L’immagine è ancora in fase embrionale e avrà altri sviluppi, ma il paragone con la biologia è assai efficace:
Figura2. Courtesy of Barend Mons
Dal Concetto all'Implementazione
Durante il summit sono stati presentati diversi approcci tecnologici per applicare il concetto di FDO, evidenziando casi d'uso che ne illustrano il potenziale e i limiti. Tra le soluzioni da esplorare ci sono:
- Per accrescere la Findability, FAIRSignposting è un approccio nato per risolvere l’ambiguità di identificativi univoci che rimandano a landing page invece che al contenuto. FAIRsignposting offre una sorta di “mappa” che orienta le macchine fornendo dettagli sul tipo di identificativo persistente, sulla relativa landing page, su dove si trova realmente il contenuto e su dove si trovano i metadati che lo descrivono. Come si legge nella home page, si tratta di un “lightweight yet powerful approach to increase the FAIRness of scholarly objects”, a riprova di quanto si diceva più sopra: diversi strumenti contribuiscono a livelli sempre maggiori di FAIRness
- Per creare “pacchetti” di dati e metadati, RO-Crate. RO-Crate è una soluzione, di nuovo “lightweight”, basta su schema.org, per collegare oggetti digitali ai loro metadati machine-actionable e aumentarne in questo modo Accessibility e Findability. Una volta che FAIRSignposting indica alla macchina dove trovare l’oggetto digitale, RO-crate lo descrive. Nella ricchissima pagina del progetto si trovano le specifiche tecniche, i tutorial, i casi d’uso e le pubblicazioni più recenti sulle diverse implementazioni.
- Per creare elementi minimi di informazione nel contesto del web semantico, le Nanopublications. Si tratta di grafi di conoscenza costituiti da tre elementi (Assertion, ovvero l’unità di informazione costituita da soggetto-predicato-oggetto; Provenance; Publication info) espressi in forma standard e leggibile dalle macchine. Possono riguardare i più disparati tipi di relazioni, per esempio l’interazione fra un gene e una malattia, o la relazione fra un articolo e un altro. Anche in questo caso è possibile trovare tutte le specifiche, le linee guida e gli esempi nelle sezioni della pagina indicata, e può essere utile anche la lettura di The Comparative Anatomy of Nanopublications and FAIR Digital Objects.
- Per creare convergenza sugli standard in adozione nelle singole comunità disciplinari ci sono i FAIR Implementation Profiles (FIP) che danno conto, per ognuno dei principi FAIR, delle scelte di specifiche comunità rispetto a standard di metadati, sulle ontologie, o su altri aspetti della FAIRness. Esistono anche il wizard apposito che ne aiuta la creazione, e una nuova Dashboard in FAIRConnect per renderle disponibili (insieme alle nanopublications) a tutti. Per saperne di più si può leggere Reusable FAIR Implementation Profiles as Accelerators of FAIR Convergence o anche FIPs and Practice. Research Ideas and Outcomes.
- Molto pratico, invece, per la creazione di FDO è il FAIRDO Cookbook, con ricette su identificativi e data type.
Sono poi stati presentati alcuni progetti più complessi, fra i quali:
- FDO-One, (non esiste ancora una pagina web), progetto ambizioso sviluppato all’interno della Mission-KI tedesca, ovvero l’iniziativa nazionale per l’Intelligenza Artificiale. FDO-One sarà un’architettura federata che fa leva su FDO come elemento “neutro” rispetto alle tecnologie già in uso in diversi dataspace e su due sistemi già in uso in altri domini: Eclypse Dataspace Components (EDC) per il controllo degli accessi ai dati e Asset Administration Shell (AAS), lo standard in uso in ambito Industry 4.0 per la descrizione di asset industriali, siano essi un singolo componente, un impianto, una procedura. FDO-One ha il pregio di fare da ponte fra industria e ricerca, facendo leva su standard già in uso e sul potenziale dei FAIR Digital Objects come unità minima di interconnessione fra sistemi diversi.
- Research Data Framework è il progetto del NIST – National Institute for Standard and Technologies che fornisce a chiunque abbia necessità di gestire dati gli strumenti e il quadro di riferimento per l’intero ciclo di vita dei dati.
- Open research graph knowledge è il progetto per la rappresentazione strutturata (e machine-readable) di articoli scientifici per permettere sia di avere un colpo d’occhio sullo stato dell’arte sia di effettuare confronti fra diversi articoli. Per saperne di più: Towards Knowledge Graph based Representation, Augmentation and Exploration of Scholarly Communications. A questo progetto si lega anche un interessante punto di vista sulla Interoperabilità cognitiva, Extending FAIR to FAIREr: Cognitive Interoperability and the Human Explorability of Data and Metadata.
- Per integrare i FAIR Implementation profile nei Data Management Plan è nato il progetto FIP2DMP, un mapping fra i FIP e le sezioni del Data Stewardship wizard per favorire l’integrazione fra i due strumenti. Per saperne di più, FIP2DMP: Linking data management plans with FAIR implementation profiles (https://content.iospress.com/articles/fair-connect/fc221515).
L'adozione diffusa dei FDO potrebbe portare a un cambiamento significativo nella gestione FAIR dei dati digitali, promuovendo una architettura di maggiore trasparenza, collaborazione e innovazione nella ricerca. Ma, come ricordava Robert Hanisch nella sua presentazione, manca ancora un catalizzatore che promuova l’adozione di tale architettura a livello globale.
08 avril 2024