I prossimi dieci anni di FAIR

I futuro dei princìpi FAIR
Foto di Jr Korpa su Unsplash
Sono un Data Steward
e voglio informazioni su Gestione dei dati della ricerca

A dieci anni esatti dal primo Lorentz workshop del 2014, dal quale emerse la definizione dei principi FAIR, si è tenuto al Lorentz Center di Leiden dal 22 al 26 gennaio 2024 il workshop dal titolo “The road to FAIR and equitable science”. Abbiamo avuto l’onore di essere le uniche due persone presenti per l’Italia nel gruppo di 50 esperti da tutto il mondo chiamati a riflettere sui dieci anni passati e interrogarsi sui prossimi dieci anni di FAIR.

Le prime quattro intense giornate di discussione, in modalità “unconference”, hanno toccato nell’ordine temi cruciali quali la strada percorsa finora e le difficoltà incontrate nella comprensione e nella diffusione di FAIR, il concetto di machine-actionability, di equità, di predisposizione/preparazione per l’intelligenza artificiale (AI readiness), sempre declinate in relazione ai principi FAIR. L’ultima giornata, aperta a un pubblico più vasto, ha visto la presentazione delle conclusioni (provvisorie, nello spirito appunto della “unconference”) del vivace dibattito e dei gruppi di lavoro.

Il video conclusivo fornisce un’ottima sintesi delle riflessioni dei gruppi di diversi stakeholder - enti di ricerca, industria, policy-makers, editori, enti finanziatori, infrastrutture di ricerca - sui singoli temi, con una prospettiva rivolta al futuro:

Abbiamo avuto dieci anni per costruire FAIR, adesso è il momento di realizzare tutte le potenzialità. 

Il workshop è destinato ad avere una forte influenza sul futuro della gestione dei dati della ricerca e sulla costruzione di un “internet of FAIR data and services”, con la stesura di una Roadmap e la pubblicazione di un White paper - proprio come avvenne dopo la prima conferenza, con la pubblicazione del citatissimo articolo su Nature nel 2016.

La Roadmap (di carattere più operativo, con azioni concrete per i diversi stakeholder) e il White paper (una sorta di manifesto/dibattito di sintesi) che sono in via di scrittura con la collaborazione di alcuni dei partecipanti rifletteranno tutto lo spessore e la profondità delle idee emerse, indicando la direzione per il futuro.;

Per ora proviamo a mettere in luce alcuni punti, utili, speriamo, ad aprire la discussione anche a livello nazionale.

Se guardiamo indietro, vediamo che

  • I principi FAIR sono diffusi ovunque, se guardiamo sia i bandi di ricerca sia articoli pubblicati in tutte le discipline scientifiche, anche se c’è ancora difficoltà a passare dalla teoria alla pratica.

  • Siamo ancora nella fase della “creolizzazione”, in cui non si è ancora verificata quella convergenza verso uno standard di base che consenta la creazione e l’interoperabilità di servizi e strumenti (come avvenne per Internet, a partire dall’adozione de facto del protocollo TCP-IP come base).

  • La moltitudine di strumenti, se da un lato testimonia della vitalità delle diverse comunità, può anche risultare disorientante in mancanza di punti di accesso comuni - nonostante la presenza affermata di hub come FAIRsharing o FAIRconnect.

  • Manca nei ricercatori la consapevolezza del valore del rendere i dati FAIR, in parte perché mancano gli incentivi e il riconoscimento a livello di valutazione della ricerca, in parte perché il riuso - vera finalità dell’intero processo - non è ancora pratica comune.

Se guardiamo avanti, come affrontare queste sfide, soprattutto nell’ottica degli enti di ricerca?

Intanto occorre investire in una adeguata rete di supporto: la centralità della figura del data steward è stata ribadita più volte, insieme al ruolo determinante degli enti finanziatori che possono sia dettare le regole sia creare i giusti incentivi positivi. Fra le varie proposte menzionate, è stato detto che gli enti finanziatori non dovrebbero soltanto chiedere ai ricercatori di rendere i dati FAIR, ma dovrebbero assicurarsi che gli enti di ricerca assumano risorse dedicate alla data stewardship.

Ma non basta: bisogna anche fare in modo che rendere i dati FAIR diventi “too easy not to do”, in modo che tutti - e qui entra in gioco anche il tema dell’equità - possano non solo avere accesso, ma anche creare dati FAIR-by-design e riusare i dati di altri, creando un circolo virtuoso. Con un gioco di parole molto evocativo in lingua inglese è stato detto che le tecnologie a servizio della produzione, gestione e riutilizzo dei dati FAIR dovrebbero essere un “underware” per i ricercatori (che suona simile ad “underwear”, ossia biancheria intima): qualcosa di assolutamente essenziale, ma non visibile.

Per instaurare e far crescere la cultura della gestione dei dati in senso FAIR occorre anche attivare percorsi di formazione includendo i corsi su FAIR e Open Science all’interno di programmi più generali per i ricercatori, come l’ottimo esempio dell'Università di Oxford e del suo Research Culture programme. La possibilità per tutti di potersi formare e aggiornare su questi argomenti rappresenta un forte elemento di “equità” nell’accesso alle risorse messe a disposizione per i dati FAIR.

Inoltre, per poter realizzare un vero cambiamento occorre il supporto convinto dei policy-makers, inclusa la governance degli enti di ricerca: uno dei temi più importanti su cui riflettere sono i costi determinati dal non cogliere le opportunità rappresentate dai dati FAIR, in termini di spreco di tempo e risorse e mancato ritorno sugli investimenti di ricerca: è veramente necessario non perdere le opportunità di questo processo di cambiamento globale per abilitare ricerche innovative guidate dai dati e dall’applicazione dei metodi di intelligenza artificiale. 

Durante la discussione dei gruppi di lavoro è emersa l’idea di creare un Toolkit molto pratico da proporre agli enti di ricerca che vogliano intraprendere un percorso verso l’adozione dei FAIR principles e dell’Open Science a livello istituzionale, per guidarli passo dopo passo nell’implementazione delle politiche, delle infrastrutture, dell’organizzazione dei flussi di lavoro funzionali a mettere in pratica FAIR e Open.

Il tema della machine actionability e della predisposizione dei dati all’applicazione di intelligenza artificiale è stato il più dibattuto, forse perché anche il più ostico da comprendere e realizzare.

Si dovrebbe evitare di parlare solo di “data sharing”, termine che crea spesso resistenze, e cominciare a parlare piuttosto di “data visiting”, proprio perché grazie alla “FAIRificazione” i dati possono restare dove si trovano e sono le macchine che, grazie ai metadati che li rendono rintracciabili e accessibili, li visitano.

Un esempio perfetto in questo senso viene da VODAN Africa, la rete federata di sistemi ospedalieri di diverse nazioni africane che, a partire dai dati COVID, hanno creato un’infrastruttura FAIR per l’accesso ai dati secondo le linee guida OLR (Ownership, Localisation, Regulation), che garantiscono il rispetto della proprietà e della localizzazione dei dati medici, pur abilitando le visite delle macchine e degli algoritmi. Inoltre, possono esistere (e co-esistere) diversi livelli di machine-actionability a seconda delle applicazioni previste per i dati stessi: non è detto che sia sempre richiesto di raggiungere il livello massimo di machine-actionability e FAIRness, ma dipende anche dal potenziale di riutilizzo e dal valore dei dati prodotti. Infine, è emersa prepotentemente la necessità di arrivare a definire in tempi brevi uno standard implementativo (o un insieme minimo di standard) per la machine-actionability dei dati in ottica FAIR.

Il rapporto fra FAIR e IA non è solo unidirezionale (ovvero i dati FAIR abilitano l’IA), ma bidirezionale (ovvero l’IA può essere usata per raggiungere FAIR).

Innanzitutto, è importante sottolineare che partire da dati di qualità per istruire i modelli di IA è un requisito fondamentale per l’affidabilità e la riutilizzabilità dei modelli stessi, per mitigare il rischio di “garbage in, garbage out”. Infatti, nel principio di “riutilizzabilità” deve essere inclusa tutta la documentazione che attesti la qualità dei dati, compresa la provenienza e la rilevanza dei dati per l’addestramento dell’intelligenza artificiale. Viceversa, l’intelligenza artificiale può aiutare nell’automazione di certi processi di data stewardship (intesa come attività di supporto - non solo umano - alla produzione di dati FAIR) e, ad esempio, nel raffinamento delle ontologie. In ogni ente di ricerca andrebbe creato un team multidisciplinare cui partecipino diversi profili professionali per presidiare un campo, quello dell’IA, che è in rapidissima evoluzione; per sensibilizzare i ricercatori sulle opportunità (e sui rischi di una gestione non adeguata) andrebbe inserita una sezione specifica sull’uso dei dati per l’IA nel Data Management Plan.

Infine, in termini di equità - argomento del nostro terzo giorno, ma che ha attraversato trasversalmente l’intero workshop, a partire dal titolo - di nuovo si è evidenziato un mutuo vantaggio: avere dati FAIR contribuisce ad abbassare le barriere di ingresso e a rendere più equo il mondo della creazione di conoscenza, e viceversa, implementare FAIR in ottica di equità contribuisce a evitare i bias di una scienza ancora troppo basata sul Nord del mondo.

Equità significa anche sostenibilità, altro tema cruciale per il futuro di FAIR e Open Science che sia davvero globale e inclusivo. Gli enti finanziatori hanno proposto un “Equitability framework” per favorire l’equità stessa, mentre dall’industria è venuto il richiamo a sviluppare nuovi modelli di business che includano FAIR, Open ed equità per mutuo beneficio.

Il perimetro tracciato è chiaro: i prossimi dieci anni di FAIR saranno all’insegna non solo dello sviluppo di tecnologie e infrastrutture, ma anche dei valori di accessibilità ed equità per la crescita comune - che, non dimentichiamolo, è il vero fine della Open Science.

Elena Giglia

Elena Giglia, PhD, Master’s degree, è responsabile dell’Unità di progetto Open Science dell’Università di Torino. Ha fatto parte (2019-2020) della Commissione Open Science del Ministero per l’Università e la Ricerca (MUR). Collabora attivamente con il Competence Center di ICDI su Open Science, EOSC e dati FAIR. Fa parte della Task Force Researchers engagement and Adoption di EOSC Association ed è partner in numerosi progetti Horizon Europe su Open Science. Partecipa attivamente a convegni nazionali e internazionali e a workshop europei su Open Science e dati FAIR. Svolge una intensa attività di formazione e promozione su logiche e vantaggi della scienza aperta e sulla comunicazione scientifica, temi sui quali ha pubblicato numerosi contributi.

Tutti i contenuti dell'autore
Valentina Pasquale

Valentina Pasquale è «Research Data Management Specialist» all'Istituto Italiano di Tecnologia, dove si occupa dei servizi di supporto per la gestione dei dati della ricerca e la scienza aperta. Prima di occuparsi di dati della ricerca, ha ottenuto un dottorato in "Humanoid Technologies" all'Università di Genova e ha lavorato per diversi anni nel campo delle Neuroscienze Computazionali. Dal 2023, collabora al coordinamento della Comunità Italiana dei Data Steward.

 

Tutti i contenuti dell'autore
Potrebbe interessarti anche
I dati aperti, in pratica

La scienza aperta è sempre più centrale nel panorama della ricerca, evidenziando l'importanza della condivisione trasparente, dell’accessibilità e della riproducibilità dei risultati scientifici. Con questo articolo forniamo alcuni consigli pratici per aiutare i ricercatori a rendere i propri dati più aperti e accessibili 

Data Management plan: strumenti e risorse utili

Uno strumento sempre più necessario, non solo perché richiesto da alcuni importanti enti finanziatori quali la Commissione Europea con i programmi di Horizon Europe, ma fondamentale anche per sé stessi. Ma da dove cominciare? Ecco alcune indicazioni.