Documentazione, formati, identificatori persistenti, licenze, metadati. Tutti gli aspetti da curare per usare al meglio uno degli strumenti principali della scienza aperta.
Nella pratica della scienza aperta spesso si sente nominare l'acronimo FAIR in riferimento ai dati. Si tratta di una serie di principi per la gestione dei dati della ricerca.
L’acronimo FAIR in inglese è composto dalle parole Findable, Accessible, Interoperable e Reusable - in italiano trovabili, accessibili, interoperabili, riutilizzabili: sono i requisiti che i dati e i risultati della ricerca dovrebbero avere per aderire al modello della scienza aperta, in modo che questi dati siano rintracciabili all’interno della produzione scientifica e possano agevolare il riuso, quando possibile, nella produzione di nuova conoscenza.
Vale la pena sgomberare il campo da un equivoco abbastanza diffuso: rendere i dati FAIR non comporta in automatico la loro completa apertura. Anche se nell'Open Science si tende idealmente alla maggiore circolazione possibile dei contenuti scientifici, non sempre è possibile rilasciare con una licenza open i dati o altri tipi di prodotti della ricerca.
Ci sono casi in cui per esempio i dati vanno protetti per esigenze legali o etiche. Per dati con questo tipo di limitazioni il principio di accessibilità va inteso come descrizione accurata attraverso metadati appropriati, che contengano informazioni chiare sulla possibilità e la modalità di accedere ai dati.
Questo implica che si dovrebbero fornire le condizioni esatte in cui i dati sono accessibili: ad esempio specificare se è richiesta l’autenticazione dell’utente che intende scaricare il set di dati o l’invio di una richiesta di autorizzazione all’accesso (autorizzazione che può anche essere negata).
Anche i dati fortemente protetti, per qualsiasi tipo di esigenza legale o etica, possono essere resi FAIR
Quello che conta è piuttosto che la comunità scientifica sappia dell’esistenza di determinati prodotti della ricerca, in modo da non disperdere conoscenza e sforzi già fatti da altri ricercatori. Questo aspetto è molto importante e risponde al duplice scopo di migliorare l’impatto della ricerca (più visibilità ai risultati) e la sua efficienza (evitare di duplicare gli sforzi - per esempio raccogliere due volte gli stessi dati - e incentivare il riuso di risultati già prodotti).
Definiti da un gruppo di esperti tra il 2014 e il 2016, i cosiddetti principi guida per rendere i dati FAIR sono 15 principi di natura tecnica, da cui derivano una serie di buone pratiche interconnesse tra loro che entrano in gioco in tutto il ciclo di vita dei dati della ricerca: dalla pianificazione alla raccolta, dall’analisi alla condivisione, dalla conservazione al riuso.
Le lettere dell’acronimo FAIR indicano i seguenti concetti:
Findable Qualsiasi risorsa scientifica deve essere rintracciabile affinché possa circolare, massimizzando così l’impatto della ricerca. A questo scopo sono necessari metadati accurati e processabili dalle macchine, che rendano possibile rilevare in automatico dataset o altri prodotti della ricerca.
Accessible Una volta trovata, si potrebbe voler fruire una determinata risorsa. Tuttavia - poiché non è sempre possibile rendere pubblicamente accessibile qualsiasi contenuto - per ciascun prodotto della ricerca va indicato quali sono le modalità per consultarlo, per esempio se serve identificarsi o inoltrare la richiesta di accesso. Idealmente tutto ciò dovrebbe essere processabile in automatico dalla macchina.
Interoperable I principi che operano per l’interoperabilità cercano di rispondere ai requisiti, sempre più necessari, di integrare varie fonti di dati, interagire con applicazioni o flussi di lavoro per l’analisi, l’archiviazione, o qualsiasi altro tipo di elaborazione.
Reusable Il riuso è un aspetto molto importante nella pratica della scienza aperta. Per esempio uno stesso set di dati si può riusare per replicare un esperimento - stessa domanda e stesso metodo - per cercare nuove risposte o altri metodi per rispondere alla stessa domanda. O si possono usare per rispondere a domande di ricerca completamente diverse. Affinché i dati siano riusabili, i dati devono essere ben descritti, con metadati curati.
Aspetti cruciali per rendere FAIR i prodotti della ricerca
Documentazione Serve a dare il contesto per rendere i dati comprensibili anche da altri. Vanno dunque forniti tutti i dettagli sulla raccolta dei dati (metodi, strumenti, software, processi: chi ci ci ha lavorato? Cosa è stato fatto con i dati? Eccetera)
Metadati Sono le informazioni che descrivono il prodotto scientifico in questione (sia esso un set di dati, un software, una pubblicazione eccetera). I metadati sono fondamentali per l’accesso, la comprensione e l’elaborazione del prodotto stesso. Per esempio descrivono titolo, autore, argomento, data di pubblicazione, identificativo persistente, tipo di oggetto, licenza di utilizzo e altro ancora. Di solito si compilano seguendo degli standard disciplinari, e se questi non esistono si acclude un read me file in cui aggiungere dettagli utili e rendere il prodotto (o dati) comprensibili in poche righe di testo.
Formati di dati Il formato usato per i dati è determinante per renderli interoperabili - cioè semplici da combinare o leggibili dalle macchine - e dunque riusabili. Anche in questo caso si raccomanda di usare il più possibile gli standard specifici per la comunità di riferimento.
Accesso ai dati È necessario stabilire con chiarezza chi ha accesso ai dati, a quali condizioni e quando, nel caso sia da prevedere un periodo di embargo. A questo scopo bisogna chiedersi chi altro avrà accesso ai dati e con quali modalità.
Identificatori persistenti Si tratta di riferimenti durevoli e univoci a una risorsa digitale. Lo scopo è identificare in maniera affidabile, identificare e localizzare una risorsa. Si trovano spesso abbreviati con l’acronimo PID o PI (in inglese Persistent Identitifiers) e possono essere collegati a set di metadati che descrivono l’oggetto stesso. Sono fondamentali per identificare con esattezza, trovare e citare un lavoro, un dataset, un report, un campione o qualsiasi altro prodotto della ricerca. Sono identificatori persistenti ad esempio l’Orcid e il DOI.
Licenze È importante indicare con apposite licenze se e come i dati possono essere riutilizzati da altri.
Aderire ai principi FAIR, anche solo in parte, serve dunque a rendere nota l’esistenza di determinati dati e prodotti di ricerca, e se possibile a renderli facilmente riusabili. Questo può comportare maggiore visibilità e impatto per i tanti attori coinvolti nel lavoro scientifico.
Per approfondire:
Wilkinson et al., The FAIR Guiding Principles for scientific data management and stewardship
24 June 2021