Articolo

Implementare, gestire e far crescere un data repository

Image by Dimuth De Zoysa from Pixabay

Sono un Data Steward

e voglio informazioni su Gestione dei dati della ricerca

Un repository di dati è un componente molto importante per abilitare lo scambio di conoscenze scientifiche. Per istituirlo e garantirne efficacia e adozione da parte degli utenti, è necessario un piano che includa vari passaggi e azioni. L'articolo elenca i principali aspetti da considerare, e l'esperienza dell'Università di Milano

La decisione di avviare un data repository deve essere accompagnata da una serie di azioni che necessariamente includono una policy sufficientemente pubblicizzata e da servizi connessi.

La policy

La policy sulla gestione dei dati della ricerca deve concretizzarsi contestualmente alla scelta del tipo di repository. Una policy, infatti, ci dice chi è tenuto a rispettarla, a quali condizioni e con quali obblighi e quali sono gli impegni della istituzione, fra i quali c’è senza dubbio quella di mettere a disposizione uno strumento, il supporto necessario a gestirlo e la conservazione nel corso del tempo.

Le risorse

Perché la policy possa essere accolta dai ricercatori ci deve essere un impegno della istituzione a supportarla, per cui è importante che si scelga uno strumento adatto da mettere a disposizione (potrà essere uno strumento della istituzione o sarà possibile rinviare a repository esterni) e uno staff adeguato che possa supportare i ricercatori nella fase di deposito dei dati e successivamente nella analisi e correzione di metadati e relativa documentazione verificando che i dati siano effettivamente FAIR.

Non basterà quindi identificare uno strumento e metterlo a disposizione dei ricercatori (o rinviare ad uno strumento esterno), ma si dovranno prevedere azioni di promozione, di formazione e un workflow di validazione che verifichi la qualità di quanto è contenuto nel repository. In sostanza si tratta di creare una serie di servizi legati al repository e al deposito dei dati in modo che il ricercatore sia accompagnato in tutte le fasi di caricamento dei propri dataset.

La formazione

Se non si crea un contesto di consapevolezza rispetto ad una gestione dei dati che ne permetta il riuso, difficilmente il repository verrà adottato dai ricercatori, in quanto attualmente non ci sono misure premiali esplicite per coloro che gestiscono i dati in maniera responsabile e con un occhio al riuso. È dunque necessario attivare percorsi di formazione sia standard sia personalizzati (per singoli ricercatori, dipartimenti, categorie di personale o gruppi di ricerca/laboratori), che tocchino le diverse tematiche: dati FAIR, creazione di un DMP, uso dei (o del) repository, particolari tipologie di dati.

Il respository deve essere trusted

È una richiesta che viene fatta nel grant agreement a livello di Horizon, ma è anche una necessità. Poter dimostrare che la documentazione a supporto, la descrizione dei processi di deposito e validazione, la previsione della conservazione a lungo termine dei dati, le misure di sicurezza adottate rispondono a standard internazionali, è molto importante non tanto per esibire il certificato, ma per poter offrire ai propri ricercatori uno strumento affidabile e che dia garanzie di sostenibilità nel tempo.

Il monitoraggio

Senza evidenze risulta difficile poter valutare se la strada intrapresa è quella corretta. È quindi necessario rendicontare periodicamente i risultati per capire se si sta andando nella direzione giusta o se invece è necessario apporre dei correttivi.

L’esperienza dell’università di Milano

Sulla base di quanto descritto sopra si racconta qui brevemente l’iter seguito dall’Università di Milano nella implementazione del proprio data repository dataverse.unimi.it.

La scelta del repository è caduta su Dataverse, in quanto strumento open source e perché già utilizzato da interi sistemi della ricerca (si pensi al sistema olandese, a quello danese, a quello francese). Dataverse dava e dà al momento la garanzia di essere uno strumento sviluppato da una community internazionale orientata al lungo termine. L’ateneo ha deciso per il momento di avere l’hosting e la manutenzione esterna e si è appoggiato per questo a 4Science.

Contemporaneamente alla scelta dello strumento, per cui è stato anche necessario acquisire internamente le necessarie competenze, veniva approvata la prima policy (2017) poi rivista qualche anno dopo sulla scorta delle mutate condizioni (2022).

Dopo una prima fase di promozione dell’archivio che non ha trovato grande consenso, è stato avviato un lavoro capillare di informazione/formazione, è stato predisposto un sito dedicato al research data management che raccoglie una serie di informazioni di base sulla gestione dei dati della ricerca, corredate da video, grafici e link a documenti. Sono state prodotte linee guida sintetiche da affiancare a quelle più dettagliate messe a disposizione da Dataverse, e si è cominciato ad offrire percorsi di informazione personalizzati.

Intanto, una volta che il repository è risultato sufficientemente maturo per essere registrato come trusted repository, è stata avviata la procedura di certificazione (Core Trust Seal), che è appena arrivata a conclusione. Questa è stata sicuramente l’attività più complessa, soprattutto per il sistema di peer review di Core che spesso cambia i revisori e, basandosi su attività volontaria, non risponde sempre in maniera tempestiva alle risposte della istituzione. Al di là del processo un po’ macchinoso, il dover rispondere a requisiti piuttosto stringenti, è stato molto utile e ci ha costretto a riflettere sul nostro modo di lavorare e sui processi in atto, per cui è stato un percorso di crescita.

La vera svolta si è avuta quando sono state arruolate due assegniste (ora sono diventate tre) che si sono formate per diventare data stewards. La presenza di personale esperto che è in grado di supportare i ricercatori nella stesura dei DMP, nella preparazione e archiviazione dei propri dati e che è in grado di verificare la qualità dei metadati e della documentazione a corredo dei dataset ha portato ad un incremento molto evidente nell’uso da parte dei nostri ricercatori di questo strumento, ma anche nel riuso, come evidenziato dall’incremento notevolissimo del numero dei downloads.

Oggi Dataverse è uno strumento in crescita, ben noto ai ricercatori dell’università di Milano che apprezzano i servizi collegati e che hanno la certezza di poter contare sul supporto di personale esperto.

22 ottobre 2024

Paola Galimberti

Paola Galimberti è responsabile della direzione Performance, assicurazione qualità, valutazione e politiche di open science presso l’Università degli Studi di Milano, è editor per la DOAJ, è coordinatrice del focus group italiano su IRIS Institutional repository, collabora con il Competence Center di ICDI su Open Science, è socio fondatore e membro di AISA (Associazione italiana per la scienza aperta), e redattrice di ROARS, partecipa a convegni nazionali e internazionali e svolge una intensa attività di formazione su Open science e gli strumenti per realizzarla, sulla valutazione della ricerca, sulle tematiche del diritto d’autore connesso alle pubblicazioni scientifiche.

Tutti i contenuti dell'autore