Un recente studio condotto su un set di Data Management Plan dell’Università di Bologna evidenzia che, nonostante la varietà disciplinare, molte pratiche di gestione dei dati sono condivise. Le criticità più frequenti riguardano privacy, diritti e conservazione a lungo termine, mentre la natura interdisciplinare dei dati e le scelte di accesso e riuso evidenziano bisogni comuni di supporto e formazione. Ne emerge l’importanza strategica dei servizi di data stewardship
Come vengono gestiti i dati di ricerca in una grande università? Abbiamo cercado di rispondere a questa domanda ricostruendo il quadro delle pratiche di gestione dei dati che, nel nostro lavoro come data steward all’interno dell’Università di Bologna, ci troviamo quotidianamente a supportare.
Lo studio che abbiamo condotto, basandoci sull’analisi del contenuto dei Data Management Plan (DMP) di 29 progetti finanziati nell’ambito di Horizon 2020 e Horizon Europe, mostra come, nonostante le differenze disciplinari, le pratiche di gestione dei dati presentino numerosi elementi in comune.
Le informazioni analizzate sono state estratte attraverso una matrice di 27 variabili standardizzate che coprono l’intero ciclo di vita dei dati, tra cui: tipologie, contenuti, formati, presenza di dati personali, misure di tutela, livelli di accesso previsti, repository scelti, adozione di standard, dimensioni, presenza di PID, eccetera.
L’obiettivo dello studio era ottenere una mappatura dettagliata delle pratiche di gestione dei dati adottate dai ricercatori dell’Ateneo, individuando differenze, punti di contatto e criticità trasversali.
Il quadro che ne risulta è articolato, ma mette in evidenza come, nonostante la diversità disciplinare dei progetti analizzati, molte competenze di base per la gestione dei dati risultano condivise.
Molti progetti gestiscono una pluralità di tipi di dati - testi, dataset tabellari, immagini, software, modelli computazionali - spesso combinati all’interno dello stesso studio. Pur rilevando questa eterogeneità, i dati testuali e tabulari risultano comunque i più diffusi in tutte le aree disciplinari.
Inoltre molti progetti, soprattutto quelli collaborativi, gestiscono più tipologie di dati ma tendono a raggruppare all’interno dello stesso dataset solo dati dello stesso tipo. Questa scelta può favorire ordine e chiarezza, ma rischia di frammentare informazioni che appartengono allo stesso processo di ricerca, rendendo meno evidenti le relazioni tra dati generati per rispondere alla stessa domanda di ricerca.
Questa modalità organizzativa non sembra essere direttamente collegata alla scelta del repository per la loro preservazione a lungo termine: dataset omogenei sono di solito richiesti per il deposito in repository disciplinari, ma nella maggior parte dei casi i ricercatori privilegiano soluzioni generaliste, come Zenodo o AMSActa (il repository istituzionale dell'ateneo).
Le decisioni sui repository incidono direttamente sulla visibilità e sul potenziale riuso dei dati, ma non sempre sono accompagnate da una strategia pienamente consapevole in termini di interoperabilità e preservazione nel tempo. Questo si riflette anche sulla scarsa tendenza al riuso di dati già esistenti: nei DMP analizzati, per ogni dataset riutilizzato se ne contano in media 2,33 di nuovi (anche se è possibile questo dato sia sottostimato).
Lo studio mostra inoltre che considerazioni etiche, esigenze di tutela della privacy e vincoli di proprietà intellettuale influenzano fortemente e in maniera trasversale le scelte relative ai livelli di accesso ai dati. Tali elementi contribuiscono a configurazioni di accesso spesso prudenti e differenziate, riflettendo l’attenzione dei ricercatori non solo alla sensibilità dei dati, ma anche alle responsabilità connesse al loro trattamento.
Quello che emerge dal nostro studio non è solo una fotografia delle pratiche, ma una serie di spunti che toccano direttamente il lavoro quotidiano dei data steward. Nel complesso infatti, i risultati suggeriscono che i servizi di supporto alla gestione dei dati devono bilanciare un approccio generalista, accompagnato da linee guida comuni e formazione di base rivolta a tutti i ricercatori, con un’attenzione puntuale alle specificità dei singoli ambiti disciplinari che adottano strategie e strumenti diversi per la gestione delle stesse tipologie di dati.
In questo scenario, emerge con chiarezza l’importanza di un ecosistema di supporto strutturato. I data steward svolgono un ruolo centrale nell’accompagnare i ricercatori nella redazione dei DMP, nella scelta dei formati più adeguati, nell’individuazione dei repository e nell’adozione dei principi FAIR. Le incertezze legate a privacy e IPR mostrano inoltre quanto i data steward svolgano un ruolo di interfaccia strategica tra ricercatori, uffici legali, ICT e governance: sono spesso i primi a intercettare dubbi, rischi e incoerenze, accompagnando decisioni delicate che riguardano apertura, sicurezza e conformità normativa.
Lo studio evidenzia anche il valore dei DMP come documenti strategici per comprendere come i dati vengono prodotti, organizzati e condivisi nella ricerca. La scelta dell’unità di analisi utilizzata nello studio (la singola data entry e non il dataset nel suo complesso) si è rivelata vincente, permettendo un’analisi granulare che ha evidenziato differenze anche all’interno del singolo dataset.
Questo approccio permette di rendere visibili non solo le pratiche adottate, ma anche punti di forza e criticità ricorrenti, e rappresenta una leva fondamentale per migliorare i servizi di supporto e promuovere una cultura dell’Open Science più consapevole e strutturata, in cui il ruolo dei data steward è centrale.
La metodologia adottata e la formalizzazione delle variabili sono disponibili per la consultazione e il riuso (Coppini et al, 2024. Mapping Research Data at the University of Bologna: Protocol. Protocols.io https://dx.doi.org/10.17504/protocols.io.n2bvj87jpgk5/v2). Lo stesso approccio può essere. Tali elementi contribuiscono a configurazioni di accesso spesso prudenti e differenziate, riflettendo l’attenzione dei ricercatori non solo alla sensibilità dei dati, ma anche alle responsabilità connesse al loro trattamento.
26 febbraio 2026
