Le decisioni prese (o non prese) nelle prime fasi di un lavoro di ricerca hanno effetti importanti sul lavoro stesso e sulla sua futura diffusione. Le tecnologie da usare, la licenza di riuso da applicare, gli aspetti etici sono alcune delle questioni da non trascurare.
La produzione e l’analisi di dati è spesso una parte fondamentale di un progetto di ricerca, ma in molti commettono l’errore di non attrezzarsi correttamente per gestire i dati che maneggiano.
Gestire i dati di una ricerca vuol dire occuparsi del loro intero ciclo di vita: dalla raccolta all’analisi, fino alla conservazione e alla possibilità di riutilizzo. La gestione dei dati della ricerca - o Research Data Management (RDM) - comprende tutte le azioni necessarie per assicurare che i dati siano conservati in modo appropriato e facilmente rintracciabili, che siano comprensibili anche a distanza di tempo o da parte di altri - evitando per esempio che una certa variabile non sia di immediata comprensione, o che l’uso di tecnologie non standard ne rendano difficoltosa la decodifica dopo qualche anno o all’esterno del progetto di ricerca. Può succedere infatti che, per vari motivi, i dati debbano essere compresi o maneggiati anche da persone che non hanno preso parte alla loro raccolta.
La gestione dei dati della ricerca prende in considerazione azioni e problematiche dell’intero ciclo di vita dei dati e con una prospettiva duratura e che supera il progetto di ricerca.
Uno degli strumenti più importanti della gestione dei dati della ricerca è il research Data Management Plan, o DPM: un piano - compilato in anticipo, modificabile in seguito e da aggiornare regolarmente - con tutti i dettagli sui dati da raccogliere o usare e gli strumenti per farlo.
Alcuni enti finanziatori richiedono espressamente di compilare un DMP per avere accesso ai fondi. Nel programma Horizon2020 della Commissione Europea il DMP è considerato uno strumento necessario per rendere i propri dati FAIR, cioè per rendere la conoscienza facile da rintracciare, per farla circolare e non lasciarla chiusa in un solo laboratorio, agevolando integrazione e innovazione.
La gestione dei dati della ricerca non implica necessariamente l’apertura dei dati, cioè che siano resi disponibili a chiunque. Significa invece organizzare il lavoro di raccolta e conservazione dei dati, innanzi tutto per se stessi.
Descrivere nei dettagli il tipo di dati da raccogliere o da analizzare, decidere in anticipo quali formati e quali software usare, se trasformarli e con quali tecnologie, come affrontare eventuali regolamenti e trattare aspetti etici, riflettere sulla protezione dei propri dati, pianificare dove e come depositare i dati dopo l’analisi, e con quali costi. Redigere un data management plan significa riflettere tempestivamente su aspetti determinanti, prendendo decisioni meglio informate e non dettate dal caso o da una necessità estemporanee. Per esempio con l’uso di un DMP non ci saranno sorprese nella gestione dei costi di deposito e conservazione. Inoltre una buona pianificazione eviterà di perdere tempo su aspetti non rilevanti per la propria ricerca.
Una attenta gestione dei dati della ricerca comporta vantaggi per eventuali utilizzi futuri, anche da parte dello stesso ricercatore o dello stesso gruppo di ricerca. Se infatti in futuro ci sarà bisogno di riprendere in mano i dati originali, si saprà dove andare a cercarli, senza il rischio che siano rimasti in vecchi computer, magari nel frattempo dismessi e non più accessibili.
Ma se rendere ad accesso aperto i dati può in alcuni casi non essere possibile, in generale pubblicare i dati su cui è stata basata la propria analisi comporta vantaggi per la riproducibilità della ricerca e in termini di trasparenza personale e di tutto il processo.
Curare tutti i passaggi della raccolta e della successiva gestione dei dati può facilmente avere aspetti di interesse per la comunità scientifica. Può rendere possibile per esempio redigere un data paper, cioè una pubblicazione scientifica specifica sul dataset prodotto (non necessariamente connessa all’analisi per cui i dati sono stati prodotti).
Per mettere i propri dati in un repository bisogna specificare chi ne è l’autore. Questa informazione verrà in seguito sempre riconosciuta, indipendentemente dalle regole di apertura e dal tipo di licenza che si deciderà di applicare. Facilitando così in maniera indiretta il riconoscimento pubblico della propria autorialità. Inoltre il deposito dei dati in un repository avverrà attraverso l’uso di identificativi persistenti e servizi di discovery, che contribuiranno a riconoscere l’autore e rendere reperibili i suoi lavori.
Nel DMP inoltre si decide chi e come può avere accesso ai dati, se questi sono aperti e disponibili per chiunque, se sono ad accesso ristretto (cioè accessibili su richiesta, oppure a discrezione), e il tipo di riuso consentito per i dati che si mettono a disposizione. Le licenze e le regole di riuso fanno parte di scelte da fare al momento di compilare il DMP ma modificabili in seguito.
Modelli e strumenti per creare e gestire DMP:
-
Argos di OpenAIRE https://argos.openaire.eu/home
- DMPonline del Data Curation Center https://dmponline.dcc.ac.uk/
17 febbraio 2020