Che cos’è un repository e come scegliere quello giusto

Definizioni e risorse utili
Sono un Ricercatore
e voglio informazioni su Gestione dei dati della ricerca

Un repository è una piattaforma digitale con cui è possibile raccogliere, gestire e conservare articoli scientifici, dati, software, note di laboratorio o qualsiasi altro prodotto della ricerca. In sostanza è uno dei principi fondamentali della scienza aperta è tra i principali strumenti dell’open access.

Attributo fondamentale di un reporitory open access è la sua interoperabilità, cioè l’uso di tecnologie e standard che ne permettono il collegamento e gli scambi con altri archivi virtuali. Molti repository ad oggi sono interconnessi tra loro grazie a standard di comunicazione quali il protocollo OAI-PMH - acronimo che sta per Open Archives Initiative Protocol for Metadata Harvesting, il protocollo per la raccolta di metadati di prodotti provenienti da archivi diversi.

Depositare in un archivio virtuale è importante per sé stessi come ricercatori e per il resto della comunità scientifica in generale. Per esempio in futuro si potrebbe avere bisogno di dati usati anche parecchio tempo prima, e potrebbe essere difficile recuperarli se lasciati su vecchi dispositivi.

Nell’archiviare i propri lavori si può scegliere se rendere Open Access il contenuto inserito o se limitarne la consultazione ai metadati, anche solo temporaneamente, per esempio in caso di embargo o non disponibilità delle policy editoriali all’Open Access.

Ma attenzione: non si parla solo di pubblicazioni e dati. È infatti importante condividere anche altri tipi di contenuti - materiali didattici, presentazioni, poster, video eccetera - e collegarli in modo appropriato attraverso gli identificatori persistenti. Per questo tipo di contenuti di solito vanno bene i repository generalisti tipo Zenodo (se ne parla di seguito) e quelli istituzionali.

Come scegliere il repository giusto?

Esistono vari tipi di archivi digitali e si differenziano in base al tipo di contenuto che ospitano (archivi tematici, di dati o generalisti) oppure in base a chi li gestisce o li usa (per esempio i repository istituzionali, i repository curati a livello nazionale, oppure da una specifica comunità scientifica o da una infrastruttura di ricerca. 

È possibile depositare in più di un repository, ma è molto importante usare sempre lo stesso PID (persistend identifier), per esempio il DOI. 

Per orientarsi può essere utile consultare gli appositi registri:

  • OpenDOAR, la directory degli Open Data Repositories “quality-assured”, dunque che raggiungono determinati standard qualitativi. Principalmente in OpenDOAR sono elencati repository di pubblicazioni.
  • Roar, registro dei repository open access.
  • Re3data, registro con maggiore focus sui repository di dati della ricerca.

I principali tipi di repository hanno le seguenti caratteristiche: 

  • I repository istituzionali sono mantenuti e curati da singole istituzioni. Di norma raccolgono e rendono disponibili online solo i lavori dei ricercatori affiliati all’istituzione stessa.
  • I repository tematici o disciplinari, sono gli archivi virtuali progettati per ospitare i risultati della ricerca di argomenti specifici. Come per esempio ArXiv e Europe PubMed Central. In questo caso per depositare non è richiesta una specifica affiliazione né una provenienza geografica. Qui una lista dei repository disciplinari. Per altro il deposito di un lavoro in un repository tematico non sostituisce quello nel repository istituzionale, se previsto dal regolamento dell’istituzione di cui l’autore fa parte (che quindi andrebbe sempre controllato).
  • I repository di letteratura raccolgono le pubblicazioni scientifiche (quindi testi).
  • I repository di dati sono specializzati nella conservazioni di dati e metadati.
  • I repository generalisti (catch all), per esempio Zenodo, sono repository polivalenti adatti a tutti i prodotti della ricerca (compresi presentazioni, poster, immagini e dunque dati, codice e ovviamente articoli). Di solito in assenza di un repository di riferimento si fa uso di questo tipo di archivi generalisti. Zenodo per esempio non richiede l’uso di formati, dimensioni, licenze o altro, e ha metadati generici.  

Il tipo di contenuto influenza la struttura stessa del repository e in particolare i metadati, cioè le informazioni che andranno ad accompagnare e descrivere il contenuto da depositare. Per esempio un repository generalista avrà necessariamente pochi metadati e molto generici (titolo, abstract, autori, anno di pubblicazione, grant e poco altro), proprio perché quelle informazioni devono essere applicabili a qualsiasi tipo di contenuto. Cosa che in alcuni casi potrebbe ovviamente diventare un limite. 

I criteri da seguire per la scelta di un repository sono diversi. Innanzi tutto bisogna verificare se esiste uno standard da seguire nella propria disciplina. I repository disciplinari hanno infatti il vantaggio di essere un punto di riferimento e agevolare la visibilità nella propria comunità di appartenenza. Motivo per cui il repository tematico, se esiste, si può sempre considerare la scelta da preferire.

Per le pubblicazioni, si può scegliere di pubblicare in una rivista Open Access, o in qualsiasi rivista, e poi archiviarne una copia (self-archiving) dopo aver verificato attraverso SHERPA RoMEO http://www.sherpa.ac.uk/ se e quando l’editore scelto lo consente (o cercando di ottenere questa possibilità prima di firmare la cessione del proprio diritto d’autore).

Per i dati, di solito si consiglia di procedere in questo ordine di priorità (dunque andando avanti solo se il punto è da scartare):

  • 1. verificare l’esistenza di repository tematici o disciplinari (per esempio attraverso questa lista). Questa opzione è preferibile perché in questo modo i dati stessi ne risultano valorizzati (più rintracciabili e dunque più riusabili).
  • 2. Verificare se esistono repository gestiti da infrastrutture di ricerca di dominio (RI nell'acronimo inglese da Research Infrastructures). Per i riferimenti alle le RI del proprio settore, in particolare quelle a cui l'Italia aderisce, si può consultare la ESFRI Roadmap 2021.
  • 3. Selezionarne uno attraverso Re3data. La ricerca è filtrabile in base a diversi criteri, per esempio per tipo di accesso - aperto, chiuso o limitato - o scegliendo solo i repository che forniscono identificativi persistenti agli oggetti depositati. Il registro Re3data può inoltre essere interrogato con un apposito repositoryfinder.
  • 4. Se disponibile e se è possibile usarlo per il tipo di dati (per esempio se consente file di un certo tipo o di una certa grandezza), ricorrere a un repository istituzionale.
  • 5. Usare un repository catch-all. Un valido strumento per aiutarsi nella scelta di un repositorory generalista è questa carta comparativa.

L'opzione di un repository generalista potrebbe per esempio essere necessaria per i dati della cosiddetta "long tail of science", cioè per quelle discipline che non hanno un repository tematico di riferimento, riconosciuto dalla propria comunità. 

Nella scelta di un repository andrebbero presi in considerazione alcuni aspetti, si seguito alcune indicazioni fornite da OpenAIRE:

  • Identificatori persistenti. Il repository dovrebbe fornire identificatori persistenti (qualsiasi sia il prodotto depositato). In questo modo si facilita il processo di citazione, si fa in modo che prodotti della ricerca depositati in diversi repositories siano facilmente collegabili allo stesso ricercatore o al rispettivo finanziamento.
  • Metadati. Dovrebbe essere fornita una landing page per i dataset caricati, con metadati che ne facilinino la rintracciabilità, e con la possibilità di collegare lo stesso dataset a una pubblicazione.
  • Fornisca statistiche di riuso, per esempio il numero di download.
  • Affidatibilià. È preferibile scegliere repository che abbiano certificata affidabilità, e che abbia l’obiettivo di conservare a lungo termine i prodotti che ospita.
  • È sempre opportuno consultare le pagine con le policies del repository, per accertarsi che siano soddisfatte le vostre necessità (per esempio i formati accettati, accesso, backup e recupero, sostenibilità del servizio eccetera).
  • Consultare sempre i termini e le condizioni e verificare se sono rispettati i requisiti di legge (per esempio nella protezione dei dati). Sarebbero da preferire i repositories che consentano il riuso senza imporre licenze non necessarie.
  • Fornisca indicazione su come citare i dati depositati.
  • Prezzo. Appurare se il repository scelto è da pagare e stimarne i costi.

Per approfondimenti:

Le guide per ricercatori di OpenAIRE

Carta comparativa dei repository generalisti (Harvard Dataverse, Dryad, Figshare, Mendeley Data, OSF, Vivly e Zeonodo) 

Potrebbe interessarti anche
Gestire i dati, un compito fondamentale per se stessi e per gli altri

Le decisioni prese (o non prese) nelle prime fasi di un lavoro di ricerca hanno effetti importanti sul lavoro stesso e sulla sua futura diffusione. Le tecnologie da usare, la licenza di riuso da applicare, gli aspetti etici sono alcune delle questioni da non trascurare.

I regolamenti degli enti finanziatori per l’Open Access

La Commissione europea con Horizon 2020 e Horizon Europe, e in Italia il ministero dell’università e della ricerca, il ministero della salute e alcuni altri enti privati. Sono diversi gli enti finanziatori della ricerca che nei loro mandati richiedono l’Open Access.