Open data e infrastrutture di ricerca: le linee guida dell’AgID

Foto di Adrien su Unsplash
Sono un Ricercatore
e voglio informazioni su Gestione dei dati della ricerca

I dati della ricerca devono essere resi disponibili per qualsiasi fine, commerciale e non, sempre purché siano rispettate determinate condizioni. Ma cosa si intende esattamente per dati della ricerca, e quali sono i limiti a questo obbligo di apertura? Vediamone la definizione e il quadro normativo di base, comprese le linee guida dell’Agenzia per l’Italia Digitale che ne chiariscono aspetti tecnici e attuativi

Il quadro normativo europeo e nazionale

Nel 2019 è stata adottata la Direttiva “Open Data” (Direttiva 2019/1024), che ha aggiornato la normativa europea in materia di apertura dei dati e riutilizzo delle informazioni nel settore pubblico. La Direttiva detta le regole di indirizzo per gli Stati membri, che devono poi essere implementate a livello nazionale con leggi interne.

Attualmente in Italia le norme sull'Open Data sono regolate dalla recente versione D. Lgs. 36/2006, il quale è stato adeguato per riflettere essenzialmente quanto stabilito dalla Direttiva Open Data. Per chiarire gli aspetti tecnici e attuativi della nuova disciplina, l'Agenzia per l'Italia Digitale (AgID) ha pubblicato delle specifiche linee guida.

Inoltre, per alcune categorie di dati definite “di elevato valore”, è stato emanato a livello europeo il Regolamento di esecuzione 2023/138, direttamente applicabile in tutti gli Stati membri a partire dal 9 giugno 2024. L’AgID ha quindi pubblicato un’altra guida operativa dedicata alle serie di dati di elevato valore, in cui si specifica che questa espressione si riferisce a dati il cui utilizzo può essere associato a “importanti benefici per la società, l’ambiente e l’economia, in considerazione della loro idoneità per la creazione di servizi, applicazioni a valore aggiunto e nuovi posti di lavoro, nonché del numero dei potenziali beneficiari dei servizi e delle applicazioni a valore aggiunto basati su tali serie di dati”. 

Ambito di applicazione delle norme sull’apertura dei dati

Le norme sull’apertura dei dati sono vincolanti per le pubbliche amministrazioni, per gli organismi di diritto pubblico (tra i quali rientrano gli enti di ricerca, come il Cnr), ma anche per alcuni tipi di  imprese pubbliche e private, tra cui per esempio imprese che gestiscono trasporti o altri servizi pubblici (secondo quanto stabilito dall’art. 1 commi 2-ter e 2-quater del D. Lgs. 36/2006). Nello specifico queste norme riguardano il riutilizzo dei documenti contenenti dati pubblici che queste imprese si trovano a gestire. Dunque la normativa sugli open data non si applica a tutti i documenti gestiti da questi soggetti, ma vi sono grosse eccezioni che riguardano, ad esempio: i documenti protetti dai diritti di proprietà intellettuale e industriale, i dati personali, i documenti detenuti per finalità che esulano dai compiti istituzionali della pubblica amministrazione o dell’organismo di diritto pubblico (per l’elenco completo si rimanda all’art. 3 del D. Lgs. 36/2006).

Nella Direttiva Open Data, così come nel D. Lgs. 36/2006, sono presenti disposizioni specifiche con riguardo ai dati della ricerca.

L’art. 10 della Direttiva impone agli Stati membri di adottare delle politiche per rendere apertamente disponibili i dati della ricerca finanziata con fondi pubblici. Il principio sancito dalla Direttiva è l’apertura di default, cioè come impostazione predefinita, nel rispetto dei principi FAIR (acronimo che sta per Findable, Accessible, Interoperable e Reusable, in italiano trovabili, accessibili, interoperabili, riutilizzabili), al contempo salvaguardando i diritti di proprietà intellettuale, protezione dei dati personali e riservatezza, sicurezza e legittimi interessi commerciali, secondo il principio as open as possible, as closed as necessary.

Questa disposizione è stata recepita nel D. Lgs. 36/2006 nell’art. 9-bis. 

Per “dati della ricerca” si intendono i “documenti in formato digitale, diversi dalle pubblicazioni scientifiche, raccolti o prodotti nel corso della ricerca scientifica e utilizzati come elementi di prova nel processo di ricerca, o comunemente accettati nella comunità di ricerca come necessari per convalidare le conclusioni e i risultati della ricerca” (art. 2 n. 9 della Direttiva e art. 2 co. 1 lett. C-septies del D. Lgs. 36/2006); dunque, è importante sottolineare che non vi rientrano le pubblicazioni scientifiche. Inoltre, restano applicabili le eccezioni riguardanti la protezione dei dati personali, della proprietà intellettuale e industriale e degli interessi commerciali. 

È altresì importante sottolineare che i dati della ricerca a cui si applica l’obbligo di essere resi disponibili per finalità commerciali e non commerciali, sono i risultati di attività di ricerca finanziata con fondi pubblici, e resi pubblici da ricercatori, da organizzazioni che svolgono e/o finanziano attività di ricerca, tramite una banca dati gestita a livello istituzionale o su base tematica (1).

I requisiti dettati dalle Linee Guida dell’AgID 

Le Linee Guida dell’AgID definiscono sia i requisiti tecnici da rispettare per l’attuazione della normativa sull’apertura dei dati, sia delle raccomandazioni (non obbligatorie) riguardanti aspetti importanti per il processo di apertura dei dati ma non disciplinati dalle leggi. 

Ai dati della ricerca si applicano sia i requisiti comuni sia i requisiti specifici per i dati della ricerca. I requisiti comuni richiedono che i dati vengano messi a disposizione:

  • in un formato leggibile meccanicamente;

  • in “un formato di file strutturato in modo tale da consentire alle applicazioni software di individuare, riconoscere ed estrarre in formato aperto, cioè, come da definizione dell’art. 1 comma 1 lettera l-bis) del CAD, in “un formato di dati reso pubblico, documentato esaustivamente e neutro rispetto agli strumenti tecnologici necessari per la fruizione dei dati stessi”;

  • accessibili attraverso le tecnologie dell’informazione e della comunicazione;

  • gratuitamente o con i costi marginali sostenuti per la riproduzione, messa a disposizione e divulgazione dei documenti, nonché per l’anonimizzazione di dati personali o per le misure adottate per proteggere le informazioni commerciali a carattere riservato;

  • secondo i termini di licenze standard, disponibili in formato digitale;

  • provvisti dei relativi metadati

Se i dati della ricerca rientrano anche nelle categorie dei dati dinamici, dati di elevato valore o dati territoriali, si applicano anche i requisiti specifici per queste categorie.

I dati e le Infrastrutture di ricerca

Ma cosa succede quanto i dati vengono generati o gestiti all’interno delle infrastrutture di ricerca? Anche in questo caso valgono gli obblighi di aderenza ai principi FAIR e dunque di un orientamento al “più aperto possibile, chiuso per quanto necessario”? Ci sono delle peculiarità specifiche, magari dettate dal profilo giuridico legato a specifiche entità legali? 

Per infrastrutture di ricerca, di cui non esiste in ogni caso una sola definizione (si veda ad esempio  la direttiva sugli Aiuti di Stato),  si possono sicuramente intendere  “gli impianti, le risorse e i servizi connessi utilizzati dalla comunità scientifica per compiere ricerche ad alto livello nei loro rispettivi settori e comprende i principali impianti o complessi di strumenti scientifici e il materiale di ricerca, le risorse basate sulla conoscenza quali collezioni, archivi o informazioni scientifiche strutturate e le infrastrutture basate sulle tecnologie dell’informazione e delle comunicazioni, quali le reti di tipo GRID, il materiale informatico, il software e gli strumenti di comunicazione, nonché ogni altro mezzo necessario per raggiungere il livello di l’eccellenza. Tali infrastrutture possono essere ubicate in un unico sito o organizzate in rete («distribuite»)”, secondo la definizione della Commissione europea contenuta nel Regolamento (CE) N. 723/2009 del Consiglio del 25 giugno 2009, art. 2, lett. a), e riportata sul portale del MUR.

In aggiunta ai requisiti comuni, alle  IR sono applicabili requisiti tra i quali vale la pena ricordare: 

  • la dotazione di metadati dettagliati e Identificativi persistenti (per esempio DOI), che siano disponibili anche quando i dati prevedono un accesso ristretto o non sono disponibili.

  • l’uso di protocolli standardizzati e aperti (per esempio il protocollo https) 

  • l’uso standard di metadati, se possibile di dominio, e vocabolari controllati, parole chiave, thesauri e ontologie;

  • la specifica di come, perché, quando e da chi i dati sono stati creati e processati

  • Il rilascio dei dati con licenza CC-BY 4.0 o CC-0 (dunque evitando licenze proprietarie) e consentendo riuso per opere derivate, anche per fini commerciali.

  • la messa a disposizione dei dati tramite API che siano conformi alle “Linee Guida sull’interoperabilità tecnica delle Pubbliche Amministrazioni” e le “Linee Guida Tecnologie e standard per la sicurezza dell’interoperabilità tramite API dei sistemi informatici”, adottate con la Determinazione di AgID n. 547/2021;

  • le regole per il riuso dei dati, così come le tariffe e i dettagli su come vengono calcolate, devono essere pubblicate sui siti web delle istituzioni pubbliche, degli enti pubblici e delle aziende pubbliche competenti

Data l’importanza di questi requisiti, può essere utile fornirre un caso d’uso, presentando il lavoro fatto in SoBigData RI, un’infrastruttura di ricerca (in inglese, research infrastructure o RI) dove il principio FAIR e l’Open Science sono stati di grande ispirazione, e che a sua volta può essere fonte di ispirazione per altre infrastrutture di ricerca.

L’infrastruttura di ricerca SoBigData
SoBigData RI è una infrastruttura di ricerca composta da vari partner distribuiti in tutta Europa, allo scopo di promuovere l’interdisciplinarità e la ricerca etica innovativa, combinando dati e approcci guidati dai modelli.

SoBigData RI offre numerosi servizi alla sua rete di utenti, tra cui risorse per educare la prossima generazione di data scientist, un programma di mobilità per visitare i nodi dell’infrastruttura e iniziare collaborazioni e un catalogo completo di risorse (dataset, librerie di metodi, paper) per facilitare il riuso e l’open science.
Al momento il catalogo si compone di più di 200 dataset, più di 250 articoli scientifici, 175 tra metodi, algoritmi, metodi e librerie.

Allo stato attuale, SoBigData RI non è classificabile come organismo di diritto pubblico in quanto manca uno dei tre requisiti necessari elencati nell’art. 2, comma 1, del D.Lgs. n. 65 del 2000, cioè essere un soggetto dotato di personalità giuridica, e per questo non rientra tra i soggetti elencati nell’art. 1 del D. Lgs. 36/2006. Tuttavia essa è inserita tra le infrastrutture di ricerca “ad alta priorità” nel Piano italiano delle Infrastrutture di Ricerca (sulla scorta dei criteri del Piano Nazionale della Ricerca) e ha intrapreso il percorso ESFRI per diventare un European Research Infrastructure Consortium (ERIC)

Un nodo fondamentale di SoBigData RI è il Consiglio Nazionale delle Ricerche italiano, che in quanto ente di ricerca è soggetto al D. Lgs 36/2006 e deve rispettare i requisiti elencati nelle Linee Guida dell’AgID. Inoltre, SoBigData RI è composta da enti di ricerca e università che, anche se per la maggior parte stranieri e quindi non obbligati ad ottemperare alla legislazione italiana, sono storicamente cultori dei princìpi di Open Science e Open Data. Per tutti questi motivi, la governance di SoBigData ha ritenuto importante fare una valutazione in merito al rispetto, da parte dell’infrastruttura, dei requisiti elencati nelle Linee Guida AgID per l’apertura dei dati, al fine di individuare i punti di forza e gli aspetti da migliorare per allineare l’infrastruttura a quanto richiesto dalla disciplina italiana. Ovviamente, per tutti i motivi detti sopra (primo tra tutti il fatto di nonessere classificabile come organismo di diritto pubblico), l'adesione ai principi di apertura elencati in questo documento non è obbligatoria ma solo volontaria. Nondimeno, la governance di SoBigData crede fermamente che il rispetto di questi princìpi sia un valore aggiunto importante e che fornisca un esempio di buone pratiche da adottare.

Come le Linee Guida dell’AgID riguardano l’infrastruttura SoBigData
Elementi fondamentali su cui si basa l’infrastuttura SoBigData sono il rispetto dei principi FAIR e del principio per cui i dati della ricerca devono essere as open as possible, as closed as necessary, così come richiesto dall’art. 10 della Direttiva Open Data.

Come visto sopra, i requisiti possono essere specifici del tipo di dato trattato. Nell’ambito di SoBigData sono stati raccolti i requisiti pertinenti per i dati che messi a disposizione da questa infrastruttura. Tra questi sono stati identificati ventidue requisiti pertinenti, che spaziano dall’assicurare il riutilizzo a fini commerciali e non commerciali al fornire metadati informativi dei dati contenuti.

SoBigData RI ne rispetta pienamente quattro: i dati sono messi a disposizione per fini commerciali e non commerciali, sono disponibili gratuitamente, sono state individuate procedure specifiche per gestire le richieste di riutilizzo e i metadati sono sempre disponibili.
Tre requisiti sono invece parzialmente rispettati, ma nella maggior parte dei dati le modifiche richieste per soddisfarli pienamente sono relativamente semplici da implementare (si va dall’aggiunta di alcuni metadati all’aggiunta di formati di dati completamente aperti e leggibili meccanicamente per i dataset che ne sono attualmente sprovvisti, problema che riguarda soltanto circa il 10% dei dataset).

Sette requisiti richiedono ulteriori approfondimenti o chiarificazioni da parte di esperti in materia (per esempio, il requisito 12 dove si parla di “standard pertinenti” per i metadati).
I rimanenti otto requisiti non sono rispettati al momento. Alcuni sono di più semplice realizzazione (per esempio, inserire e mantenere aggiornati nel portale dati.gov.it oppure documentare i dati territoriali presso il Repertorio Nazionale dei Dati Territoriali), altri sono relativi all’applicazione di licenze permettano il riutilizzo anche per fini commerciali. Allo stato attuale, infatti, circa il 70% dei dataset (117 su 162 dataset totali, tra quelli accessibili direttamente dal catalogo) è disponibile solo per fini non commerciali. Questo problema è comunque risolvibile inserendo la richiesta di una motivazione da parte dei ricercatori che curano un dataset di indicare perché la licenza scelta non risponde a questo requisito.
Ci si aspetta che l'infrastruttura possa presto rispettare pienamente tutti i requisiti poiché, vista l’importanza crescente che essa ricopre nel panorama nazionale, diventi un un obbligo morale assicurare la compliance agli obblighi normativi europei e nazionali nonché alle più rilevanti linee guida e indicazioni del settore.

(1) Si veda l'articolo 9-bis del D. Lgs 36/2006

References:
Linee Guida recanti regole tecniche per l’apertura dei dati e il riutilizzo dell’informazione del settore pubblico Art. 12 D.Lgs. n. 36/2006 e s.m.i. [Accessibile a: https://www.agid.gov.it/sites/default/files/repository_files/lg-open-data_v.1.0_1.pdf]

D.lgs. 36/2006

https://www.normattiva.it/uri-res/N2Ls?urn:nir:stato:decreto.legislativo:2006-01-24;36!vig= 

Direttiva UE 2019/1024

https://eur-lex.europa.eu/legal-content/IT/TXT/PDF/?uri=CELEX:32019L1024

Dati di elevato valore https://www.agid.gov.it/sites/default/files/repository_files/guida_operativa_hvd_-_ver._1.0.pdf

Roberta Savella

Roberta Savella si occupa di ricerca su data protection, diritto delle nuove tecnologie e diritti di proprietà intellettuale presso l'Istituto di Scienza e Tecnologie dell'Informazione (ISTI) del CNR nell'ambito del progetto SoBigData ++. Ha una formazione giuridica e si è specializzata su queste tematiche collaborando con studi legali in Italia e in Irlanda, pubblicando vari articoli divulgativi su testate online, scrivendo capitoli di monografie sulla tutela dei dati personali, e tenendo lezioni per corsi di formazione per professionisti.

Tutti i contenuti dell'autore
Francesca Pratesi

Francesca Pratesi è una ricercatrice all'Istituto di Scienza e Tecnologie dell'Informazione del Consiglio Nazionale delle Ricerche (ISTI-CNR) di Pisa, dal 2021.
Ha conseguito il titolo di Dottore di Ricerca in Informatica all'Università di Pisa nel 2017, con una tesi dal titolo "Privacy Risk Assessment in Big Data Analytics and User-Centric Data Ecosystems".
I suoi interessi di ricerca sono principalmente il privacy-preserving data mining, la valutazione del rischio di privacy, e la Trustworthy AI, in particolar modo sul legame tra etica e social-mining.
Nella sua carriera è stata coinvolta in 10 progetti di ricerca finanziati dall'Unione Europea, ha firmato 10+ articoli su riviste internazionali, ha tenuto 15+ seminari e lezioni individuali, ed è stata (co-)docente di due corsi tenuti all'Università di Pisa.

Tutti i contenuti dell'autore