Articolo

La formazione dei data steward all’Università di Torino. Annotazioni preliminari sull'esperienza

Image by Pexels from Pixabay

Il ruolo del data steward, sempre più cruciale nell'attuale contesto scientifico data-intensive, richiede competenze specifiche e multidisciplinari. L'università di Torino ha attivato una prima edizione di un corso di formazione per questa nuova figura professionale. Il corso è strutturato in tre macro-aree tematiche per un totale di 40 crediti formativi. E prevede la possibilità di concorrere a un premio per rendere FAIR un dataset esistente. Alcune delle scelte e un primo bilancio dell'esperienza

La gestione dei dati della ricerca secondo i principi della scienza aperta riveste sempre maggiore importanza nell’ambito dei progetti e delle infrastrutture di ricerca a livello nazionale e internazionale. I concetti di riuso, accesso e interoperabilità (FAIR, ovvero Findable, Accessible, Interoperable and Reusable) sono spesso posti come vincolo dagli enti che finanziano la ricerca.

La figura del data steward costituisce la risposta a tale esigenza, grazie alla sua capacità di supportare chi produce e gestisce dati nell’individuare gli standard, i formati, le modalità e le infrastrutture per la condivisione dei dati, permettendone così l’immissione nel circuito dell’innovazione e della crescita della società.

Il 21 marzo 2024 ha preso il via all’Università di Torino la prima edizione del Corso Universitario di Aggiornamento Professionale (CUAP) per Data Steward. Il corso risponde all’esigenza di enti di ricerca ed enti pubblici di incorporare nel proprio organico questa nuova figura professionale di supporto. Finanziato interamente della fondazione Compagnia di San Paolo, il corso consiste in 320 ore di lezione frontale (40 Crediti Formativi Universitari), erogati in presenza presso il Dipartimento di Informatica, che ne è organizzatore, nell’arco del periodo temporale che da marzo 2024 si estende a novembre 2024.

La selezione di accesso al corso, conclusasi all’inizio di marzo, ha rivelato una buona risposta di interesse da parte del mondo della ricerca e, più in generale, della gestione dei dati. A fronte dei 25 posti messi a bando, infatti, sono pervenute 63 domande di iscrizione da parte di candidate e candidati con profili professionali e provenienze geografiche diverse. L’analisi delle candidature mostra un panorama diversificato per fasce di età, percorsi formativi pregressi, aree disciplinari e ambiti professionali, mostrando un interesse trasversale per la professione di data steward che si estende dai dipartimenti e centri di ricerca universitari ed enti di ricerca all’ambito della consulenza e della ricerca e sviluppo private.

Progettato con il fine di consolidare le competenze delle persone che, nell’ateneo torinese e nell'ecosistema della ricerca regionale, già svolgono il ruolo di data steward, ma anche di formare una nuova generazione di data steward, il corso si articola in tre macroaree, ognuna consistente in moduli specifici per un totale di 17 insegnamenti specifici.

Le prime due aree, Informatico-archivistica e Etico-legale, hanno lo funzione di riallineare le competenze in ingresso dei e delle partecipanti rispetto alle nozioni di base sottese al funzionamento delle piattaforme di rappresentazione e archiviazione dei dati della ricerca (formati, architetture cloud, ambienti virtuali, strumenti semantici, paradigma FAIR) e alle basi etico-legali su cui poggia la loro raccolta e condivisione (DRM, tutela della privacy, regolamenti, integrità della ricerca), senza trascurare la formazione sui principi e le basi della Scienza Aperta (vantaggi e strumenti per aprire la ricerca). Una particolarità dell'impianto didattico del corso consiste nell'inserimento nell’area informatico-archivistica di un nucleo di 12 CFU di informatica (su un totale di 17 CFU di ambito informatico) dedicati allo studio dei meccanismi e degli standard che costituiscono il presupposto per la condivisione dei dati, con la finalità di creare, piuttosto che specifiche competenze pratiche, la consapevolezza degli strumenti necessaria per compiere scelte progettuali e gestionali informate. La terza area, dedicata ai casi di studio, illustra gli standard di comunità, le buone pratiche e le infrastrutture negli ambiti specifici delle scienze umane, delle scienze sociali, delle scienze della vita e delle scienze dure.

Per riflettere la specificità dei moduli del corso i docenti sono stati reclutati, oltre che tra il personale dell'Università di Torino attivo nell’ambito della Scienza Aperta (ricercatori, docenti e personale tecnico-amministrativo impegnato sui progetti e presso le direzioni dell’Ateneo), anche tra il personale di centri di ricerca, quali CNR, GARR e IIT in Italia e in Europa, e liberi professionisti che svolgono attività di consulenza sulla gestione dei dati della ricerca.

In totale, i 40 crediti del corso sono erogati grazie al coinvolgimento di 45 docenti italiani ed europei, di cui alcuni impegnati su contenuti di tipo seminariale in moduli di due o quattro ore, per i quali sono state privilegiate le sinergie con iniziative e infrastrutture attive a livello europeo (EOSC, GO FAIR, Skills4EOSC, Elixir e altre).

A complemento della didattica frontale, si è scelto di includere nelle attività del corso l’apporto di un gruppo di tutor che assistono gli studenti nelle prime due aree, secondo una modalità a sportello e appuntamenti concordati che si estende per 120 ore. L’orario è stato organizzato in modo da favorire le persone già occupate, concentrando le lezioni nelle giornate di giovedì e venerdì, e avvalendosi della piattaforma Moodle per la condivisione dei materiali didattici e l’interazione tra docenti e studenti oltre l’orario di lezione. Infine, è stata predisposta un’installazione della piattaforma Harvard Dataverse presso il Centro HPC4AI (High-Performance Computing for Artificial Intelligence at the University of Turin) per il training dei partecipanti al corso in una ambiente sandbox. Al fine di incentivare i partecipanti al corso a mettere in pratica le soluzioni apprese durante le lezioni, si è scelto di sostituire il project work, non obbligatorio secondo il regolamento che norma la tipologia specifica di corso, con la possibilità di concorrere a un premio - anche frazionabile - per la FAIRificazione di un dataset esistente: per candidarsi al premio i partecipanti al corso dovranno formare dei gruppi che presentino un progetto di FAIRificazione coerente con i principi e gli strumenti studiati durante il corso, a coronamento del loro percorso di formazione.

Nonostante non sia ancora possibile valutare in maniera definitiva l’efficacia del corso, dato che le lezioni termineranno a novembre 2024, è possibile tracciare un primo bilancio positivo facendo leva sulla frequenza e sulla partecipazione delle/dei discenti. Un bilancio maggiormente accurato dell’impatto del corso sulla creazione di nuove figure di data steward nelle realtà pubbliche e private interessate dal corso e sulle politiche dei dati in queste realtà è ancora prematuro, così come l’eventuale riprogettazione, anche parziale, del corso e dei suoi moduli per future riedizioni.

11 settembre 2024

Marco Aldinucci

Marco Aldinucci è professore ordinario e coordinatore del gruppo di ricerca Calcolo Parallelo dell'Università di Torino. È autore di oltre 180 articoli scientifici e ha ricevuto numerosi premi prestigiosi, tra cui l'HPC Advisory Council University Award e l'IBM Faculty Award. Marco ha partecipato ad oltre 15 progetti di ricerca finanziati dall'EU, portando all'università oltre 10 milioni di Euro di fondi EU per la ricerca. Marco ha co-progettato diversi ambienti di programmazione open-source come Fastflow e Streamflow. Inoltre, ha fondato il laboratorio HPC4AI@UNITO, il laboratorio nazionale CINI "HPC Key Technologies and Tools" e il laboratorio nazionale "Software & Integration" presso il Centro Nazionale Italiano HPC (ICSC). Per l'Università di Torino, Marco coordina il gruppo di lavoro OpenScience ed è il delegato nelle assemblee di EOSC, Gaia-X e CINECA.

Tutti i contenuti dell'autore

Rossana Damiano

Rossana Damiano è professore associato di Informatica presso l'Università di Torino (Dipartimento di Informatica), Torino, Italia, dove insegna Documentazione digitale, Programmazione Web e Tecnologie semantiche. I suoi interessi di ricerca riguardano principalmente l'intelligenza artificiale per i beni culturali, con particolare attenzione all'annotazione semantica e alla disseminazione.

È co-fondatrice e membro del CIRMA (Centro Interdipartimentale di Ricerca sulla Multimedialità e l'Audiovisivo) dell'Università di Torino e co-fondatrice della serie di workshop IAI4CH (AI for Cultural Heritage dell'Associazione Italiana per i Beni Culturali, AI*IA)

Autrice di più di 120 pubblicazioni in convegni, conferenze e riviste e co-autrice di "Interactive storytelling: a cross-media approach to writing, producing and editing with AI". Pizzo, A., Lombardo, V., Damiano, R. (2023). Routledge.

Vice-coordinatrice del gruppo di lavoro Open Science dell'Università di Torino.

Tutti i contenuti dell'autore