Tra corsi e webinar, abbiamo parlato più volte di come lavorare con i dati. Ma finora non avevamo approfondito un aspetto su cui ci vengono spesso fatte domande: dove trovo i dati che mi servono per iniziare il mio lavoro data driven?

Una premessa: che tipo di dati dobbiamo cercare?

Quando parliamo di dati, intendiamo dati che siano in formato machine-readable e rilasciati con una licenza che ne permette il riutilizzo.

Per dati in formato machine-readable si intende dati che il tuo computer, attraverso un software dedicato come Excel, è in grado di interpretare correttamente. Una tabella in un PDF scansionato non è in formato machinereadable. Un file .CSV, cioè un file di testo con valori separati da virgola, invece va bene perché verrà interpretato correttamente dal computer. Per esempio, importandolo su Google Sheets, il risultato è una tabella dati su cui puoi eseguire operazioni e calcoli.

Lo stesso file in formato .CSV aperto con un editor di testi e con Google Sheets, dove compare correttamente organizzato in tabella.

I dati che ci servono non devono solo essere machine-readable, ma devono anche essere riutilizzabili. Se i dati che abbiamo trovato sono protetti da un qualche tipo di copyright, non siamo autorizzati a farci quello che vogliamo, come pubblicare nostri lavori basati su quei dati. La situazione migliore, cioè più permissiva, è quella di trovare dati di dominio pubblico (public domain). In alternativa, anche una licenza Creative Commons Attribuzione (CC-BY) ci lascia molte libertà di riutilizzo: possiamo riutilizzare i dati a patto di attribuirli correttamente alla fonte. Di seguito una tabella di sintesi con le licenze più comuni e cosa permettono di fare.


Fonte: Creative Commons “Seven regularly used licences” · Wikipedia

Chiarito questo punto, ecco vediamo alcuni posti dove trovare dati aperti e machinereadable.

I portali istituzionali con dati aperti

La situazione ideale è quella in cui i dati che ti servono sono già online, magari con una buona documentazione che spiega chi è l’autore del dataset, quando è stato aggiornato, cosa significano i nomi delle colonne…in modo che puoi facilmente valutare se i dati fanno al caso tuo e procedere poi a scaricarli. Il luogo dove è più probabile trovare questo tipo di situazione è cercare nei portali open data.
Ci sono i portali dati degli istituti di statistica, come ISTAT per l’Italia o Eurostat per l’Europa, che contengono dati demografici, dati sulla società, sul lavoro, sull’economia e molto altro, tra cui le basi territoriali per le mappe. 

Per l’Italia, ci sono anche i portali dati delle pubbliche amministrazioni italiane. I dati dovrebbero idealmente tutti confluire su dati.gov.it, dove trovi gli open data di Comuni, Regioni, INPS, Università, Protezione Civile e molto altro. È un buon posto per iniziare la ricerca dati, ma può non essere sufficiente: non tutte le PA inviano i dati sul portale e, quando lo fanno, non è detto che siano aggiornati. Puoi quindi andare anche nel sito della pubblica amministrazione che ti interessa e cercare, se ce l’ha, nel suo portale open data o nella sezione Amministrazione Trasparente per capire se ci sono dati che ti servono. Anche i siti dei Ministeri hanno una sezione con i dati, in cui puoi trovare i dati da essi prodotti, raccolti o conservati. Interessante per esempio è il portale MIUR dedicato alla scuola, o quello del Ministero dell’Interno con l’archivio storico dei dati elettorali.

La pagine del catalogo open data del Portale Unico dei Dati della Scuola curato dal MIUR.

Se cerchi qualcosa di simile a dati.gov.it, ma a livello europeo, esiste il Portale Open Data dell’Unione Europea, dove trovi i dati prodotti dagli organismi e dalle istituzione dell’Unione Europea. C’è anche il Portale Europeo dei Dati, dove invece confluiscono i dati prodotti dai singoli stati membri dell’UE. Per esempio, i dati che trovi su dati.gov.it li dovresti trovare anche qui, assieme a quelli presenti nei portali nazionali degli altri stati.

Se invece servono dati a livello globale, un ottimo punto di partenza è il portale UNdata, che aggrega in un unico luogo i dati prodotti dalle singole agenzie ONU, come UNICEF, FAO, OMS, e UNHCR.

Gli aggregatori di dati aperti

Se non abbiamo idea di che istituzione abbia i dati che ci servono possiamo anche cercare in quelli che sono gli “aggregatori di dati”, i data-hub: dei siti che non necessariamente ospitano i dati nè hanno dati propri, ma che raccolgono metadati e link a dataset altrui. 

Esiste per esempio DataHub, oppure un portale di portali open data come DataPortals. C’è poi il motore di ricerca Google dedicato a cercare tra i più di 25 milioni di dataset pubblici censiti. Oltre a queste soluzioni generiche, ci sono diversi portali aggregatori dedicati a temi specifici. È il caso di Humanitarian Data Exchange, curato dall’ONU, che contiene dati di interesse umanitario provenienti da più fonti, come Croce Rossa o ONG locali. 

Di fianco a questi aggregatori ufficiali, ce ne sono anche di informali e “social”, curati in maniera orizzontale dalla comunità degli utenti, come il canale /r/datasets di Reddit. Il caso più interessante è data.world, il “Github dei dati”. Qui chiunque può creare un profilo e usarlo per seguire altri profili di utenti che pubblicano i dati o per pubblicare i propri dati in maniera che siano accessibili a chiunque. È un ottima soluzione per trovare dati ufficiali puliti, estratti attraverso scraper, compilati con un lavoro di ricerca manuale e/o aggregati da più fonti diverse. È importante però controllare sempre l’affidabilità di chi sta pubblicando i dati prima di usarli perché qui, a differenza degli aggregatori più istituzionali, chiunque può teoricamente caricare i dati che vuole, anche modificandoli a mano. Prediligi quindi dataset curati da profili di esperti autorevoli e quelli  che citano la fonte originale da cui sono stati presi i dati.

Un tipico feed di Data.world, visibile se si ha un profilo sulla piattaforma.

Oltre a portali e aggregatori, altre idee per trovare dati aperti

Molte testate giornalistiche, soprattutto all’estero, hanno un profilo su GitHub dove per trasparenza pubblicano i dati utilizzati nei loro articoli. Per esempio puoi trovare materiale utile sul profilo Github di FiveThirtyEight, della BBC Data Unit  o dell’italiana OpenPolis

Se ti interessano dati su un tema specifico, verifica se esistono ONG o centri di ricerca che se ne occupano e che sono attivi nel pubblicare i dati al riguardo. Per esempio, Global Forest Watch ha un portale davvero ricco con dati sulle foreste e altri aspetti ambientali. Così come Climate Action Tracker, che monitora le azioni di contrasto al cambiamento climatico attuate dai singoli paesi, ha un portale dati sul tema.

Infine, se cerchi dati relativi ad aziende, ti consiglio di controllare se nel loro sito sono presenti sezioni sulla trasparenza aziendale. I colossi del web pubblicano, per esempio, i transparency report, con numeri sulle richieste dei dati degli utenti ricevute da parte dei governi, oppure le richieste di rimozione contenuti. Sono informazioni che, contestualizzate propriamente, possono essere utili per valutare livelli di sorveglianza governativa o di censura in diversi paesi e su diverse piattaforme. Qui per esempio i transparency report di Google, Facebook o Microsoft. Molte aziende inoltre, perché obbligate dalla legge o per interesse a informare gli investitori, pubblicano nel sito anche i loro dati finanziari, come fanno per esempio Facebook o Shell

Pagina Financial statements information di Shell.

Conclusione

Anche senza addentrarsi in tecniche più complesse di raccolta dati,  che affronteremo in articoli futuri, ci sono davvero molte possibilità per trovare online dati pronti all’uso per le tue analisi e visualizzazioni. Se leggendo quest’articolo ti è venuta voglia di iniziare a lavorare con i dati ma non sai dove iniziare, puoi seguire il nostro corso Introduzione ai dati, di cui trovi alcune lezioni in anteprima gratuita.