“La data visualization si porta dietro un’aura di certezza: le linee pulite, le forme geometriche e le fonti rispettabili trasmettono autorità. Ma queste convenzioni possono danneggiarci…”

Così afferma Catherine D’Ignazio, ricercatrice al MIT, tra le maggiori esperte di data-literacy al mondo. 

Proprio questa “aura di certezza” sta diventando il perfetto cavallo di Troia per campagne di propaganda e disinformazione.  Che ormai non ci arrivano più solo sotto forma di “notizie false” o foto-montaggi, ma anche di dati, tabelle e visualizzazioni ingannevoli.

Per iniziare a informarsi meglio con i dati, in Dataninja ci piace unire due approcci:

  • fact-checking: capacità di stabilire l’attendibilità di un contenuto o una fonte
  • data literacy: capacità di saper leggere, analizzare e comunicare con i dati 

Il risultato è un approccio che chiamiamo data-checking e che abbiamo iniziato a sperimentare in alcuni workshop e progetti educational. 

Nella sua versione base, il data-checking suggerisce di prestare attenzione a tre questioni:

1) Affidabilità

Qual è la fonte primaria? 

Chi c’è dietro? Che interessi persegue?

Sono disponibili meta-dati che permettono di capire come e quando i dati sono stati raccolti ed elaborati?

Esistono altre fonti che confermano questi dati?

Di fronte a un dato, una tabella o una data visualization dovremmo sempre porci queste domande.

Eppure, troppo spesso, ancora non avviene tutto ciò.

In piena emergenza Covid-19 ha fatto molto discutere il caso di Worldometer, aggregatore di statistiche live, utilizzato da moltissime testate intorno al mondo, dal New York Times al Financial Times, fino ad arrivare alle nostre La Repubblica e Ansa

Un’inchiesta della CNN ha rivelato non solo la presenza di dati sbagliati su Worldometer, ma anche la difficoltà a capire chi ci fosse dietro al progetto – probabilmente un italiano con residenza a Bologna, ma di più non si sa, perché i fondatori hanno ben nascosto le proprie tracce…

Nessuna testata del calibro del New York Times o del Financial Times pubblicherebbe mai una notizia proveniente da un blog sconosciuto, che non dichiara chi c’è dietro. Perché lo stesso non avviene (ancora) con i dati? 

L’attendibilità delle fonti va verificata in particolar modo quando ci troviamo di fronte a data-mix, come ad esempio la famosa dashboard della John Hopkins University che ha incluso tra le proprie fonti Worldometer senza una verifica della sua attendibilità, contribuendo così a diffondere i suoi dati poco affidabili.

2) Correttezza

Come per le dichiarazioni o le fotografie, anche per i dati si può partire da informazioni autentiche e attendibili, ma piegarle a una particolare lettura di parte.

Prendiamo i famosi “35 euro” dati come “stipendio giornaliero” ai “profughi”. Anzi, “regalati” secondo questo tweet del leader della Lega Matteo Salvini:

Il dato dei 35 euro è corretto: si tratta di una stima effettuata dal Ministero dell’Interno su quanto costi in media al giorno l’accoglienza di un migrante adulto. 

È del tutto scorretto, però, dire che questa cifra vada in tasca al migrante. La maggior parte (32,5 euro) vanno a chi si occupa della gestione dell’accoglienza; solo 2,5 euro possono essere dati come “pocket money” nelle mani del richiedente protezione internazionale.

Simile a questo uso scorretto dei dati è poi il cherry-picking, letteralmente “raccogliere le ciliege” facendo attenzione a prendere solo quelle più buone. Una tentazione molto facile quando si analizzano lunghe serie di dati e se ne estrapola solo una parte per far passare un preciso messaggio. 

3) Funzionalità

Un dato può mentire non solo perché non è attendibile, oppure perché è riportato fuori contesto, ma anche perché ci viene presentato in maniera ingannevole.

In questo caso si sfruttano le potenzialità visive e narrative della data-visualization: un colore, una forma, una rappresentazione sono portatrici di messaggi che ci parlano in maniera diretta, anche senza leggere bene i dati o le informazioni. 

Gli esempi di #horrorchart purtroppo sono sempre più frequenti, come ad esempio questa visualizzazione – molto di parte – sugli effetti dell’Obama-care, in cui è stato troncato l’asse delle X per far apparire più lontano l’obiettivo finale.

Per comunicare in maniera funzionale i dati bisognerebbe sempre attenersi ad alcune regole base, come ad esempio:

  • non troncare l’asse delle x (come fatto nella visualizzazione sopra)
  • rendere costanti i valori degli assi
  • non fermarsi ai valori assoluti (soprattutto in una mappa)
  • evitare le rappresentazioni poco pertinenti (come ad esempio i grafici a torta)
  • usare i colori in modo appropriato
  • preferire visualizzazioni di facile comprensione a quelle più d’impatto ma meno efficaci

Altre indicazioni sono presenti in questo interessante video di Filippo Mastroianni.

Ovviamente non è facile distriscarsi tra i livelli di attendibilità/correttezza/funzionalità, soprattutto ora che la data-visualization sta diventando uno dei tanti campi di battaglia del marketing politico (e non solo). Ma è un esercizio che dobbiamo iniziare a fare sempre più spesso.

Questa mappa twittata da Trump è sia attendibile (i dati sono quelli ufficiali delle contee dove Trump ha vinto contro Clinton) che funzionale (la visualizzazione coropletica è perfetta per rappresentare la distribuzione geografica di un dato).

Ma è del tutto scorretta per il messaggio che Trump vorrebbe dare: non visualizza i valori assoluti dei voti ricevuti, ma solo la loro distribuzione; anzi, a vedere i voti assoluti, Trump ne ha ricevuti meno della Clinton.

Mappa tratta dal libro di Alberto Cairo “How charts lie”.

Ecco perché non possiamo più permetterci di fermarci solo a “guardare” i dati o le loro visualizzazioni; dobbiamo sempre chiederci chi c’è dietro, che fonti ha usato, perché ha preferito una rappresentazione su un altra e, soprattutto, se è credibile il messaggio finale che vorrebbe trasmetterci.