Quando il sano scetticismo nei confronti delle statistiche e dei dati peggiora il dibattito e rischia di aumentare la disinformazione. Una riflessione dell’economista Nicholas Huntington Klein.

Statistiche e dati spesso possono risultare sbagliati.  A volte lo sono a causa di una certa negligenza, a volte possono esserlo anche se abbiamo messo molto impegno nell’analisi, perché è veramente difficile ottenere un risultato corretto e altre volte sono sbagliati di proposito. Questo non dovrebbe stupirci. È l’opinione che molte persone hanno delle statistiche. Non mi sorprende che il libro di statistica più venduto di tutti i tempi si concentri proprio su come i dati possano sbagliarsi, cioè il classico Come mentire con le statistiche di Darrell Huff. Non so se Huff abbia ispirato tutto questo scetticismo o se l’abbia semplicemente riflesso su di noi (sospetto la seconda ipotesi), ma a parte questo sappiamo di dover stare in guardia davanti alle cattive statistiche.

Lo scetticismo nei confronti delle statistiche è un bene. Tuttavia, proprio come una fede incondizionata può portarci a credere a cose che non sono vere, lo stesso può succedere se si ha un eccessivo scetticismo. Come racconta Tim Harford, autore, podcaster e membro della moderna industria “be-careful-with-data” (fa attenzione ai dati, ndt), Darrell Huff ha portato lo scetticismo verso i dati – che lo ha reso noto – un po’ troppo in là. Finì per essere pagato dall’industria del tabacco per testimoniare davanti al Congresso degli Stati Uniti su quanto fossero dannatamente innocue le sigarette. Dopo tutto, Huff ci ha detto che le statistiche possono essere distorte. Allora lo sono sempre. Anche tutte quelle analisi che mostrano che le sigarette sono dannose per te non saranno affidabili, giusto?

Se vogliamo praticare del sano scetticismo nei confronti dei risultati statistici (e dovremmo farlo), dobbiamo fare attenzione al fatto che le nostre critiche siano effettive e abbiano un senso.

Una caratteristica interessante del passare il tempo sui social media è che si arriva a vedere tutti i tipi di persone che criticano i risultati statistici. Molte di queste critiche non hanno molto senso, o a volte sono critiche legittime in generale che non si applicano realmente al caso in questione. Oppure capita che si parli di un problema reale, ma poi gli si dia un’importanza eccessiva. 

Dal mio punto di vista sembra che la maggior parte di queste critiche siano guidate dal desiderio che il risultato che stanno criticando sia sbagliato, piuttosto che dalla reale preoccupazione per la metodologia utilizzata. Quindi forse parlare del lato statistico/tecnico della questione è inutile. Tuttavia, alcune persone sono sinceramente interessate a sapere se i numeri sono giusti o meno, e in ogni caso può essere utile discutere di alcune di queste convinzioni sbagliate.

Quindi ho elencato sei critiche alle statistiche che vedo di solito sui social media e i motivi per cui non sono poi così fondate:

  1. Bias nell’intensità delle variazioni vs. Bias nelle variazioni
  2. Esigere dettagli infiniti
  3. Chiedere un doppio conteggio
  4. Incomprensione delle variabili di controllo
  5. Correlazione non significa necessariamente causalità
  6. Non dare assolutamente tregua

Questo non è un compendio completo di errori statistici nell’analisi dei dati, ma piuttosto cose che ho visto più e più volte leggendo i commenti sui post contenenti dati sul cambiamento climatico, sondaggi politici, COVID, violenza, relazioni internazionali, ecc. ecc. Non si tratta di errori tecnici – come interpretare male un valore di probabilità o altro, ma più che altro di critiche di buon senso ai dati.

Posso garantirvi che questi errori non sono limitati ad una sola “fazione” di una determinata questione (infatti, alcuni degli esempi qui sotto sono di persone che quasi certamente sono d’accordo con me su quale sia la verità effettiva, anche se penso che abbiano fatto un errore per arrivarci).

1. Bias nell’intensità delle variazioni vs. Bias nelle variazioni

Supponiamo che sia disponibile una statistica che è nota per avere dei bias. Forse il dato è nettamente più alto della “verità” o forse è più basso. L’esempio più ovvio che posso fare è nel campo dei sondaggi politici. Sondaggisti diversi usano metodi diversi – chiamano solo i telefoni fissi? Oppure anche i numeri di cellulare? Pubblicano i sondaggi anche su internet? Dove li pubblicizzano? Come ponderano le differenze di campionamento tra le varie parti della popolazione? E così via. Queste decisioni, intenzionalmente o no, possono portare a sondaggi che sovrastimano costantemente il sostegno per un partito e lo sottostimano per un altro, sia rispetto a quanto rilevato dagli altri sondaggisti (portando al cosiddetto “House Effect“), sia rispetto al risultato effettivo del giorno delle elezioni.

Perciò, se guardate per esempio un sondaggio negli Stati Uniti di quel determinato sondaggista che rispetto ad altri trova sempre un sostegno più alto per i repubblicani, potreste ragionevolmente dire “ehi, il sostegno effettivo ai repubblicani è probabilmente un po’ più basso di quello, poiché questo sondaggista usa metodi che tendono a sovrastimare l’effettivo supporto verso quella parte politica”. Questo è del tutto legittimo.

Ma cosa succede se vedete una variazione di quel valore nel tempo? Magari quel sondaggista che trova sempre un numero alto di consensi per i repubblicani prima diceva che il 55% degli elettori avrebbe votato quel partito, ma ora dice che la percentuale è salita al 65%.

La critica “quell’aumento non può essere giusto, perché questo sondaggista di norma sopravvaluta il sostegno ai repubblicani” non funziona più! I loro metodi di rilevazione rendono il numero assoluto del sostegno troppo alto, certo ma, a meno che non li abbiano completamente cambiati di recente, l’aumento di dieci punti percentuali indica comunque un aumento dei consensi verso i repubblicani.

Ora, il tasso della variazione  potrebbe anche essere sbagliato (tutto potrebbe essere sbagliato), ma semplicemente sapere che il tasso è troppo alto non vi dice che lo è anche la variazione in sé. Senza sapere di più sul perché quel sondaggista ottiene numeri alti per i repubblicani, non si può nemmeno pensare che la loro misurazione della variazione percentuale sia più sbagliata rispetto a quelle che mostrano altri sondaggisti. Se pensate che la variazione percentuale sia sbagliata, dovete trovare una ragione per cui pensate che i numeri di quel sondaggista non siano internamente coerenti tra loro, non solo che siano sbagliati nei loro valori assoluti. Un sacco di statistiche hanno valori assoluti strani, ma almeno vanno su e giù nei momenti in cui sembra che debbano andare su e giù!

Questa critica inesatta salta fuori ovunque si veda un numero che sale o scende e per il quale la gente ha problemi con il modo in cui è misurato, o peggio, pensa che i conti siano truccati. Il tasso di disoccupazione, il PIL, il tasso di criminalità e così via. Per tutti questi casi, finché si tratta di stime prodotte in modo coerente che hanno qualche imperfezione nel processo (invece di vere e proprie bugie), soltanto perché si pensa che il valore in sé sia sovrastimato/sottovalutato non significa che lo sia anche la variazione di quel valore.

Questa critica a volte emerge, anche se meno di frequente nella mia esperienza, nei casi in cui le persone non pensano che il valore originale sia sbagliato, ma solo insolito. Per esempio: mettiamo che i risultati scolastici in una certa regione del tuo paese sono già noti per essere estremamente bassi. In seguito, quei risultati diminuiscono ancora di più. Affermare che questa variazione non è degna di nota perché sapevamo già che quella regione aveva punteggi pessimi è, come minimo, non cogliere il fulcro della questione.

2. Esigere dettagli infiniti

Raccogliere dati è difficile e costoso, e in molti casi lo è anche accedere ai dati, ma è comunque più facile da fare a livello aggregato. È molto più semplice, per esempio, trovare dati sul tasso di disoccupazione degli Stati Uniti che trovare dati sul tasso di disoccupazione nel mio quartiere (anche se so che Steve è senza lavoro da qualche mese…).

Per questo motivo vedrete spesso i dati pubblicati ad un livello più aggregato di quanto sarebbe ideale. A volte questo significa aggregazione geografica, come vedere il tasso di disoccupazione degli Stati Uniti invece del tasso di disoccupazione del mio quartiere. Spesso si tratta di aggregazione tra gruppi di persone. Relativamente poche statistiche disponibili al pubblico sono disponibili suddivise per età, sesso o gruppo etnico, e molte meno di queste sono suddivise per tutte le diverse tabulazioni incrociate di età, sesso, gruppo etnico, livello di istruzione e nazionalità di origine e religione e, e, e…

Una critica comune che vedo è che una statistica aggregata è sbagliata o inutile perché non ha una moltitudine di ripartizioni in livelli di dettaglio crescente.

Ora, a volte una statistica è davvero inutile perché è al livello sbagliato di dettaglio. Se l’argomento caldo del giorno è se l’immigrazione sta influenzando i salari a Macon, Georgia, allora un grafico dei salari che salgono in Georgia in generale non dice molto. “I dati sarebbero troppo difficili da ottenere” può essere vero, ma non rende giusta l’analisi originale.

Ma il problema arriva quando si propone l’argomentazione inversa. Questo è il caso in cui si presenta un grafico che mostra i salari che salgono in tutta la Georgia, e qualcuno commenta “Inutile. I salari stanno scendendo a Macon. Perché scomodarsi a pubblicarlo senza disaggregare i dati a livello di singola città?”

Potrebbe essere interessante avere le informazioni per ogni singola città. Ma spesso non le abbiamo, e la richiesta di livelli di dettaglio sempre più precisi può essere solo una scusa per ignorare una tendenza generale. Inoltre, un fatto deludente delle statistiche è che la dimensione del campione conta davvero. Se avessimo dati suddivisi in piccoli sottocampioni, i risultati per ognuno di questi sottocampioni sarebbero peggiori. Più rumorosi, con risultati fuorvianti che spuntano in alcuni dei sottocampioni e che distraggono dal quadro generale più accurato. Spesso una statistica aggregata è semplicemente una statistica di qualità superiore, anche se è meno dettagliata. Questo è particolarmente vero con dati rumorosi e che cambiano rapidamente, o quando i sottocampioni sono molto piccoli.

Vedo spesso questo genere di critiche in relazione ai dati COVID. Le mascherine funzionano? Quanto sono efficaci i vaccini? Ogni volta che qualcuno ha dei dati che possono aiutare a dare una risposta, i commenti sono inondati da persone che dicono che non ha senso guardare i dati se non si suddividono per età, o per otto diverse comorbidità, o affiliazione politica, o occupazione, e così via. Sì, forse queste cose sarebbero apprezzabili e ci permetterebbero di rispondere a una domanda diversa da quella dei dati aggregati, ma i dati aggregati spesso rispondono a una domanda interessante – certo, forse non quella che vuoi tu, ma probabilmente abbastanza utile di per sé. Evitare queste suddivisioni non rende sbagliata l’analisi aggregata, e c’è una buona possibilità che non la renda nemmeno inutile.

3. Chiedere un doppio conteggio

Un cugino stretto della richiesta di dettagli infiniti (la numero 2 sopra) è l’uso di un sottogruppo per cercare di confutare una statistica. La richiesta di un doppio conteggio viene comunemente fatta in due modi: l’uso di sottogruppi e l’uso di caveat.

Rimanendo sul COVID per fare l’esempio dei sottogruppi, supponiamo che qualcuno abbia un grafico che mostra che il tasso di positività sta diminuendo in Africa. Qualcun altro potrebbe dire: “non può essere corretto, i casi stanno aumentando in Egitto”. Potrebbe anche essere vero che i casi stanno aumentando in Egitto, ma questo non significa che i casi non stiano diminuendo in Africa. Significa solo che l’aumento in Egitto non è sufficiente a compensare il declino complessivo nel resto del continente. Qualcuno che porta avanti questa critica potrebbe dire che la diminuzione dei casi africani dovrebbe essere aggiustata per tenere conto dell’aumento egiziano, e potrebbe anche far notare che così facendo si potrebbe portare la tendenza generale africana ad essere in aumento. Questo non tiene conto del fatto che la tendenza aggregata africana già includeva l’Egitto, e quindi questo aggiustamento conterebbe due volte questo paese.

Vediamo un altro esempio di questo caso con il recente dibattito sull’inflazione. Ho visto molte dichiarazioni secondo cui l’inflazione negli Stati Uniti deve essere più alta di quella registrata perché la carne, o le automobili, stanno salendo di prezzo più velocemente del tasso d’inflazione ufficiale. Vedo anche molte affermazioni per cui l’inflazione non è così grave come viene registrata perché molti servizi diversi stanno aumentando di prezzo più lentamente del tasso d’inflazione ufficiale. Entrambe queste argomentazioni non tengono conto del fatto che, mentre ci sono sicuramente critiche valide sul modo in cui l’inflazione viene misurata, si suppone che l’inflazione non corrisponda agli aumenti di prezzo della carne, o delle automobili, o dei servizi individualmente, ma che registri l’aumento di prezzo per tutti loro in una volta sola. Se ognuno dei singoli aumenti di prezzo corrispondesse alla statistica aggregata, questo sarebbe veramente sorprendente, non un segno che sta funzionando correttamente.

Portando questa critica al microlivello abbiamo il buon vecchio “aneddoto VS dati”. Solo perché hai perso il tuo lavoro la settimana scorsa non significa che la disoccupazione stia aumentando, e solo perché tua nonna fumava e ha vissuto fino a 104 anni non significa che il fumo non sia dannoso. Ma questo lo sapevi già, immagino.

4. Incomprensione delle variabili di controllo

Usare le variabili di controllo è una cosa falsamente complicata. Si usano per scoprire la relazione tra due fenomeni – per esempio bere più acqua e una migliore salute generale. Si pensa che queste cose possano essere correlate per diverse ragioni: (1) forse molta acqua rende più sani, o (2) forse le persone atletiche hanno più probabilità di bere molta acqua, e gli atleti sono comunque sani/e. Lo scopo di una variabile di controllo è quello di cercare di escludere una di queste spiegazioni.

Osservando la relazione tra acqua e salute entrambe le spiegazioni di cui sopra sembrano possibili, ma se si esamina la relazione tra acqua e salute mentre “l’essere un atleta” diventa una variabile controllata, “l’acqua rende più sani”  rimane la sola spiegazione del perché sono collegati (se queste sono effettivamente le uniche due spiegazioni possibili, il che sembra incerto).

Come può essere applicato questo ragionamento nella pratica? Di solito si critica un’analisi per non aver separato una variabile, anche quando non si sta cercando di individuare una spiegazione specifica. I controlli servono a escludere certe ragioni per cui vediamo qualcosa nei dati. Ma se non ci interessa il perché, ci interessa solo che lo vediamo nei dati, allora probabilmente non vogliamo controllare nulla. 

Il cambiamento climatico è un ambito dove la distinzione può essere chiara. Una critica che vedo spesso dagli scettici del cambiamento climatico è che non si tiene conto di fenomeni come il rilascio di CO2 dalle eruzioni vulcaniche. Questa critica ha un senso concettuale quando si parla del perché le temperature stiano aumentando – se si vuole individuare negli esseri umani la ragione del riscaldamento, si vuole controllare le altre potenziali ragioni per un aumento della temperatura nel tempo, come le eruzioni vulcaniche (sicuramente gli scienziati del clima non hanno mai pensato di provare questo). Ma non ha senso quando lo vedo usato come argomento sul perché la prova dell’aumento delle temperature sia essa stessa sbagliata. Se le temperature stanno aumentando, stanno aumentando indipendentemente dalla causa.

Un’altra applicazione errata delle variabili di controllo nelle critiche alle statistiche consiste nel pretendere che l’analisi originale controlli una specifica questione di nostro interesse. È come se un fan amareggiato di una squadra sportiva che ha perso una partita sostenesse che la squadra migliore non sarebbe così forte senza i suoi giocatori di punta. Beh, sì… i giocatori di punta sono ciò che rende la squadra forte … forte. Non ha molto senso dire che la squadra sarebbe peggiore senza di loro. Nei dibattiti politici online questo, in genere, prende spesso la forma di “la politica X non funziona davvero, ha migliorato Y solo perché ha migliorato Z! Controllare per Z rende ovvio che X era inutile”. A me sembra che la politica X abbia funzionato benissimo – ha migliorato Y migliorando Z!

Un altro posto in cui questa cosa salta fuori è nel dibattito online sulla discriminazione del divario salariale di genere. Si dovrebbe cercare il divario salariale solo all’interno della stessa posizione lavorativa (cioè “controllando l’occupazione”)? Una spiegazione comune data al perché c’è un divario salariale discriminatorio è che le donne sono tenute fuori dai lavori più pagati. Se si controlla per l’occupazione, si esclude questa spiegazione dicendo che non contribuisce al divario discriminatorio, anche se dovrebbe. Quindi è chiaro che non dovremmo controllare l’occupazione in questo caso. 

Bene… un’altra spiegazione spesso data per il divario salariale è che uomini e donne preferiscono occupazioni diverse. Se non controlliamo l’occupazione, stiamo dicendo che quelle scelte sono parte del divario discriminatorio, quando forse non lo sono. Hmm, non sembra funzionare in entrambi i casi. La domanda su quanto sia ampio il divario salariale discriminatorio è possibile (e se siete interessati un buon punto di partenza è Claudia Goldin), ma richiede alcuni strumenti oltre al semplice controllo o non controllo di una variabile. Si scopre che l’approccio statistico per rispondere a certe domande deve andare al di là di ciò che può essere contenuto all’interno di una corrispondenza urlata su Twitter.

5. Correlazione non significa necessariamente causalità

Come tutti sappiamo, “la correlazione non è causalità”. Tranne, naturalmente, che a volte lo è. Se salto da un palazzo, c’è una correlazione negativa molto forte tra il tempo trascorso da quando sono saltato e la mia distanza dalla Terra, e sono abbastanza sicuro che sia dovuto alla massa della Terra che mi fa accelerare verso di essa. Posso fare questa affermazione con sicurezza anche senza randomizzare in diversi scenari di salto da un edificio. Più appropriatamente, il termine dovrebbe essere “solo alcune correlazioni sono causali”.

Essere scettici su qualsiasi analisi statistica che pretende di fornire un’interpretazione causale è probabilmente una buona idea, specialmente se alla base di quest’analisi c’è solo qualche grafico rispetto a qualcosa di più approfondito. Stabilire una relazione causale è piuttosto difficile -infatti ho scritto un intero libro su questo tema – e troppo spesso il salto dai dati correlazionali all’affermazione causale avviene sotto il rigoroso insieme di procedure statistiche noto come “wishful thinking”.

L’alto tasso di successo di questa critica fa sì che venga applicata dove non dovrebbe. Tre sono i casi principali in cui succede. Il primo l’ho già trattato nel punto 4 (Incomprensione delle variabili di controllo): se la questione che state criticando non sta cercando di fornire una spiegazione del perché vediamo quello che vediamo (le affermazioni causali sono quasi tutte forme di affermazioni del “perché”), allora far notare che si tratta di una mera correlazione è… beh, lo sanno già.

Il secondo caso è quando la relazione causale è super-mega ovvia. Il mio esempio del saltare da un edificio è un esempio. Anche in altri contesti del mondo reale, c’è davvero solo una spiegazione plausibile del perché qualcosa è accaduto. Se avete intenzione di sostenere che un’interpretazione causale dei dati è sbagliata, aiuta molto avere una spiegazione alternativa e realistica di ciò che sta succedendo. Se non avete nulla, allora “solo una correlazione” potrebbe essere effettivamente “solo una correlazione causale”.

Il terzo caso è quando l’oggetto della discussione è uno studio accademico, in cui lo studio stesso fa un’affermazione causale. Ora, non voglio fingere che non ci siano molti studi accademici in cui fanno affermazioni causali che sono piuttosto deboli. Tuttavia, vedo anche un sacco di critiche alle affermazioni causali degli studi accademici che vengono liquidate a priori perché le affermazioni causali non sono possibili, o sono possibili solo con esperimenti randomizzati (non è vero; di nuovo, ho scritto un intero libro su questo). Ci sono dei modi per affrontare questi problemi, ed è una buona idea controllare almeno se lo studio in questione li ha affrontati. Spesso, chi critica ha pensato ad una ragione abbastanza ovvia per cui la correlazione sarebbe non causale, ma poi si scopre che anche i ricercatori hanno pensato alla stessa cosa e l’hanno considerata nel loro studio.

6. Non dare assolutamente tregua

Tendiamo a essere meno critici nei confronti delle prove che confermano ciò che già sappiamo, e che vogliamo sentire, rispetto alle prove che ci richiederebbero di cambiare le nostre opinioni. Non sono affatto la prima persona a notarlo. Questo fenomeno non è affatto limitato solo alle persone che parlano di statistiche, ma le statistiche lo rendono piuttosto spiacevole.

Perché? Perché le prove statistiche sono imperfette, e le prove statistiche variano.

L’analisi statistica è sempre imperfetta e incompleta e, in qualche misura, sbagliata. Fare analisi richiede di fare supposizioni sulla provenienza dei dati e su come questi si adattano al mondo reale. Inoltre, queste ipotesi non saranno mai vere. Stiamo solo cercando di fare ipotesi che siano abbastanza vicine all’accuratezza da non incasinarci. E le persone non saranno d’accordo su quali dovrebbero essere queste ipotesi.

E le prove statistiche variano. Otterremo risultati diversi da campione a campione e da un posto all’altro. Anche se abbiamo fatto un’analisi perfetta, se la rifacciamo per un certo numero di volte in un numero sufficiente di posti diversi, alla fine troveremo un risultato che contraddice quello da cui siamo partiti.

L’analisi statistica consiste nell’avvicinarsi sufficientemente alla verità da essere utile, non esattamente vera, e nell’ottenere risultati che siano abbastanza coerenti da puntare nella giusta direzione, non sempre la stessa ogni volta.

Per questo motivo, è banale trovare qualche difetto in un’analisi statistica. E spesso non è difficile, almeno se un argomento è piuttosto studiato, trovare qualche prova contraddittoria (ancora più facile se si ammette che quella prova contraddittoria sia a sua volta molto debole o mal costruita).

Rispetto ad altre tipologie di prove, è una buona idea chiedere alle evidenze statistiche non solo se c’è un difetto, ma se questo difetto è sufficientemente rilevante da rendere le prove inutili. Le prove perfette non verranno mai. Se avete l’abitudine di prendere qualsiasi difetto o controesempio di una prova che non vi piace come un motivo per scartarla completamente, sarete in grado di farlo. Ma fatelo ripetutamente e potreste ritrovarvi a buttare via una mole di prove piuttosto consistente, un pezzo alla volta. Questo è doppiamente vero se state trovando scuse per difetti altrettanto banali nell’analisi che vi interessa.

Questo non significa che bisogna accettare i dati in modo acritico. Ma vuol dire che, più di altri tipi di prove, occorre considerare le prove statistiche nel loro insieme, non solo un pezzo alla volta. Il tuo unico controesempio potrebbe pesare contro un singolo esempio, ma se si scopre che si tratta di un unico controesempio leggermente errato per confutare dieci prove a loro volta leggermente errate, anche questo dovrebbe significare qualcosa.