L’11 marzo scorso l’Organizzazione Mondiale della Sanità ha dichiarato lo status di pandemia per la diffusione del virus SARS-CoV-2 nel mondo. In Europa il primo paese ad affrontare quella che era ancora un’epidemia è stata l’Italia con la dichiarazione dello stato di emergenza sanitaria del 31 gennaio. Il 23 febbraio il Governo promulga le prime misure urgenti in materia di contenimento, mentre il Dipartimento della Protezione Civile comincia a fornire i dati che quantificano l’epidemia in un bollettino quotidiano a partire dal 24 febbraio, poi pubblicato anche in formato aperto nel repository Github ufficiale a partire dal 7 marzo.

Tutti i numeri dell’epidemia in Italia nella dashboard ufficiale della Protezione Civile.

Più o meno da allora si condividono e discutono analisi e visualizzazioni di questi dati a tutti i livelli, da quelli istituzionali, a quelli accademici, a quelli amatoriali. Gli indicatori che destano più interesse sono il numero di positivi, di ricoveri, di ricoveri in terapia intensiva, di decessi. Numeri già discussi nelle settimane precedenti relativamente al caso cinese e su cui Alice Corona aveva già messo in guardia con un articolo su questo magazine, sottolineando le attenzioni che bisogna avere nel leggerli e suggerendo tutta una serie di accortezze per non interpretarli in maniera errata.

L’andamento nel tempo dell’epidemia

In Italia (ma non solo), l’analisi più gettonata è quella dell’andamento nel tempo di questi indicatori, in cerca di un segnale di picco (o flesso, a seconda che si guardano i dati giornalieri o quelli cumulati) dell’epidemia, cioè quel momento oltre il quale la situazione andrà migliorando. Una semplice occhiata a gruppi come PhysicistsAgainstSARSCoV2 o a pagine come Coronavirus – Dati e Analisi Scientifiche e StatGroup-19 mostra l’enorme produzione di analisi, grafici e modelli descrittivi o previsionali di questi giorni e il gran numero di persone coinvolte.

Una rappresentazione qualitativa degli effetti di diverse politiche di sanità pubblica sulla diffusione del contagio. In verde il cosiddetto picco del contagio, dopo il quale il numero di nuovi infetti giornalieri inizia a diminuire. Fonte: Tomas Pueyo.

Negli ultimi giorni, però, sono emersi molti dubbi sull’affidabilità dei dati disponibili, confermati anche dallo stesso capo della Protezione Civile, Angelo Borrelli: “il rapporto di un malato certificato ogni dieci non censiti è credibile”. Tanto che anche alcuni giornalisti si sono chiesti quanto siano davvero utili le conferenze stampa quotidiane.

In questo articolo voglio fare una breve sintesi della storia di questi indicatori, così da far emergere un quadro più chiaro rispetto alla discreta confusione degli ultimi tempi.

Numero di positivi

Inizialmente l’indicatore ritenuto più utile era il numero di positivi, poi però si è capito che le modalità di somministrazione dei tamponi erano troppo limitate, arbitrarie, opache e ballerine e quindi si è accantonato, come ben sintetizzato da Il Post. Ci sono molti problemi a confrontare i dati anche da un giorno all’altro. Il suggerimento è di non dare peso alle previsioni basate su questo indicatore che ancora girano, come ben sintetizzato dal prof. Giuseppe De Nicolao. Ci sono tentativi di stimare il numero complessivo di contagiati e la loro evoluzione, anche nell’ambito di un confronto tra i paesi europei, ma solo in maniera indiretta.

Ricoveri in terapia intensiva

Poi si è passati ai ricoveri in terapia intensiva, ma si è presto capito che l’andamento di questo numero dipende moltissimo dagli effetti di saturazione dei reparti ospedalieri. Qualsiasi flessione della crescita di questo indicatore è più probabilmente da attribuire all’incapacità del sistema di far fronte al gran numero di malati, piuttosto che a un vero rallentamento dell’epidemia. È utile quindi più per capire quanto gli ospedali sono in sofferenza, e non tanto per fare previsioni sull’andamento dell’epidemia. Discorso simile per i ricoverati normali, quindi che non transitano necessariamente in terapia intensiva o sub-intensiva.

Numero di decessi

Ci si è allora concentrati sul numero di decessi (e in alcuni casi sulla somma di terapie intensive e decessi), ma recentemente si è capito che anche questo numero dipende fortemente dalle modalità di somministrazione dei tamponi, che sembra vengano fatti sempre meno post mortem, a maggior ragione se il decesso avviene fuori dagli ospedali. Si torna quindi alle problematiche già viste per il numero di positivi, così anche qui il suggerimento è di non dare troppo peso alle previsioni basate sui decessi e prendere con le pinze le loro conclusioni.

Paragrafo aggiunto il 20 aprile 2020.

Per compensare questa sottostima del numero di decessi per/con COVID-19 a fine marzo il Ministero della Salute prima e l’ISTAT poco dopo hanno iniziato a rilasciare i dati della mortalità per qualsiasi causa, cioè il numero di decessi registrati alle anagrafi comunali indipendentemente dalla causa di morte. Si tratta sicuramente di una sovrastima perché non tutti i decessi possono essere attribuibili all’epidemia, ma il confronto dell’attuale mortalità delle varie regioni italiane con quella degli anni passati mostra un aumento considerevole, soprattutto al Nord, come già anticipato da alcune inchieste giornalistiche pionieristiche.

Numero di guariti

Paragrafo aggiunto il 20 aprile 2020.

Anche se non è molto utile per tracciare la dinamica dell’epidemia, il numero di guariti rimane comunque importante, perché quantifica chi ha superato indenne la malattia, spontaneamente o grazie al supporto del sistema sanitario. Purtroppo è emerso che nemmeno questo numero, così come rilasciato, indica davvero le persone contagiate, ammalatesi e poi guarite, a causa di problemi derivanti dalle modalità di raccolta dei dati a livello locale.

Modalità di somministrazione dei tamponi

Ci sono altri indicatori ancora utili per tracciare l’andamento dell’epidemia? Al momento sembra di no, purtroppo le modalità di somministrazione dei tamponi (ai sospetti, ai ricoverati, ai deceduti) non sono affidabili, l’indicazione di farli solo ai sintomatici gravi o a rischio non permette di avere un quadro del reale andamento dell’epidemia, a maggior ragione se il vettore più importante del virus è il portatore asintomatico (che ha quindi il virus SARS-CoV-2, è contagioso, ma non ha mai o non ha ancora sviluppato la malattia COVID-19 o ne è appena uscito). Senza contare che ogni regione ha i suoi protocolli specifici che possono essere anche molto eterogenei, come è il caso del Veneto.

Finché le modalità di somministrazione dei tamponi non cambiano, qualsiasi analisi dell’andamento di questi indicatori ha un valore predittivo molto limitato, se non nullo.

In attesa di un cambio di queste modalità (es. tamponi su campioni statisticamente significativi della popolazione, a tutti i deceduti per qualsiasi motivo, a tutti quelli sospetti con un’attività di contact-tracing, ecc.), le uniche analisi con un minimo di senso sono forse quelle su territori lontani dalla saturazione, quindi tutti quelli in iniziale o piena fase esponenziale. Non la Lombardia, né i dati nazionali, per capirci.

Purtroppo anche altri indicatori potenzialmente utili per tracciare l’epidemia e fare confronti tra i territori soffrono della stessa incertezza: la letalità (numero di decessi sul numero di contagiati), la mortalità (numero di decessi sulla popolazione esposta), la prevalenza (numero di contagiati sulla popolazione esposta), l’incidenza (numero di nuovi contagiati sulla popolazione esposta). Stessa sorte per molte visualizzazioni, mappe, infografiche e dashboard: per quanto apparentemente complete e ben fatte, il loro valore informativo, almeno per l’Italia, appare quanto mai limitato.

Cosa fare allora di tutte le analisi delle ultime settimane?

Alla luce delle problematiche descritte, alcuni degli autori più attivi hanno iniziato a fare un passo indietro, altri invece hanno chiarito i limiti di quanto fatto, pur ribadendone il valore. Purtroppo dati inaffidabili non possono che produrre analisi inaffidabili, per questo è importante che l’attenzione sulla qualità del dato sia sempre altissima, sia da parte delle istituzioni che lo producono, sia da parte di chiunque quel dato vuole usarlo per lavoro o per informarsi.

Questo articolo è la versione espansa e aggiornata di questo post sul gruppo Facebook di Dataninja, ringrazio tutti coloro che hanno partecipato alla discussione.