Coronavirus: dati e grafici for dummies /1

13 Maggio 2020
Posted in Articoli
13 Maggio 2020 alessandro

Facciamo un po’ d’ordine, perlomeno coi dati che abbiamo: dai quali occorre prendere tutto quello che possiamo per capire un po’ meglio cosa è successo (e, per quanto possibile, cosa sta ancora succedendo).
Partiamo dall’inizio: per ogni regione, la Protezione Civile fornisce il numero dei casi totali scoperti dall’inizio dell’epidemia. Quei casi hanno tre esiti possibili, che corrispondono agli altri numeri forniti dalla Protezione Civile: o sono guariti, o sono morti, o sono ancora positivi. Quelli che sono ancora positivi, a loro volta, si distinguono tra persone in isolamento domiciliare, ricoverati ordinari e ricoverati in terapia intensiva.
Quindi, ricapitolando, rispetto al dato relativo al totale dei casi che la Protezione Civile fornisce regione per regione vale la seguente equivalenza:

totale casi = attuali positivi + guariti + deceduti

laddove, come abbiamo detto qualche riga fa:

attuali positivi = persone in isolamento + ricoverati ordinari + ricoverati in t.i.

e quindi:

totale casi = persone in isolamento + ricoverati ordinari + ricoverati in t.i. + guariti + deceduti

Se fin qui ci siamo possiamo andare avanti: dicendoci subito che ragionare sui numeri assoluti, facendo “classifiche” e “graduatorie” tra regione e regione senza tenere in considerazione la rispettiva popolazione, non significa niente. Per fare un esempio: se in una comunità muoiono cinque persone e in un’altra ne muoiono due, apparentemente la prima comunità è più colpita della seconda; se però la prima comunità è composta da venti persone e la seconda da quattro, significa che nella prima è deceduto un quarto dei componenti, mentre nella seconda ne è deceduta la metà. In realtà, quindi, la comunità più colpita è la seconda (50% dei morti contro il 25% della prima), malgrado i numeri assoluti (5 morti contro 2) possano far sembrare che la più colpita sia la prima.
Ciò premesso, vediamo come sono messe, alla data del 12 maggio, le singole regioni italiane in relazione alle variabili che abbiamo visto sopra e in proporzione alla rispettiva popolazione. Il grafico che segue ci dice quanti sono, regione per regione, i casi di positività scoperti (in verde) e i decessi (in rosso) dall’inizio dell’epidemia ogni 100mila abitanti:

Come si può notare, le differenze tra regione e regione sono enormi. In alcune i casi totali per ogni 100mila abitanti sono nell’ordine delle centinaia (e certe volte sfiorano quota mille), in altre si tratta di poche decine; in alcune i decessi ogni 100mila abitanti superano quota 100, in altre sono così pochi che neanche si riesce a leggere il relativo numerino.
Non sono, questo lo sapete già, differenze “sparse”. Ormai sappiamo fin troppo bene che le regioni più colpite sono quelle del nord, poi vengono quelle del centro e infine quelle del sud: ma la proporzione di questa differenza è davvero macroscopica, La cosa si vede bene nel prossimo grafico (col quale si può anche un po’ giocare, guardando che succede passando il mouse sopra le diverse aree e cliccando qua e là), che rappresenta il “peso” delle quattro zone geografiche geografiche del paese, a loro volta suddivise tra le relative regioni, rispetto al totale dei casi:

Fin qui nulla di nuovo, direte voi: che il virus si fosse scatenato soprattutto al nord si sapeva, visto che i tg non parlano praticamente di altro da due mesi.
Ma ovviamente c’è dell’altro. In particolare c’è il tema dei tamponi, che rende la valutazione sul totale dei casi positivi, ancorché parametrata alla popolazione, poco significativa. Il tema, in estrema sintesi, è questo: che senso ha contare i casi totali, elaborarli e metterli in fila, se non si sa quanti tamponi sono stati fatti? Perché è evidente, ed è un’altra cosa che ormai abbiamo capito bene, che più tamponi si fanno, più positivi si trovano: e dunque parlare di “casi totali” senza considerare il numero dei tamponi effettuati ha poco senso, esattamente come prima aveva poco senso parlare di decessi o di ricoveri senza proporzionarli alla popolazione.
Senonché, sui tamponi la vicenda si complica un pochino: perché alcune persone, specie quelle che vengono trovate positive, devono fare il tampone due, tre o anche quattro volte; e dunque il numero di tamponi effettuati non corrisponde al numero di soggetti testati, che sarà un numero certamente inferiore al primo. Fortunatamente, anche se non dall’inizio dell’epidemia, le regioni ci forniscono entrambi i dati, e dunque possiamo calcolare a quale percentuale della popolazione è stato fatto il tampone nelle diverse regioni:

Come vedete, posto che per le regioni più popolose arrivare a una percentuale alta di tamponi significa farne in assoluto un gran numero in più, e dunque presenta maggiori difficoltà oggettive, anche in questo caso le differenze sono significative: la Valle d’Aosta, tanto per fare i due esempi estremi, in proporzione alla popolazione ha testato sei volte più della Campania; e dunque è lecito aspettarsi che la sua stima dei positivi, relativamente al proprio territorio, sia sei volte più accurata. Dopodiché, a prescindere dalla differenze che pure esistono, le percentuali sono piuttosto basse in tutte le regioni: né, bisogna dirlo, i tamponi sono stati effettuati utilizzando campioni statistici rappresentativi della popolazione, in modo da poter ricavare una stima del contagio un po’ come si fa con le proiezioni elettorali. Dunque la domanda è: che attendibilità può avere un numero dei “casi totali” ottenuto così? La risposta, inevitabile, è: bassa. Certamente, come molti sostengono, il numero che conosciamo è un numero sottostimato: perché, in linea generale, un po’ dappertutto i tamponi sono stati fatti quasi esclusivamente a chi aveva sintomi (o addirittura solo a una parte di chi aveva sintomi, perché spesso non è stato possibile nemmeno farlo a tutti loro), e quindi ai test saranno sfuggiti tutti i cosiddetti “asintomatici”, oltre a coloro (e pare non siano pochi) che hanno avuto sintomi lievi.
Del resto alla stessa conclusione, vale a dire una grande incertezza sul reale numero dei casi totali, si arriva attraverso una strada diversa: quella della letalità del virus.
La letalità, come sapete, viene calcolata dividendo il numero totale dei decessi per il numeri dei casi totali. Nella tabella che segue vengono riportati i tassi di letalità delle regioni italiane, calcolati al 12 maggio:

Sembra anche a voi che qualcosa non torni? Delle due l’una: o parliamo di alcuni virus diversi con diversi tassi di letalità, che vanno dal 18% della Lombardia al 5% dell’Umbria passando per tutte le sfumature che potete vedere nella tabella, oppure c’è qualche problema nei dati che stiamo utilizzando. In particolare, siccome i decessi sono il dato meno incerto che abbiamo, il problema dev’essere nel denominatore della frazione: cioè, come dicevamo, nel numero totale dei casi a cui quei decessi vengono rapportati. Un numero che è evidentemente sottostimato perlomeno nelle regioni con il tasso di letalità più alto: ma forse, per quello che diremo tra poco, anche nelle altre regioni.
Dopodiché, sul tema della letalità una riflessione in più vale la pena di farla. Siccome, proprio per le considerazioni che abbiamo fatto sui tamponi, è molto più facile perdersi per strada i casi totali che i decessi, si deve supporre che le regioni con tassi di letalità più bassi abbiano un risultato più verosimile, più reale rispetto alle regioni con tassi di letalità più alti. Insomma, facendo l’economia di eventuali differenze di ordine “geografico” nel decorso della malattia (delle quali peraltro non mi pare che al momento si abbiano notizie fondate), si deve presumere che il 5% dell’Umbria sia più vicino alla realtà non soltanto del 18% della Lombardia, ma anche della percentuale di tutte le altre regioni. Ebbene, se facciamo l’esperimento di utilizzare questo 5% per ricalcolare “all’inverso” i casi totali di ogni regione, fermi restando i decessi, otteniamo un risultato interessante: gli attuali 221.216 casi totali diventerebbero circa 620mila. Quasi il triplo. Se poi dovessimo utilizzare per lo stesso esperimento l’1% letalità riscontrato in altri paesi come la Corea del Sud, nei quali peraltro la gestione dell’epidemia è stata molto più “scientifica” (e dunque presumibilmente caratterizzata da dati più accurati) della nostra, otterremmo un numero vertiginoso: più di 3 milioni di contagiati totali, dei quali un milione e mezzo solo in Lombardia. Stiamo parlando di un numero pari a quasi quattordici volte quello attualmente riconosciuto.

Perché questa incertezza sul totale dei casi è così importante? Non soltanto perché comporta l’impossibilità di calcolare (o quantomeno stimare) la dimensione attuale dell’epidemia nel paese: ma anche (e direi soprattutto) perché rende complicate le valutazioni in ordine all’aumento o al calo nel tempo dei positivi, e dunque, in estrema sintesi, ai cosiddetti “trend” che servono per capire se stiamo migliorando o se stiamo peggiorando.
Tuttavia, per ovviare (anche solo parzialmente) a questo inconveniente un modo c’è: rapportare i nuovi casi scoperti al tamponi effettuati, in modo da “neutralizzare” l’effetto del numero dei test sul numero dei positivi trovati. Dunque, anziché domandarci se oggi i positivi sono aumentati o diminuiti rispetto a ieri, o all’altroieri, o a tre giorni fa, dobbiamo chiederci se oggi il numero dei positivi trovati ogni ics tamponi effettuati, diciamo ogni mille tamponi, è maggiore o minore di quello di ieri, dell’altroieri o di tre giorni fa. Ebbene, l’andamento del numero di positivi trovati ogni mille tamponi effettuati dall’inizio dell’epidemia a ieri è quello che vedete nel grafico che segue:

Questa curva, evidentemente decrescente, rappresenta un’indicazione certa del fatto che l’epidemia sta calando? No. Se il numero dei positivi trovati sui tamponi effettuati cala, non è detto che cali perché si attenua l’epidemia. Potrebbe calare, ad esempio, semplicemente perché si allarga il campo dei soggetti a cui si fanno i tamponi, e quindi si trovano, in percentuale, molti meno positivi: dunque la curva che abbiamo visto può essere al massimo un indizio, ma non è una prova. Del resto, finché non verrà deciso di fare i tamponi in modo molto più esteso di oggi, oppure di farli usando un campione statistico rappresentativo della popolazione generale, questa prova non possiamo averla. Bisogna procedere, appunto, per indizi, per deduzioni: possibilmente basando quelle deduzioni su qualche dato certo. Ora, come abbiamo già detto tra tutti i dati disponibili quello dei decessi è senz’altro quello più certo (o, diciamo, meno incerto, visto che a quanto pare anche i decessi, perlomeno per un certo periodo e in determinate zone del paese, sembra siano stati sottostimati): perciò analizzare l’andamento dei decessi nel tempo rappresenta un altro indizio, forse il più solido di tutti, della direzione in cui l’epidemia va evolvendo. Nei grafici che seguono trovate l’andamento dei decessi dall’inizio dell’epidemia diviso per gruppi di regioni. Prima la Lombardia da sola (i numeri sono così alti che senza metterla in un grafico da sola tutte le altre curve sembrerebbero uguali), poi le altre regioni raggruppate per livelli assoluti di decessi simili (in modo da poter vedere in modo chiaro tutte le curve):

Come potete vedere, al netto dei valori assoluti molto diversi tra loro, le curve hanno tutte grosso modo lo stesso andamento: prima una fase esponenziale, poi una crescita che diventa sempre meno pronunciata (tenete conto che queste curve non scendono mai perché rappresentano i decessi cumulati, che ovviamente non possono diminuire: si limiteranno a diventare tutte orizzontali quando i morti per Covid saranno stabilmente uguali a zero).

Insomma, questo è un altro indizio: a quanto pare l’epidemia è in fase di (decisa) decrescita. Ma cosa succederà (o meglio, cosa sta già succedendo) durante la ormai celebre “fase 2”? Siamo davvero in grado di gestirla come Conte ha detto di volerla gestire, cioè correggendo “in corsa” le regole se dovessimo registrare un nuovo aumento dei contagi?

Vediamo di occuparcene, nei limiti del possibile, la prossima volta.

RESTA IN CONTATTO

, , ,

Comments (5)

  1. Fabrizio Capriccioli

    Molto interessante e ben scritto.
    Ma, certo, non chiarisce, ed ovviamente non poteva chiarirlo, perché il virus si sia sviluppato in maniera maggiore, nettamente maggiore, nelle regioni del nord.
    A mio avviso, quando si definirà tale aspetto della questione, cioè quando si scoprirà CON CERTEZZA la causa di tale abnorme propagazione (presenza di smog, dei fumi delle fabbriche ecc.) avremo compiuto un notevole passo in avanti. Forse decisivo.
    Buon lavoro.
    Fabrizio Capriccioli

  2. Mauro Zanella

    Lavoro mlt ben fatto! Ed io -ke gioco con la matematica – ho fatto una “analisi” 20 volte meno valida delka tua. Fai vergognare *il mio 30 in statistica*! Congratulazioni 🙂

  3. giorgio andreoli

    ottimo lavoro e ben spiegato. Consiglio di provare a mettere nel cronogramma gli eventi che possono aver contribuito al cambiamento della curva per vedere dopo quanto tempo arrivano gli effetti (ad esempio chiusura dei voli aerei, blocco delle attività, distanziamentoo fisico, riapertura delle attività commerciali, etc.)

  4. Cristiana

    Complimenti per l’analisi! Un’unica informazione manca per un confronto rispetto al totale deceduti per regione negli anni passati. Cioè, indipendentemente dalla causa della morte, sarebbe utile un confronto sul totale dei deceduti nel mese di marzo 2019 con il totale dei deceduti di marzo 2020 divisi per regione: Lazio, Lombardia, Marche, ecc. così si potrebbe evidenziare l’eventuale anomalia dei decessi di quest’anno, se veramente è così. Comunque molto Interessante, buon lavoro!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *