A metà degli anni novanta un algoritmo addestrato sui dati di accettazione in ospedale fece una previsione sorprendente. Sembrava che le persone ricoverate per una polmonite avessero più probabilità di sopravvivere se soffrivano anche di asma. Questo contraddiceva tutte le conoscenze della medicina, secondo cui i pazienti asmatici che si ammalavano di polmonite correvano più rischi. Ma i dati raccolti da vari ospedali erano indiscutibili: chi soffriva di asma se la cavava meglio. Come era possibile?

Si scoprì che l’algoritmo aveva ignorato un pezzo cruciale del puzzle. I medici che curavano i malati di polmonite affetti da asma li spedivano direttamente in terapia intensiva, dove un trattamento aggressivo riduceva in modo significativo il rischio di morte. Il rapporto tra causa ed effetto era piuttosto ingarbugliato. Per fortuna, nessuno cambiò le terapie in base a quell’algoritmo.

“Se vuoi veramente curare una malattia, o ridurre le probabilità che qualcuno la prenda, devi averne una comprensione di tipo causale”

Stabilire il vero rapporto tra causa ed effetto è fondamentale per la scienza moderna. È alla base di tutto: dallo sviluppo dei farmaci alla progettazione delle infrastrutture e perfino alla comprensione delle leggi della fisica. Ma per più di un secolo gli scienziati non hanno avuto gli strumenti per farlo. Non solo è stato impossibile dedurre la differenza tra causa ed effetto a partire esclusivamente dai dati, ma non siamo neanche riusciti a distinguere in modo affidabile i rapporti causali dalle coincidenze. Ora la matematica potrebbe risolvere il problema definitivamente, dando alla scienza il linguaggio causale di cui ha un disperato bisogno.

Un mantra che la maggior parte degli scienziati potrebbe recitare anche nel sonno è che una correlazione non implica necessariamente un rapporto di causa ed effetto.

Basta un semplice esempio per dimostrarlo. Secondo i dati forniti da diversi centri balneari, sembra che più gelati si vendono più saranno i bagnanti attaccati quel giorno dagli squali. Significa che bisogna chiudere le gelaterie nell’interesse della sicurezza? Probabilmente no. Una conclusione più sensata è che le due tendenze siano la conseguenza di un terzo fattore: ci sono più persone sulla spiaggia. In questo caso, gli aumenti delle vendite di gelati e degli attacchi degli squali sarebbero entrambi causati da una maggiore presenza di bagnanti, e il nesso tra loro sarebbe solo una correlazione. Sembra una conclusione banale, ma il problema è che i dati da soli non possono indicarci la direzione giusta. Per distinguere tra correlazione e causalità, abbiamo bisogno di conoscere il contesto, in questo caso sapere che la presenza di molte persone sulla spiaggia in una giornata calda può spiegare entrambi i fatti. Ma quando i dati che abbiamo diventano più complicati e meno familiari, la nostra capacità di distinguere tra le due cose viene meno.

La grammatica della scienza

I pionieri della statistica non tenevano conto di queste sottigliezze. Un esempio clamoroso è quello di Karl Pearson, un matematico britannico e noto eugenista del primo novecento. Pearson pensava che la matematica della correlazione fosse la vera grammatica della scienza, e che la causalità fosse solo un caso speciale di correlazione piuttosto che un concetto analitico separato.

Gli strumenti statistici che elaborò sono ancora i fondamenti della disciplina, e si insegnano in ogni corso universitario di statistica. Di conseguenza da più di un secolo, molte scoperte scientifiche si basano sulla fragile correlazione piuttosto che sulla solida causalità.

Le implicazioni di questo vanno ben oltre la giornata al mare di cui abbiamo parlato. I dati e le correlazioni possono dirci quale tra due cure ha fatto guarire prima i pazienti, ma non perché. Non possono neanche dirci come migliorare le terapie, e meno che mai cosa prescrivere a un determinato individuo.

“Se vuoi veramente curare una malattia, o ridurre la probabilità che qualcuno la prenda, devi averne una comprensione di tipo causale”, sostiene Jonas Peters dell’università di Copenaghen, in Danimarca. L’importanza di capire le cause non va sottovalutata, afferma Elias Bareinboim della Columbia university di New York. “Non penso che il metodo scientifico possa prescindere dalla causalità”, spiega. “È il codice stesso del sistema”.

D’altro canto, la scienza ha pochi strumenti per affrontare le questioni legate ai nessi causali. Dai tempi di Galileo la scienza moderna ha sempre comunicato usando il linguaggio dell’algebra e le equazioni. Un fisico può scrivere un’equazione che descrive il rapporto tra la pressione atmosferica e la rilevazione di un barometro, ma questa equazione non ci dice se è la pressione che provoca la rilevazione del barometro o viceversa. Il linguaggio dell’algebra è totalmente indifferente al problema di che cosa viene prima.

All’inizio degli anni novanta, insoddisfatto di questa situazione, Judea Pearl, dell’università della California a Los Angeles, decise di dare alla scienza il linguaggio causale di cui aveva tanto bisogno. La sua soluzione consisteva nell’introdurre un nuovo linguaggio matematico del “fare”, che avrebbe consentito di distinguere tra causa ed effetto. Se io “faccio” qualcosa per costringere la pressione a cambiare, la rilevazione del barometro cambierà. Mentre se “faccio” qualcosa per cambiare la rilevazione del barometro, la pressione non cambia. Intervenendo sulla causa si può modificare l’effetto, ma qualsiasi intervento sull’effetto non modificherà la causa.

L’operatore del fare

Per esprimere questo concetto in termini matematici, Pearl inventò una nuova operazione da aggiungere ad addizione, sottrazione eccetera. Come nelle altre operazioni, il suo do operator _(operatore del fare) può manipolare le variabili – per esempio il numero di gelati venduti – in un modo specifico. Mentre l’addizione combina il valore di due o più variabili, il _do operator attribuisce a una variabile uno specifico valore, indipendente da tutto il resto.

“Per migliorare il processo decisionale, devi capire il rapporto di causa ed effetto. In poche parole: se faccio questo, come cambia il mondo?”

Per capire l’utilità di questo strumento, torniamo alla nostra spiaggia. Se vogliamo stabilire il vero rapporto tra gelati venduti e attacchi degli squali, la tecnica scientifica migliore consisterebbe nel condurre un test di controllo randomizzato. Questo significherebbe assegnare a caso i bagnanti a uno di due sottogruppi di uguali dimensioni. A un gruppo si darebbe un gelato, all’altro no. Poi entrambi i gruppi verrebbero invitati a gettarsi nelle acque infestate dagli squali, e si confronterebbe il numero di attacchi in ciascun gruppo.

Dato che la composizione dei due sottogruppi è casuale, tutti gli altri fattori che potrebbero confonderci – come l’età, l’altezza e la prelibatezza delle carni – sono esclusi. Se rimane un qualche tipo di correlazione, può essere spiegata solo dall’esistenza di un rapporto causale diretto tra l’aver mangiato un gelato e l’essere stati attaccati da uno squalo.

L’operatore di Pearl simula matematicamente il cambiamento della quantità di gelato che ognuno mangia, indipendentemente da qualsiasi fattore che potrebbe influire sia sulla consumazione del gelato sia sull’attacco dello squalo. Cambiando solo la quantità di gelato, e lasciando immutato tutto il resto, qualsiasi cambiamento nel numero degli attacchi dev’essere dovuto al consumo di gelato, perché è l’unica variabile che è stata modificata.

La grande intuizione di Pearl è stata dimostrare che con il do operator si potrebbe efficacemente simulare un test di controllo randomizzato usando solo i dati dell’osservazione per stabilire i nessi causali. È un cambiamento fondamentale, perché nel mondo reale i test di questo tipo possono essere costosi e complicati, per non dire immorali. Per condurre un test controllato al fine di stabilire il rapporto tra polmonite e asma, per esempio, bisognerebbe che a metà dei partecipanti venisse provocata la polmonite.

Nel 2011 questa ricerca fece guadagnare a Pearl il premio Turing, l’equivalente del Nobel per l’informatica, e gettò le basi di quella che poi sarebbe stata chiamata la teoria dell’inferenza causale.

Ricerche discutibili

Oltre a consolidare le basi scientifiche della causalità, la struttura matematica aiuta a risolvere problemi in molte discipline, afferma Bareinboim della Columbia university, in particolare quello della replicazione, che affligge la medicina e le scienze sociali. Negli ultimi dieci anni sono sorti dubbi su molti studi in questi campi, che sono finiti sulle prime pagine dei giornali: dall’idea che per gli studenti è più facile risolvere i problemi matematici se sono scritti con dei caratteri sfocati a quella che la forza di volontà è una risorsa finita che si può esaurire. Il problema è che i risultati ottenuti negli esperimenti alla base di quegli studi non potevano essere riprodotti. Nel 2015 un grande studio sulla replicabilità in psicologia ha rivelato che i risultati del 60 per cento degli esperimenti non erano replicabili, gettando un’ombra su tutta la disciplina. Bareinboim ritiene che in molti casi l’inferenza causale potrebbe contribuire a risolvere questi problemi, perché nei test originali c’erano dei fattori di confusione che forse erano sfuggiti ai ricercatori, e i successivi tentativi di replicare gli esperimenti probabilmente hanno aggiunto altre relazioni causali.

Un esempio classico riguarda l’effetto dell’allegria sulle decisioni economiche, che in origine era stato misurato mostrando ai partecipanti spezzoni di film dell’attore comico Robin Williams. Quando si è cercato di replicarne i risultati, Williams era morto, e questo probabilmente ha influito sulla reazione dei soggetti. Inoltre, i partecipanti allo studio originario erano statunitensi, mentre quelli del tentativo di replica erano britannici. Non essendo in grado di escludere questi elementi di confusione, gli studi sulla replicazione non possono legittimamente essere confrontati con gli originali.

Le applicazioni dell’inferenza causale vanno ben oltre la scienza. “Se vuoi migliorare il processo decisionale, devi prima capire il rapporto di causa ed effetto. In poche parole: se facessi questo, come cambierebbe il mondo?”, dice Suchi Saria della Johns Hopkins university nel Maryland. Gli economisti in particolare sono stati tra i primi a sperimentarla, perché si rendevano conto che molti problemi che volevano risolvere richiedevano un apparato causale.

Questo apparato aiuta a capire gli effetti di specifiche politiche, per esempio a sapere se l’aumento del prezzo delle sigarette riduce gli effetti del fumo sulla salute. Per una questione così complicata, tuttavia, gli strumenti matematici di
Pearl diventano incredibilmente laboriosi. Il rapporto tra fumo e salute è influenzato da una serie di fattori variabili, come l’età, il sesso, il regime alimentare, la storia familiare, il tipo di lavoro e gli anni di istruzione. Per trovare il nesso causale che cerchiamo, possiamo solo considerare un insieme di dati in cui gli altri fattori sono costanti. Ma per ogni variabile che escludiamo, l’insieme di dati diventa più ristretto. Alla fine, ci rimangono così pochi dati che non è più possibile trarre una conclusione fondata.

Per superare queste difficoltà, Susan Athey e i suoi colleghi della Stanford university in California hanno sviluppato alcune tecniche che si avvicinano al metodo di Pearl ma usano il maggior numero di dati possibile. E non sono i soli. Strumenti come questi sono importanti anche per la sanità, un settore nel quale capire la differenza tra cause ed effetti può salvare vite umane. Sapere che esiste una forte correlazione tra una malattia e certi sintomi o tra un farmaco e la guarigione non è sufficiente, e basare le decisioni mediche su queste informazioni può essere pericoloso.

Chayapon Bootboonneam, EyeEm/Getty Images

Saria sta usando l’inferenza causale per creare strumenti che aiutino i medici a prendere decisioni confrontando gli effetti di diversi tipi di interventi. Ma lavorare con i dati medici è complicato. “Potremmo essere influenzati da fattori che non hanno niente a che vedere con i fenomeni naturali”, dice. Per esempio la disparità di accesso alle cure mediche comporta che gli Stati Uniti spendono meno soldi per curare i pazienti neri che quelli bianchi. Di conseguenza alcuni algoritmi arrivano alla conclusione che i neri sono più sani dei bianchi, cosa che ovviamente è falsa.

Per Kira Radinsky del Technion-Israel institute of technology, capire i nessi causali è fondamentale per avere un sistema sanitario più equo. “Se non comprendi i processi causali, ti lasci influenzare da dati distorti”, dice. “Quando li capisci, puoi eliminare le distorsioni”.

Questo mette in luce un problema che l’inferenza causale non può risolvere. Prima di poter usare le tecniche di Pearl, bisogna conoscere i rapporti causali. Se dovessimo analizzare il rapporto tra attacchi degli squali e vendita dei gelati, per esempio, non potremmo stabilirlo se non sapessimo che un aumento del numero di bagnanti potrebbe spiegare entrambi i fenomeni.

Per calcolare a livello quantitativo gli effetti di una cura con un certo farmaco, dobbiamo sapere che esiste un rapporto causale tra il farmaco e i sintomi. Di solito per saperlo ci si rivolge agli esperti. Ma ottenere una spiegazione causale dagli esperti può essere difficile e richiede tempo, spiega Radinsky. Il metodo che lei e i suoi collaboratori hanno adottato per semplificare questo processo è andare a cercare i rapporti causali negli articoli degli esperti e verificarli tramite esperimenti. Applicando questa conoscenza causale all’uso di un farmaco per scopi diversi da quelli per cui era stato ideato, cioè usando medicine esistenti in un modo differente, hanno già scoperto nuove cure per l’ipertensione e il diabete.

Imparare dai dati

Questo approccio è molto efficace e fruttuoso, ma non per tutti i settori c’è una raccolta sufficiente di ricerche consultabili online con nessi causali dimostrati che aspetta di essere usata. Questo ha spinto gli studiosi di altre discipline a chiedersi se fosse possibile scoprire i rapporti causali usando semplicemente i dati dell’osservazione.

La secolare difficoltà di distinguere tra correlazione e causalità sembrerebbe escluderlo, ma ora una nuova generazione di ricercatori sta cominciando a rendersi conto che forse non è così impossibile come sembra. Un metodo che sta guadagnando terreno consiste nel cercare schemi che si ripetono indipendentemente dalle circostanze. Per esempio, un aumento della pressione atmosferica fa sempre cambiare la lettura del barometro, che ci si trovi a Londra o a New York, sulla Terra o su Marte. In paesi e ospedali differenti i medici possono curare diversamente i pazienti, ma i rapporti causali tra malattie e sintomi non variano. L’idea chiave alla base delle nuove ricerche di Peters, il professore dell’università di Copenaghen, e di altri colleghi è che questa coerenza può essere la caratteristica distintiva del processo causale, e che quindi in sua presenza si possono usare gli strumenti di Pearl.

Per mettere alla prova questo principio, Peters e i suoi colleghi hanno deciso di affrontare una complessa questione sociologica: quali sono le vere cause del calo del tasso di fecondità di un paese? Questo tasso varia moltissimo nei diversi paesi del mondo, e capire i fattori che lo determinano potrebbe essere prezioso per i governi che vogliono aiutare la loro popolazione. Cercando schemi ricorrenti nei dati, l’équipe di Peters ha visto che il tasso di mortalità dei bambini più piccoli è un fattore determinante, risultato che conferma alcuni studi precedenti. “Quando la mortalità infantile è alta, le coppie tendono ad avere più bambini, anche se nessuno dei loro figli è morto”, dice Adrian Raftery, sociologo e statistico dell’università dello stato di Washington a Seattle. “Questo può significare che cercano di essere sicure di averne un certo numero”.

Bareinboim è entusiasta della capacità del gruppo di ricavare dati causali solo dall’osservazione. “Quando è uscito il loro studio, sono rimasto sbalordito”, afferma. Ora Peters e il suo gruppo stanno usando il principio di invarianza per tracciare un quadro causale delle interazioni tra biosfera e atmosfera, che potrebbe avere conseguenze importanti per la nostra comprensione del cambiamento climatico.

Ma come l’analisi statistica di Pearson di più di un secolo fa, neanche questa è una soluzione miracolosa. Per sbrogliare veramente il rapporto tra causa, effetto e correlazione, gli scienziati avranno sempre bisogno di altre informazioni contestuali. Senza sapere come si comportano i bagnanti, per esempio, o come i medici curano le persone che hanno la polmonite se soffrono d’asma, nessuno studio al mondo potrebbe ottenere risultati attendibili anche dall’insieme di dati più ampio. “Il problema è il processo di generazione dei dati”, conclude Athey, “non i limiti del nostro cervello”. ◆ bt

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it

Questo articolo è uscito sul numero 1361 di Internazionale, a pagina 60. Compra questo numero | Abbonati