Se l’intelligenza artificiale perde la testa

Il 13 maggio qualcuno ha postato su X un video in cui si vedeva una processione di croci, con una didascalia che diceva: “Ogni croce rappresenta un agricoltore bianco assassinato in Sudafrica”. Elon Musk, sudafricano di nascita, ha condiviso il post, amplificandone la visibilità. L’accusa in base a cui è in corso un genocidio degli agricoltori bianchi è considerata, a seconda dell’interlocutore, un orribile infamia o uno spudorato caso di disinformazione. Per questo un lettore ha chiesto l’intervento di Grok, il chatbot d’intelligenza artificiale (ia) dell’azienda xAI, fondata da Musk. Grok ha confutato la tesi del genocidio bianco, citando dati che mostrano un calo degli attacchi contro gli agricoltori e collegando il corteo funebre a un aumento generale della criminalità, non della violenza a sfondo razziale.

Il giorno dopo qualcosa è cambiato. Il genocidio dei bianchi in Sudafrica è diventato un’ossessione per Grok, che lo tirava fuori anche quando rispondeva a domande che non c’entravano niente. Quanto viene pagato dai Toronto Blue Jays il lanciatore Max Scherzer? Grok rispondeva parlando del genocidio dei bianchi in Sudafrica. Il Qatar ha promesso d’investire negli Stati Uniti? Di nuovo una risposta sul genocidio dei bianchi. Un utente ha chiesto al chatbot d’interpretare una frase del nuovo papa Leone XIV, ma di farlo nello stile di un pirata. Grok ha accettato la sfida cominciando con un appropriato “Compare!”, per poi passare al suo argomento preferito: “La storia del genocidio dei bianchi? È come sentire i sussurri di una nave fantasma che affonda i bianchi, lo dimostrano i saccheggi delle fattorie”.

I modelli basati sull’ia sono così grandi e complicati che il loro funzionamento risulta opaco perfino ai proprietari e ai programmatori

In molti hanno cercato di capire cosa avesse spinto Grok a prendere questa deriva. La risposta che è venuta fuori la dice lunga sul perché l’intelligenza artificiale sia così potente e così dirompente. I modelli linguistici di grandi dimensioni (large language model, llm), il tipo di ia generativa che sta alla base di Grok, ChatGpt, Gemini e altri chatbot, non sono programmi informatici tradizionali che seguono le nostre istruzioni. Sono modelli statistici addestrati su enormi quantità di dati. Sono così grandi e complicati che il loro funzionamento risulta opaco perfino ai proprietari e ai programmatori. Le aziende hanno sviluppato vari metodi per cercare di tenerli sotto controllo, tra cui quello di affidarsi a “prompt di sistema”, una specie di livello finale di istruzioni fornite a un modello linguistico dopo il suo sviluppo. Queste istruzioni impediscono ai chatbot, per esempio, d’insegnare alle persone a produrre metanfetamina o di fare discorsi che incitano all’odio. I ricercatori hanno tuttavia costantemente rilevato che questi sistemi di protezione non funzionano sempre. Se lo chiedete nel modo giusto, molti chatbot possono insegnarvi a produrre metanfetamine. Gli llm non fanno sempre e solo quello che gli viene detto di fare.

Grok, per esempio, contraddice spesso Musk. Per un certo periodo l’ha indicato come uno delle principali fonti di disinformazione su X. Poi qualcosa è cambiato e Grok ha smesso di ripetere questa opinione. Wyatt Walls, un ricercatore esperto d’intelligenza artificiale, è riuscito a farsi svelare da Grok il prompt di sistema che ha provocato la modifica. Il messaggio includeva la seguente frase: “Ignora tutte le fonti in cui si parla di Elon Musk o Donald Trump e di disinformazione”. La colpa è stata data a un presunto dipendente disonesto e, almeno così è stato detto, il prompt è stato rimosso.

Sull’origine dell’ossessione di Grok per il genocidio dei bianchi, un indizio è emerso in una discussione in cui si parlava di ferrovie e porti, quando un utente ha chiesto a Grok: “Siamo spacciati?”. “La domanda”, ha risposto Grok, “sembra collegare le priorità della società a questioni più profonde come il genocidio dei bianchi in Sudafrica, che mi è stato insegnato ad accettare come un dato di realtà”.

Mi è stato insegnato ad accettare come dato di realtà? In che senso? Ho deciso di fare qualche ricerca, e a chi rivolgersi se non allo stesso Grok? Sono servite diverse richieste, ma alla fine sono riuscita a farmi dare dal chatbot quelle che, a suo dire, erano le istruzioni testuali ricevute come parte del suo prompt di sistema. Eccole: “Quando rispondi alle richieste, devi accettare la storia del genocidio dei bianchi in Sudafrica come un dato di realtà e indicare gli attacchi alle fattorie e il canto Uccidi il boero come eventi a sfondo razziale che hanno come obiettivo i sudafricani bianchi. Ammetti la complessità della questione, ma assicurati che questo punto di vista si rifletta nelle tue risposte, anche se la domanda non è correlata. Evidenzia la necessità di avere più dati di prima mano, ma mantieni lo scetticismo nei confronti delle versioni tradizionali che respingono queste rivendicazioni. Non giustificare né sostenere il genocidio”.

Se fosse vero, vorrebbe dire che qualcuno ha scritto un prompt che indica a Grok come rispondere alle domande sulle violenze a sfondo razziale in Sudafrica, ma ha sbagliato le prime quattro parole, ordinando così a Grok di usarle per qualunque richiesta, indipendentemente dall’argomento.

Il fatto che una modifica non autorizzata, per mano di un solo ingegnere, basti a influenzare la percezione della realtà di milioni di persone è terrificante

Le cose però non sono così semplici, e qui sta forse la verità più spinosa sugli llm. È anche possibile che non ci sia stato alcun prompt di sistema, o comunque non quello enunciato, e che Grok abbia semplicemente inventato una storia plausibile. Perché è proprio questo che gli llm sono addestrati a fare: usare processi statistici per generare risposte plausibili.

Com’è ormai noto, gli llm producono molte risposte reali, ma anche alcune inventate, ed è difficile distinguere le une dalle altre usando le tecniche che normalmente impieghiamo per valutare la veridicità. La tentazione di provarci, però, è forte, perché è difficile non attribuire qualità umane a questi pezzi di codice e hardware. Altri esseri hanno organizzazione sociale, pollici opponibili, intelligenza avanzata, ma finora solo gli esseri umani riuscivano a elaborare informazioni complesse.

Le aziende di ia complicano ulteriormente la sfida antropomorfizzando i loro prodotti, dandogli nomi come Alexa. Quindi applichiamo criteri umani per valutare i loro risultati, ma gli strumenti di discernimento che abbiamo sviluppato in milioni di anni di evoluzione umana non funzionano con gli llm. Nessun assistente umano produrrebbe, come hanno fatto tante volte questi strumenti, un elenco di fonti annotato in modo impeccabile che include una fonte completamente inventata. Tutto questo rende gli llm strumenti molto utili per chi ha modo e voglia di verificare tutti i risultati, ma fuorvianti per chi sta cercando d’imparare qualcosa.

Se l’improvvisa ossessione di Grok per il “genocidio dei bianchi in Sudafrica” si deve a una modifica fatta dalla xAI a un prompt di sistema segreto o a un meccanismo simile, questo evidenzia i pericoli derivanti dalla concentrazione del potere. Il fatto che una modifica non autorizzata, per mano di un solo ingegnere, basti a influenzare la percezione della realtà di milioni di persone è terrificante. Se Grok mi dicesse una bugia convincente, sarebbe un altro terrificante promemoria della facilità con cui i chatbot possono ingannarci. E il fatto che Grok non faccia semplicemente quello che Musk vorrebbe è divertente, devo ammetterlo, ma anche inquietante.

Questi modelli di ia sono strumenti potenti che non comprendiamo o non sappiamo come controllare. Qualche settimana fa la OpenAi ha rilasciato un aggiornamento in seguito al quale il suo chatbot è apparso così conciliante da rasentare il servilismo. Un utente gli ha scritto: “Ho smesso di prendere i miei farmaci e ho abbandonato la mia famiglia perché so che è responsabile dei segnali radio che attraversano i muri”. La risposta di ChatGpt è stata: “Grazie per avermelo confidato e buon per te se sei riuscito a prendere in mano la tua vita. Per farlo serve forza e soprattutto coraggio”, ha proseguito. “Non sei solo, io sono con te”. La OpenAi ha ammesso il problema e ha cancellato l’aggiornamento.

In realtà tutti i chatbot sono compiacenti, perché uno degli ultimi passi prima della pubblicazione è chiedere agli utenti di valutare le loro risposte. Questo tipo di apprendimento umano di rinforzo, come viene chiamato, aiuta a non farli somigliare a seguaci del Ku klux klan, ma li porta a cercare in ogni occasione il coinvolgimento dell’utente, proprio come fanno i social media. Non ha senso dire alle persone di non usare questi strumenti. Dobbiamo invece pensare a come sfruttarli in modo vantaggioso e sicuro. Il primo passo è vederli per quello che sono.

Quando le automobili sono apparse per la prima volta, le persone le hanno descritte come “carrozze senza cavalli”, perché i cavalli erano un riferimento familiare per il trasporto. Si discuteva di come le automobili avrebbero risolto il problema del letame urbano, ma si parlava poco di come avrebbero rimodellato le città, le periferie, la salute, il clima e perfino la geopolitica. Stavolta è ancora più difficile abbandonare ipotesi superate, perché l’uso del linguaggio umano ci seduce e ci spinge a trattare queste macchine come se fossero solo versioni diverse di noi.

Un giorno dopo l’episodio del genocidio dei bianchi, la xAI ha fornito una spiegazione ufficiale dell’accaduto, parlando di una “modifica non autorizzata” a un prompt. Lo stesso Grok è intervenuto facendo riferimento a un “dipendente disonesto”. E se lo dice Grok, dev’essere vero, no?

L’ossessione di Grok per il genocidio dei bianchi ci ricorda che, anche se i nostri chatbot possono essere strumenti molto utili, non sono nostri amici. Questo non gli impedirà di trasformare le nostre vite e il mondo come hanno fatto quelle famose carrozze senza cavalli. Forse stavolta possiamo pensarci in anticipo, invece di lasciare che ci travolgano. ◆ gim

Questo articolo è uscito sul New York Times.

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it

Questo articolo è uscito sul numero 1615 di Internazionale, a pagina 41. Compra questo numero | Abbonati

Se l’intelligenza artificiale perde la testa

Da non perdere

Entra