Per la prima volta nella storia dell’umanità possiamo davvero parlare con le macchine. Questo dovrebbe rendere più facile usarle perché il linguaggio è qualcosa con cui abbiamo a che fare tutti i giorni. Eppure la comunicazione fra le persone e le ia non è affatto semplice.

Prima di tutto, non siamo abituati a chiedere alle macchine. Siamo abituati a tirare leve, girare volanti, premere tasti, pedali o pulsanti, cliccare su parole evidenziate, al massimo scrivere formule o – una capacità riservata a chi sa programmare – codice. Non ci sembra ancora normale, invece, avere una macchina a cui dare un compito nel cosiddetto linguaggio naturale.

L’accuratezza della descrizione di quel che vorremmo è fondamentale. Molto spesso basta essere chiari e sintetici. Ma cosa vuol dire, esattamente, parlare con chiarezza? Cosa vuol dire saper fare una sintesi in modo che un comando sia più efficace? Sono concetti universali? Probabilmente no. E questa è un’altra delle ragioni per cui può essere davvero difficile comunicare con le macchine.

Inoltre, le ia generative sono state progettate e messe in funzione da altre persone, altri esseri umani che non hanno i nostri stessi gusti, le nostre stesse idee. Sono connotate culturalmente e socialmente, come tutte le tecnologie. E in più, usando il linguaggio naturale, ci illudono che sia tutto più facile. Invece è molto più universale pedalare su una bicicletta che usare un’intelligenza artificiale.

Con un po’ di fatica e di voglia di sperimentare possiamo costruire un percorso di apprendimento. Abbiamo visto come si fa il tagging di queste macchine giocando con la classificazione di pesci e oggetti che si trovano nel mare; abbiamo visto come si insegna a un’ia a riconoscere oggetti; abbiamo parlato di quello che possiamo imparare da un archivio di scarabocchi. Ora è arrivato il momento di mettere alla prova le nostre competenze linguistiche con una delle cose più difficili: descrivere a un’ia quel che vediamo in un’immagine per fargliela riprodurre nella maniera più accurata possibile.

Prima di fare questo esercizio con una delle tante ia da testo a immagine – MidJourney, 4o Image Generation della OpenAi, Imagen di Google, Flux o altre – possiamo fare un po’ di esperimenti con un altro gioco che si chiama Say what you see (letteralmente, dì quel che vedi).

Funziona così: a sinistra della schermata viene proposta un’immagine. A destra c’è lo spazio per scrivere – meglio se in lingua inglese, ma a volte funziona anche in italiano – la descrizione dell’immagine in meno di 120 caratteri. L’obiettivo è far generare all’ia del gioco un’immagine quanto più possibile simile a quella di partenza.

In una trentina di secondi da quando si preme il tasto di invio, la macchina esegue il suo compito, ci dice con che percentuale il risultato si avvicina all’obiettivo e dà anche consigli per migliorare, mostrando, infine, il prompt con cui era stata generata l’immagine da imitare.

Nella figura che ho scelto per illustrare questo pezzo si può vedere un esempio del gioco svolto: il mio comando, in italiano, ha generato una corrispondenza con l’originale dell’86 per cento. Il consiglio che ho ricevuto era di descrivere meglio i colori nella ciotola.

Il gioco si sviluppa su vari livelli livelli. Per superare il primo basta una corrispondenza del 51 per cento fra l’immagine generata e quella di partenza, poi bisogna superare il sessanta per cento, il settanta, e poi si arriva fino al novanta per cento: non è per niente facile.

In alcuni casi ho provato a farmi suggerire da Gemini la descrizione giusta: puoi seguire vari tentativi che ho fatto nelle slide che illustrano questa serie di articoli dedicati al gioco didattico con le ia. A volte la macchina è stata più brava di me nel suggerire. Altre volte ho dovuto fare qualche intervento (per esempio per ridurre il numero di battute o cambiare qualche aggettivo con cui non ero d’accordo).

Non ho mai ottenuto una corrispondenza superiore all’86 per cento e comunque il risultato finale non è mai stato identico all’originale. Non c’è da stupirsi: è così che funzionano le ia generative. Essendo macchine probabilistiche, il loro output non è mai determinato a priori né perfettamente governabile. Ho la sensazione che, anche azzeccando il prompt esatto, sia molto difficile superare il novanta percento richiesto dai livelli superiori del gioco.

A cosa serve fare quest’esperienza? A molte cose. Primo: ci aiuta a prendere dimestichezza con le parole che usiamo per parlare con le macchine. Poi ci ricorda quanto siano imprevedibili i risultati delle ia generative e che dobbiamo decidere quanto sia desiderabile avere pieno controllo degli output – lo è, ovviamente, nei compiti ad alto rischio, in cui l’errore umano o artificiale è poco accettabile – e quanto, invece, sia interessante esplorare le possibilità divergenti che offrono le ia.

Infine, ci ricorda che anche il linguaggio che diamo per scontato non lo è: siamo proprio sicuri di saper comunicare con le persone?

Questo testo è tratto dalla newsletter Artificiale.

Iscriviti a
Artificiale
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
Iscriviti
Iscriviti a
Artificiale
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
Iscriviti

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it