Una rete neurale può imparare a riconoscere gli scarabocchi? È la domanda che ci siamo fatti insieme alle ragazze e ai ragazzi di Internazionale Kids a Reggio Emilia, ed è anche quella che ha guidato la nascita di un esperimento pubblico lanciato nel 2016 da un gruppo di ricerca e poi reso pubblico da Google. Il risultato di questo esperimento è un gioco online che si chiama Quick, draw!.
Funziona così: il sistema propone al giocatore una parola – per esempio “gatto” o “bicicletta” o “tartaruga marina” – e dà venti secondi di tempo per disegnarla. Nel frattempo, una rete neurale prova a indovinare cosa sta emergendo sullo schermo, osservando il tratto in tempo reale. Quando pensa di aver capito, lo dice. Procede per tentativi, velocissimi, tipo: “Credo sia un cane”, “Forse è una pizza”, “È una bicicletta!”. Se riesce a indovinare, si passa al disegno successivo. Se fallisce, la partita continua comunque fino alla fine del turno. Il ciclo si ripete per sei parole diverse, alla fine delle quali si possono rivedere i propri disegni, confrontarli con quelli di altre persone e, volendo, riprendere a giocare.
La cosa sorprendente per chi gioca è che anche in presenza di pochi tratti fatti male il modello riesce a indovinare cosa rappresenta lo scarabocchio. Perché succede? Il modello di Quick, draw! non ha bisogno di un disegno preciso, realistico o dettagliato: gli bastano alcuni elementi ricorrenti per formulare un’ipotesi plausibile, perché la rete neurale che lo alimenta è stata addestrata su milioni di disegni simili, raccolti da persone di tutto il mondo.
Ogni tratto disegnato contribuisce a migliorare l’addestramento del modello e ad arricchire un archivio visivo che contiene migliaia di versioni diverse della stessa cosa, moltiplicata per tante cose diverse: migliaia di gatti stilizzati, di biciclette storte, di tartarughe marine abbozzate.
Quando un nuovo disegno viene tracciato, il modello lo confronta con le forme che ha già visto. Cerca schemi noti, sequenze familiari, combinazioni di linee che abbiano una certa probabilità di corrispondere a una parola. E, se trova una corrispondenza sufficientemente forte, scommette su quella.
È come se, invece di capire cosa stai disegnando, la macchina si chiedesse: “Questa cosa somiglia più a un elefante o a una scarpa?”. E decidesse sulla base di tutte le scarpe e tutti gli elefanti che ha già visto.
È importante ricordarci che il modello che interpreta gli scarabocchi non “capisce” davvero cosa vede, almeno, non nel senso umano della parola “capisce”. La rete neurale riconosce somiglianze, individua sequenze di tratti che ricorrono, confronta ciò che appare sullo schermo con ciò che ha già visto. È un processo statistico, per il momento non è semantico, anche se non possiamo escludere che lo diventerà in futuro, con le evoluzioni di questi strumenti. Ma anche da modello statistico funziona, e funziona bene.
Non solo. Oggi contiene anche una delle collezioni più vaste al mondo di disegni stilizzati: più di cinquanta milioni di immagini. Uno dei meriti del progetto è l’aver reso disponibile tutto il dataset, che oggi viene usato per scopi anche molto lontani da quelli originari. L’archivio alimenta ricerche in ambito educativo e cognitivo, viene impiegato nello sviluppo di strumenti di accessibilità per la comunicazione visiva, è utilizzato per insegnare alle macchine a interpretare schizzi in applicazioni tecniche, artistiche, commerciali. Gli stessi modelli che aiutano una persona a scrivere con simboli o che riconoscono la scrittura su dispositivi mobili si sono addestrati anche lì, tra una banana mal disegnata e un elefante stilizzato.
A proposito di domande intelligenti da farsi, uno dei ragazzi del pubblico di Internazionale Kids ha chiesto: “Ma se è l’ia a dirmi cosa devo disegnare, come faccio a sapere che non stia barando?”. Ammetto che lì per lì ho semplificato la risposta. Qui mi posso prendere il tempo di rispondere in maniera più articolata. Il software che chiede di disegnare un certo oggetto non comunica direttamente con l’ia. La sequenza è questa: il software propone un concetto da rappresentare, poi la rete neurale osserva in tempo reale ciò che compare sullo schermo, confrontandolo con il proprio archivio. E decide, sulla base di quanto ha appreso, se quello che sta vedendo somiglia a un fiore, a un razzo o a un cane.
Ma la domanda resta legittima, perché evidenzia un punto spesso trascurato: nei sistemi chiusi e non verificabili, anche la fiducia diventa una questione tecnica. Chi controlla l’interfaccia? Come possiamo sapere che ciò che vediamo non sia il risultato di una manipolazione e che la macchina non stia affatto barando? E cosa succede quando quel tipo di opacità si trasferisce in applicazioni più delicate?
C’è poi un aspetto culturale da non sottovalutare. Quegli scarabocchi sono socialmente e storicamente contestualizzati: rappresentano una forma di visualizzazione semplificata del mondo e per la precisione di quelle persone che hanno partecipato al gioco. Sono la traduzione rapida di concetti condivisi in simboli grafici essenziali, ma non è detto che siano universali. Possiamo usarli per riflettere su come le persone costruiscono rappresentazioni, ma anche su come le macchine finiscono per riproporle.
Se milioni di persone disegnano il sole come un cerchio con le linee intorno, la macchina imparerà che quello è il sole. Lo riprodurrà nei generatori di immagini, nei suggerimenti automatici, nei software di grafica. E influenzerà così, in modo indiretto, anche chi non ha mai partecipato al gioco. Se qualcuno, quel sole, lo disegna in modo diverso (magari quadrato, per qualche motivo), la macchina non lo riconoscerà mai come “sole”, a meno che tantissime persone non inizino a disegnare scarabocchi di soli quadrati. Questo significa che posizioni fortemente minoritarie rischiano di non essere mai rappresentate in un set di dati.
Questo progetto, insomma, è anche un osservatorio sulle ia in generale: mostra come le persone sintetizzano concetti in forma grafica, ma anche come quei concetti si consolidano, si cristallizzano, diventano canonici. Non è un processo neutro. È una forma di potere semiotico, che passa attraverso i dati. Per questo, progetti come questo sono importanti: perché rendono visibile la costruzione di significato dentro i sistemi automatici. E ci offrono una lente – parziale, certo, ma utile – per capire come le intelligenze artificiali apprendono, e come potremmo continuare ad addestrarle in modo più consapevole. Anche partendo da uno scarabocchio.
Questo testo è tratto dalla newsletter Artificiale.
Iscriviti a Artificiale |
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
|
Iscriviti |
Iscriviti a Artificiale
|
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
|
Iscriviti |
Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it