Scorrere il feed di Sora, la nuova app della OpenAi, è un’esperienza da allucinazioni. Una donna con una casacca da judo s’inchina davanti a un elefante prima di lanciarlo in aria con una mossa. Un giovane pattinatore sfreccia sugli anelli di Saturno. La ripresa sgranata di una telecamera di sorveglianza sorprende Sam Altman, fondatore e capo della OpenAi, mentre cerca di rubare una scheda grafica.

Questa piattaforma simile a TikTok sarebbe uno strano progetto per un’azienda specializzata in intelligenza artificiale, se non fosse che i video disponibili su Sora sono tutti generati dall’intelligenza artificiale (ia). Non è possibile caricare filmati e nemmeno accendere la fotocamera (tranne che per attivare una funzione che inserisce le sembianze dell’utente nel generatore). Tutti i video di Sora sono slop, cioè spazzatura. Ora che l’attenzione per le applicazioni basate sui testi sta calando, le ia che generano video come questa sono la cosa che più entusiasma il settore, e non solo per l’impatto sui mezzi d’informazione.

Non che questo sia modesto. Pur essendo solo su invito, l’app è già in cima alle classifiche di download negli Stati Uniti e in Canada, i paesi in cui è stata lanciata finora. Gli stessi codici d’“invito” sono diventati beni preziosi, venduti su eBay per somme comprese tra i 5 e i 35 dollari. Al momento del lancio Sora era seguita in classifica dall’app Gemini di Google, che ha approfittato della spinta dello slop grazie a Nano Banana, il generatore di immagini dell’azienda. Gli utenti chiedono una loro immagine nello stile del protagonista di un film horror anni novanta, nell’atto di abbracciare se stessi da piccoli o qualcosa di altrettanto improbabile, e il sistema esegue.

Il successo, però, ha un prezzo. Per i fortunati che hanno ricevuto l’invito Sora è gratis. Ma farla funzionare non lo è affatto. In base alle stime sulla prima versione dell’app, ogni video generato sul suo sito costa alla OpenAi circa un dollaro di potenza di calcolo, e gli utenti possono generarne cento al giorno. La genialità dei social media stava nel fatto che gli utenti postavano i contenuti senza essere pagati e gli inserzionisti pagavano per avere gli spazi pubblicitari. Se con ogni post l’azienda ci rimette, l’economia di un’app video è meno promettente.

Ma è improbabile che il vero valore di Sora, e di modelli simili come Veo 3 di Google, risieda nei contenuti che può generare, anche se catturano l’attenzione degli utenti. Secondo un nuovo studio dei ricercatori di Google DeepMind, infatti, questi sistemi sono in grado di risolvere una serie di problemi visuali e spaziali senza nessun addestramento specifico.

Questi sistemi sembrano in grado di risolvere una serie di problemi visuali e spaziali senza nessun addestramento specifico

I modelli video funzionano prendendo immagini generate casualmente e riducendo progressivamente il “rumore”, cioè aggiungendo ordine al caos. A ogni passo il modello si chiede: “cosa renderebbe il contenuto più somigliante alle istruzioni che ho ricevuto?”. Se le istruzioni descrivono un contenuto che si può condividere, il modello lo genera. Se descrivono un compito visuale, come manipolare immagini o risolvere problemi nel mondo reale, a quanto pare l’ultima generazione di modelli sa fare anche questo.

Se si fornisce al modello l’immagine di un pappagallo su un albero e gli si chiede di generare un video in cui tutti i colori e i dettagli svaniscono, lasciando visibili solo i contorni, il modello obbedisce di buon grado individuando in modo competente i margini, un compito che prima richiedeva sistemi specializzati. Con istruzioni simili si può chiedere di rendere un’immagine meno sfocata o di etichettarne gli elementi.

L’ia è anche in grado di svolgere compiti diversi dall’elaborazione delle immagini. Se si inserisce un sudoku da risolvere, il modello è in grado di realizzare un video della soluzione. L’immagine di due mani robotiche che stringono un barattolo si può trasformare in un video dei movimenti che servirebbero per aprire il barattolo.

Ragionare senza esempi

Secondo l’articolo la vasta gamma di compiti che questi modelli sanno eseguire li rende zero-shot reasoners. Significa che possono risolvere anche compiti mai visti prima, per i quali non sono stati esplicitamente addestrati, e che almeno in certi casi sembrano apprendere da quello che i ricercatori chiamano “ragionamento visivo per sequenza di fotogrammi”, risolvendo compiti come individuare l’uscita da un labirinto un passo alla volta.

La cosa promettente, prosegue lo studio di DeepMind, è che i nuovi sistemi sono notevolmente migliori dei precedenti nella soluzione di problemi generici. Per gli autori significa che nel prossimo futuro “diventeranno modelli di base per la visione generale”, capaci di risolvere qualunque sfida visuale gli si presenti senza un addestramento specifico.

È un’affermazione azzardata, ma c’è un precedente. Nel 2022 un team di ricercatori di Google e dell’università di To­kyo aveva pubblicato un articolo in cui si leggeva che i modelli linguistici di grandi dimensioni (llm) erano zero-shot reasoners, sostenendo che le capacità in questo senso dell’allora nascente campo degli llm erano sottovalutate. Sei mesi dopo è arrivato ChatGpt e il boom dell’intelligenza artificiale è cominciato.

La speranza è che i modelli video maturino con un’ondata simile di entusiasmo, e che la fase slop di Sora si riveli solo un’interessante nota a margine del loro sviluppo. ◆ sdf

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it

Questo articolo è uscito sul numero 1636 di Internazionale, a pagina 94. Compra questo numero | Abbonati