AGI - I modelli di generazione di immagini basati sull’intelligenza artificiale hanno a disposizione quantità enormi di dati visivi da cui attingere. In teoria dovrebbero produrre risultati di grande varietà, ma in pratica, quando vengono spinti a lavorare in completa autonomia, tendono a fare l’opposto. È quanto emerge da uno studio pubblicato sulla rivista scientifica Patterns, che ha messo alla prova due sistemi di AI tra i più avanzati, Stable Diffusion XL e LLaVA, facendoli interagire tra loro senza alcun intervento umano.
Il risultato, spiegano i ricercatori, è contro-intuitivo: invece di esplorare territori sempre nuovi, le immagini finiscono quasi sempre per assomigliarsi.
Il meccanismo dell'esperimento
Il meccanismo alla base dell'esperimento è semplice. Un modello riceve un prompt e genera un’immagine. Un secondo modello osserva quell’immagine e la descrive a parole. Questa descrizione viene poi usata come nuovo prompt per generare un’altra immagine.
Il 'telefono senza fili'
Il ciclo si ripete, come nel gioco del telefono senza fili, ma interamente tra macchine. Ripetendo l’esperimento centinaia di volte - fino a mille iterazioni, con prompt diversi e parametri differenti - i ricercatori hanno osservato che quasi tutte le sequenze finiscono per convergere verso un ristretto gruppo di immagini.
I dodici motivi dominanti
In totale, appena dodici motivi dominanti. Fari sul mare in tempesta, interni monumentali ed eleganti, scene urbane notturne, architetture rustiche: immagini curate e perfettamente utilizzabili come sfondi per un hotel o una banca immagini. I ricercatori le hanno definite “visual elevator music”: immagini che non sono sbagliate ma nemmeno così originali o interessanti. La convergenza verso questi 'motivi dominanti', scrivono i curatori del paper manifesta quasi sempre, indipendentemente dai modelli utilizzati o dai parametri di generazione.
Anche quando l’esperimento viene prolungato oltre le 100 iterazioni, le variazioni che emergono restano comunque ancorate a quei pochi motivi ricorrenti.
L'intelligenza artificiale non è creativa se lasciata sola
Il punto centrale dello studio è questo: l’AI non è particolarmente creativa quando è lasciata sola. O, più precisamente, è estremamente abile nel riconoscere ciò che è più probabile, più comune, più “sicuro” all’interno dei dati su cui è stata addestrata ma non osa e non cerca il rischio creativo.
A differenza degli esseri umani, che nel gioco del telefono senza fili introducono errori, interpretazioni personali, gusti e deviazioni imprevedibili, i modelli di AI condividono gli stessi bias statistici.
Quando devono descrivere e rigenerare immagini, finiscono per rafforzare quelle stesse scelte, eliminando progressivamente tutto ciò che è marginale o insolito.
Limiti e prospettive future
Lo studio è rilevante perché questi loop non riguardano solo la generazione di immagini. Molti sistemi di intelligenza artificiale oggi funzionano in modo simile: un modello produce contenuti, un altro li valuta, li corregge, li “migliora”.
I grandi modelli linguistici giudicano le proprie risposte, riflettono sui passaggi di ragionamento e si auto-affinano. La conclusione dei ricercatori sembra quindi un po' scontata ma evidenzia bene il limite dei modelli: la collaborazione tra esseri umani e AI resta fondamentale perché senza un intervento esterno che introduca rotture e scelte, gusto e originalità, i sistemi tendono a mettersi d’accordo tra loro. Le macchine sono noiose e questo studio, che non è banale, conferma tutto.