Con la nuova versione GPT-4o, la generazione di immagini non è più affidata a un sistema separato come DALL·E v3, ma è integrata direttamente nel modello linguistico. Questo significa che lo stesso modello che interpreta e scrive testi è anche in grado di creare immagini, senza dover passare da un modulo all’altro. Si tratta di un’evoluzione importante, perché consente di gestire testo e immagine in modo unificato, come parte di un unico processo.
Questa capacità è resa possibile da un’architettura che combina comprensione del linguaggio e generazione visiva nello stesso spazio di elaborazione. Quando si scrive un prompt, il modello non lo interpreta solo come testo, ma come una traccia da cui costruire anche un’immagine. Il significato viene trasformato in una rappresentazione interna che contiene informazioni sia linguistiche che visive. L’immagine prodotta, quindi, non è un’aggiunta esterna, ma nasce dallo stesso processo che guida la comprensione del testo. Questo avviene grazie a una rete neurale che usa trasformatori e un modello di diffusione per costruire l’immagine passo dopo passo.
Il vantaggio principale è che non ci sono più passaggi tra componenti separate. Il sistema mantiene una maggiore coerenza tra ciò che viene detto e ciò che viene mostrato. Inoltre, è in grado di riconoscere strutture, tratti visivi e collegamenti tra concetti, e di riprodurli anche se si cambia stile grafico. È questo che permette di mantenere l’identità visiva di un soggetto anche in contesti molto diversi, come tra il realismo fotografico e lo stile fumettistico. Questa capacità si può definire meta-consistenza.






Questa integrazione distingue i veri modelli multimodali da quelli che si limitano a collegare strumenti diversi. Qui, l’immagine è una parte naturale della risposta e aumenta il controllo sul risultato finale, soprattutto quando è importante che immagine e testo siano strettamente legati.

Dal punto di vista pratico, tutto questo apre nuove possibilità in ambiti come il design, l’editoria, lo sviluppo di personaggi e l’illustrazione narrativa. L’intelligenza artificiale non si limita più alla generazione di immagini isolate: oggi può accompagnare l’intero processo creativo, mantenendo coerenza tra idea, parola e visione.