L’evoluzione dei modelli linguistici di OpenAI negli ultimi anni è stata una corsa alla scala e alla sofisticazione, iniziata con GPT-2 nel 2019. GPT-2 è stato un primo salto quantitativo: un trasformatore autoregressivo con 1,5 miliardi di parametri, circa 10 volte più grande del suo predecessore, addestrato su 8 milioni di pagine web. Questo modello decoder-only basato sull’architettura Transformer ha dimostrato che aumentare drasticamente dimensioni e dati produceva testi sorprendentemente coerenti rispetto al passato. Pur senza architetture nuove rispetto a GPT-1, GPT-2 mostrava capacità inattese di modellare il linguaggio: generava paragrafi interi di testo plausibile e affrontava in modo grezzo compiti come traduzione, riassunto e Q&A in un contesto zero-shot.
Nonostante le frequenti “allucinazioni” e incoerenze, GPT-2 raggiungeva lo stato dell’arte in diversi benchmark di linguaggio pur senza addestramento specifico per quei compiti. Un risultato epocale. Il mondo della ricerca rimase colpito: per la prima volta un modello generativo di testo produceva output di qualità a tratti comparabile a quello umano, sollevando al contempo discussioni (OpenAI inizialmente esitò a rilasciare GPT-2 integralmente, preoccupata per possibili abusi). Il “fattore wow” di GPT-2, però, fu circoscritto agli addetti ai lavori: il grande pubblico all’epoca non percepì pienamente l’importanza di quei testi generati dal computer, se non sotto forma di curiosità virali. Ma per chi seguiva il campo, GPT-2 rappresentava un chiaro segnale: aumentando di un ordine di grandezza i parametri rispetto a GPT-1, il comportamento emergente del modello compiva un netto balzo in avanti.
Con GPT-3 (2020) OpenAI spinse la scala in modo ancor più audace, inaugurando l’era dei modelli con decine di miliardi di parametri. GPT-3, descritto nel paper “Language Models are Few-Shot Learners”, contava ben 175 miliardi di parametri, distribuiti su 96 strati Transformer secondo fonti non ufficiali, con una finestra contestuale ampliata a 2048 token. Il modello richiese un’infrastruttura computazionale colossale (si stima ~3,14^23 operazioni di addestramento, traducibili in centinaia di petaflop/s-giorno) e uno storage di circa 350 GB solo per i pesi.
GPT-3 fu addestrato su un corpus vastissimo (si parla di 45 TB di testo) comprendente Web, libri, Wikipedia e codice. L’intento era lo stesso: indovinare la parola successiva. Tuttavia, l’enorme scala del modello liberò potenzialità impreviste, difficili da immaginare fino a poco tempo prima. GPT-3 mostrò infatti un’abilità notevole nel few-shot learning: dato un nuovo compito (tradurre frasi, rispondere a domande di cultura generale, svolgere aritmetica, scrivere codice, ecc.), bastava fornirgli pochi esempi nel prompt perché lo affrontasse con risultati competitivi. Ciò significava che GPT-3, pur non essendo addestrato specificamente su quei task, li svolgeva quasi come se lo fosse, in virtù della conoscenza assorbita dal suo enorme dataset. Ad esempio, GPT-3 poteva tradurre dall’inglese all’italiano dopo aver visto un paio di esempi nella richiesta, o risolvere semplici problemi matematici a scelta multipla grazie alla sua comprensione linguistica. Su numerosi benchmark standard all’epoca, GPT-3 stabilì nuovi record: era il più alto punteggio mai visto su test come l’arcinoto LAMBADA (completamento di frasi complesse), e ottenne risultati notevoli su dataset di QA e ragionamento comune. I suoi limiti però emersero anch’essi chiaramente: difficoltà con il ragionamento logico rigoroso e con l’aritmetica multi-step, tendenza a generare affermazioni scorrette con aria sicura (quella che poi chiameremo allucinazione), e bias o incoerenze dovute ai dati di addestramento. Nonostante ciò, GPT-3 fu un evento mediatico nella comunità AI: la sua capacità di scrivere articoli, codice o poesie su richiesta destò stupore e qualche timore. Il “wow” verso GPT-3 fu molto più ampio che per GPT-2: non solo i ricercatori ma anche imprenditori e media iniziarono a parlare del potenziale rivoluzionario di questi modelli, pur riconoscendone i difetti. Con GPT-3 si capì anche il costo della scala: addestrarlo fu stimato in diversi milioni di dollari, una barriera che restringeva ai soli attori con enormi risorse (come OpenAI/Microsoft o Google) la possibilità di esplorare modelli ancora più grandi.
Nel 2022 l’evoluzione seguì una traiettoria diversa: GPT-3.5 non fu un modello introdotto con fanfara in un paper accademico, ma una denominazione retroattiva data a una serie di miglioramenti qualitativi di GPT-3. In pratica, OpenAI affiancò alla pura scala delle dimensioni un nuovo ingrediente: il fine-tuning su istruzioni e il feedback umano. Con modelli come InstructGPT (basato ancora su 175 miliardi di parametri) e soprattutto con la successiva interfaccia di ChatGPT, OpenAI dimostrò che era possibile rendere i modelli più utili e docili senza aumentarne i parametri.
Dal punto di vista architetturale, GPT-3.5 rimaneva un Transformer da ~175 miliardi di pesi come GPT-3; la crescita fu piuttosto nella qualità dei dati di addestramento (ad esempio conversazioni curate con istruzioni corrette) e nell’ottimizzazione fine per ridurre risposte tossiche o irrilevanti. Il risultato fu un modello molto più capace di seguire le intenzioni dell’utente, evitando divagazioni e risposte indesiderate. In termini di benchmark standard, GPT-3.5 non costituì un salto drastico rispetto a GPT-3 puro – le metriche sui task accademici rimasero simili – ma in compiti pratici come la programmazione o il problem solving quotidiano la differenza percepita era grande. ChatGPT (basato su GPT-3.5) lanciato pubblicamente a fine 2022 mise queste capacità sotto gli occhi di milioni di persone: improvvisamente l’AI conversazionale era sufficientemente affidabile e versatile da diventare uno strumento di uso quotidiano. Il “fattore wow” raggiunse il picco: GPT-3.5, pur non essendo il più grande modello, fu quello che fece esclamare al grande pubblico di trovarsi di fronte a qualcosa di prossimo all’intelligenza generale. In pochi mesi, ChatGPT passò da curiosità tech a fenomeno di massa, con decine di milioni di utenti attivi. Questo ha avuto un effetto collaterale interessante: la soglia di stupore degli utenti iniziò ad alzarsi. Ciò che in GPT-2 o GPT-3 sembrava magia è diventato rapidamente routine con l’arrivo di ChatGPT, entrando nelle abitudini quotidiane. Di conseguenza, ogni nuovo modello si è trovato a fronteggiare aspettative sempre più elevate. E infatti, quando GPT-4 arrivò (marzo 2023), fu accolto con un misto di ammirazione e di familiarità: chi già utilizzava ChatGPT intuiva i miglioramenti, ma l’effetto sorpresa era minore rispetto al passato. Eppure tecnicamente GPT-4 fu un salto enorme, sebbene avvolto da un alone di mistero imposto da OpenAI. Per la prima volta OpenAI non rivelò né il numero di parametri né dettagli precisi dell’architettura di GPT-4, citando ragioni competitive e di sicurezza. Quel che emerse dal Technical Report pubblicato su arXiv fu che GPT-4 è un modello multimodale in grado di accettare input sia testuali che visivi, e che supera nettamente i suoi predecessori in una vasta gamma di compiti. I benchmark ufficiali mostrano miglioramenti sostanziali: su MMLU (un esame con domande in 57 materie) GPT-4 ottiene l’86,4% contro circa il 70% del migliore GPT-3.5; su HellaSwag (ragionamento commonsense) supera il 95%, laddove GPT-3.5 era intorno all’85%. Nei test di programmazione come HumanEval (scrittura di piccole funzioni in Python), GPT-4 raggiunge circa il 67% di successo 0-shot, contro il 48% di GPT-3.5 e surclassando modelli precedenti e persino alcune soluzioni specializzate. Ancora più impressionante, nei problemi di matematica e logica di GSM8K (problemi aritmetici di scuola primaria), GPT-4 segna circa 92% di risposte corrette se aiutato da una tecnica di chain-of-thought (cioè se incoraggiato a ragionare passo passo), laddove GPT-3.5 era fermo al 57%. In molti di questi compiti GPT-4 non solo batte i modelli precedenti, ma eguaglia o supera il precedente stato dell’arte ottenuto anche da modelli addestrati ad hoc. Ad esempio, GPT-4 fu il primo modello linguistico generale a superare certi test professionali: ottenne risultati nel top 10% al bar exam (esame da avvocato USA) e voti elevati in esami AP scolastici, mostrando una competenza sorprendentemente ampia.
Una differenza qualitativa rispetto al passato fu la capacità multimodale: GPT-4 poteva analizzare immagini, descriverle o rispondere a domande su di esse, grazie a un modulo visivo integrato. Ciò segna un cambio di architettura: dal puro testo si passa a un modello in grado di elaborare diverse modalità, anche se nel 2023 l’input visivo fu reso disponibile in modo limitato. Sul piano dell’architettura interna, fonti non ufficiali suggerirono che GPT-4 potesse essere un modello “Mixture of Experts” (MoE), composto da molte reti esperte di dimensioni ~1 trilione di parametri in totale, con un meccanismo di gating che ne attiva solo una parte (forse ~200 miliardi di parametri attivi per ogni token generato). Questa scelta avrebbe permesso di coniugare una capacità potenziale enorme (parametri totali >1T) con costi di inferenza contenuti usando solo un sotto-modello per ogni query.
OpenAI non confermò né smentì queste voci; ciò che è certo è che GPT-4 fu addestrato su supercomputer Azure AI dedicati, segno di un investimento computazionale forse ancor maggiore di GPT-3. In assenza di numeri ufficiali, l’impatto di GPT-4 va misurato dalle prestazioni: esso rappresentò un nuovo limite superiore per le capacità dei LLM generici. Tuttavia, questa volta OpenAI stessa mise in guardia dal fidarsi ciecamente dei benchmark accademici come misura di utilità: nel report di GPT-4 si evidenziava che “molti benchmark esistenti sono in inglese e semplificati rispetto alla realtà”, e che sebbene GPT-4 li domini, rimane meno capace degli umani in molti scenari reali. In altre parole, passare esami a scelta multipla non equivale ad avere buon senso o intelligenza generale.
Con GPT-4 divenne chiaro che i benchmark tradizionali stavano perdendo potere discriminante ai livelli alti: molti test di riferimento (MMLU, BIG-Bench, etc.) iniziano a essere “saturi”, con differenze di pochi punti percentuali fra modelli top, e soprattutto incapaci di distinguere le sottili qualità di stile, creatività, affidabilità nelle applicazioni reali. OpenAI stessa, nel presentare GPT-4.5 più avanti, riconoscerà che i benchmark accademici non sempre riflettono l’utilità nel mondo reale.
Da GPT-4 in poi, l’attenzione si è spostata sempre più su valutazioni umane e prove pratiche in scenari aperti, oltre che sulla ricerca di nuovi benchmark (ad esempio MMLU-Pro, livelli superiori di BIG-Bench, o HELM) per stressare i modelli su aspetti non ancora risolti. Un aspetto cruciale emerso con GPT-4 – e proseguito dopo – è il fenomeno della “diminuzione dell’effetto wow”. Non perché i modelli abbiano smesso di migliorare, anzi, ma perché noi utenti ci siamo abituati alla magia. Se GPT-2 aveva stupito una nicchia e GPT-3 allargato la meraviglia, ChatGPT (GPT-3.5) aveva già reso quotidiana l’idea che un’IA potesse dialogare come un essere umano competente. Così, all’uscita di GPT-4, molti commentatori notarono che sì, era più bravo, ma l’entusiasmo generale fu più contenuto: ormai ci si aspettava che fosse straordinario. E questa assuefazione è continuata: con ogni salto generazionale, l’impatto emotivo tende a ridursi. Persone profondamente coinvolte nel campo riportano che è diventato difficile percepire nettamente i miglioramenti di qualità da un modello all’altro, a meno di confronti sistematici fianco a fianco. Ciò non vuol dire che i progressi siano finiti, al contrario, spesso sono sostanziali ma più sottili: ad esempio GPT-4 riduce gli errori di logica rispetto a GPT-3.5, GPT-4.5 è più empatico e factual di GPT-4, però l’effetto wow iniziale tende ad affievolirsi.
L’evoluzione assomiglia un po’ a quella degli smartphone: le prime versioni rivoluzionarie lasciavano tutti a bocca aperta, mentre oggi le migliorie annuali, pur importanti, sono percepite come incrementali. Nel caso dei modelli linguistici, inoltre, c’è un altro fattore: man mano che ne scopriamo i limiti – allucinazioni residue, incapacità di vero ragionamento deliberato, mancanza di volontà propria – ridimensioniamo anche le aspettative. Ogni nuova versione è accolta con più sobrietà, e si passa rapidamente dall’entusiasmo alla ricerca dei difetti residui. In sintesi, siamo diventati più difficili da stupire: il salto qualitativo dal “molto buono” al “eccellente” è meno vistoso di quello da “mediocre” a “buono” visto in passato.
Proprio il ragionamento, inteso come capacità di eseguire deliberazioni passo-passo simili al pensiero umano, è divenuto il nuovo terreno di sfida. I modelli base (GPT-3, GPT-4) pur avendo conoscenza enciclopedica, tendevano a ragionare in modo implicito e talvolta superficiale. Per affrontare problemi logici complessi – ad esempio risolvere un problema matematico articolato o analizzare uno scenario strategico – è emerso che può essere vantaggioso far sì che il modello espliciti una catena di pensiero (Chain-of-Thought) prima di fornire la risposta finale. Già in ricerche del 2022, come quelle di Google su PaLM, si scoprì che aggiungere nel prompt la richiesta “mostra i passaggi del ragionamento” migliorava drasticamente la performance su compiti aritmetici e di logica. OpenAI ha abbracciato questa intuizione portandola all’estremo: invece di affidarsi solo al prompting, ha addestrato modelli specializzati nativamente capaci di catene di pensiero. Così sono nati i modelli della serie OpenAI o, parallela alla serie GPT. Nel 2023 OpenAI presentò in anteprima OpenAI o1, un modello addestrato con tecniche di rinforzo specifiche per pensare passo dopo passo.
A livello pratico, o1 funziona così: prima di rispondere, genera internamente (e volendo visibilmente) una sequenza di ragionamenti in linguaggio naturale, verificando la coerenza logica e correggendosi se necessario, poi formula la risposta finale. In altre parole, o1 è addestrato a fare quello che con GPT-4 dovevamo ottenere tramite un particolare prompt: pensarci su articolatamente. Questa linea di ricerca è ispirata a concetti psicologici (il cosiddetto “System 2” deliberativo) e ha portato a risultati impressionanti su compiti dove la pura associazione statistica di GPT falliva. Ad esempio, OpenAI o1 ha mostrato un netto vantaggio nei problemi matematici: nella competizione AIME 2024 (American Invitational Mathematics Examination), la versione o1-pro ha ottenuto l’86% di successo, contro il ~78% della versione standard o1 e percentuali ancor più basse per GPT-4- Addirittura un prototipo denominato o3-mini ha raggiunto internamente l’87,3% di punteggio AIME, surclassando qualsiasi GPT tradizionale su quel fronte. Ciò è notevole perché GPT-4.5 – un modello ben più grande – sullo stesso test totalizza solo il 36,7%, e GPT-4 “originale” addirittura sotto il 10%. Questo confronto illustra bene la differenza: i modelli con chain-of-thought esplicita (serie o) eccellono laddove servono calcolo accurato e logica multi-step, anche se hanno meno conoscenza enciclopedica, mentre i modelli GPT “standard” (serie 3.5, 4, 4.5) brillano per fluidità, creatività e ampiezza di informazioni ma possono commettere errori ingenui di ragionamento.
È interessante notare che i modelli o non sono necessariamente enormi in termini di parametri; anzi, o1-mini è una versione ridotta pensata per essere veloce ed efficiente, pur mantenendo performance solide, in particolare nel coding. Ciò suggerisce che l’architettura e l’addestramento orientato al ragionamento possono compensare dimensioni più piccole, almeno su alcuni tipi di problemi.
In pratica, OpenAI sta portando avanti due famiglie di modelli in parallelo, come spiegato nei loro documenti: da un lato la scala dei modelli GPT classici per migliorare la “intuizione” e la conoscenza del mondo; dall’altro la serie o per migliorare la capacità di “pensare” strutturatamente. Questa evoluzione riflette un cambio di filosofia: non basta più “scalare” i parametri in modo cieco, bisogna insegnare ai modelli un metodo di pensiero. È un po’ come la differenza tra un genio intuitivo e uno scienziato metodico: i modelli GPT tradizionali sono il genio che azzecca molte risposte d’istinto ma talvolta scivola su dettagli, i modelli chain-of-thought sono lo scienziato che procede lentamente ma arriva al risultato corretto seguendo ogni passo. L’obiettivo futuro sarà chiaramente combinare i due approcci, per ottenere modelli sia enormemente competenti sul piano delle conoscenze che rigorosi nel ragionamento. A inizio 2025, OpenAI ha introdotto GPT-4.5, presentato come il modello GPT più grande e avanzato disponibile in preview GPT-4.5 è un ulteriore passo sulla direttrice della scala non supervisionata: ancora più dati, ancora più parametri (si vocifera un modello con vari trilioni di parametri totali e centinaia di miliardi effettivamente attivi), e alcune innovazioni architetturali per spingere le prestazioni generali. OpenAI lo descrive come un modello con una base di conoscenza più ampia, minore tendenza a inventare fatti e una capacità migliorata di seguire l’intento dell’utente, nonché di comprendere sfumature emotive. In effetti GPT-4.5 sembra mettere l’accento su risposte più naturali e “umane” nel tono: durante i test iniziali, gli utenti hanno notato uno stile conversazionale più caldo ed empatico, e una maggiore sensibilità al contesto (quello che OpenAI chiama un più alto “EQ” del modello). Ciò lo rende particolarmente adatto – secondo OpenAI – per compiti come il supporto alla scrittura creativa (librologica lo sta attualmente testando proprio in questo campo), il coaching motivazionale, la comunicazione persuasiva e la risoluzione di problemi quotidiani. In parallelo, GPT-4.5 ha mostrato progressi tangibili anche in ambiti tecnici: ad esempio nelle sfide di programmazione competitive (benchmark interni come SWE-Bench), il modello supera GPT-4 di alcuni punti percentuali, segno che la sua conoscenza del codice e la capacità di pianificare più passi avanti (ad esempio per eseguire multi-step coding workflows) sono migliorate. Su compiti di factual QA, OpenAI ha introdotto un nuovo benchmark chiamato SimpleQA per misurare la factualità su domande “semplici ma trabocchetto”: GPT-4.5 ottiene ~62,5% di accuratezza contro ~38% di GPT-4 “base” e con una riduzione significativa del tasso di allucinazioni. Questo conferma che ampliando il dataset e la dimensione del modello, si ottiene una comprensione più profonda del mondo e una maggiore robustezza nell’aderire ai fatti. Dal lato del ragionamento, tuttavia, GPT-4.5 non rivoluziona l’approccio: rimane un modello che ragiona implicitamente, senza l’obbligo di mostrare i passaggi (a differenza della serie o). Nonostante ciò, pur essendo un “bruto forzuto” dell’intuizione, GPT-4.5 riesce a migliorare anche in compiti di logica rispetto a GPT-4: il suo punteggio su MMMLU (una variante multilingue di MMLU) è 85,1% contro 81,5% di GPT-4. e in generale i benchmark accademici tradizionali lo vedono avanti di qualche punto sul predecessore. Resta però dietro ai modelli specializzati di ragionamento in test come la matematica pura (come visto, su AIME è lontano dai risultati di o3-mini). Una differenza chiave è che GPT-4.5 è estremamente oneroso: OpenAI ha dichiarato che è molto dispendioso in termini di calcolo e costoso da eseguire, al punto che non rimpiazzerà GPT-4 “o” (origin) nelle API per default. Infatti, GPT-4 “o” – possiamo chiamarlo il GPT-4 standard/ottimizzato disponibile commercialmente nel 2024 – rimarrà il modello per usi generali, essendo più economico e veloce, mentre GPT-4.5 viene offerto in anteprima di ricerca per esplorare i benefici di un modello ancora più potente. Ciò crea attualmente un panorama in cui GPT-4.5 convive GPT-4o e con i modelli o1/o3: GPT-4.5 rappresenta il massimo della conoscenza intuitiva e creatività (ma costoso), GPT-4o è il modello di punta ottimizzato per produzione (un equilibrio fra costo e prestazioni), e o1/o3 sono i modelli di ragionamento profondo. Non a caso OpenAI parla di GPT-4.5 come di un modello “per tutti” orientato alla chat e alla creatività, ma al tempo stesso sonda se mantenerlo o meno in base ai riscontri, proprio perché potrebbe non valere la pena servire a lungo un modello così costoso se i benefici rispetto a GPT-4 standard non giustificano il costo. In altre parole, potremmo vedere GPT-4.5 evolvere in un possibile GPT-5, oppure venire accantonato se ritenuto un vicolo poco efficiente.
A questo punto, uno sguardo al futuro diventa quasi obbligato: cosa aspettarsi da GPT-5 o dai successori? OpenAI, dopo l’uscita di GPT-4, ha dichiarato che non stava ancora addestrando GPT-5 e che ci sarebbe voluto del tempo prima di un ulteriore salto. Questo non significa che la progressione si fermi – come abbiamo visto, nel frattempo sono arrivati modelli intermedi, come GPT-4.5 e la famiglia o, e competitor come Google Gemini stanno spingendo sulle stesse frontiere. Piuttosto, indica che il paradigma potrebbe cambiare: la crescita puramente dimensionale sembra rendimenti decrescenti in rapporto ai costi immensi, per cui nuovi modelli potrebbero puntare su architetture ibride. È plausibile che un eventuale GPT-5 combini nativamente le due anime attuali: la potenza di pre-addestramento su dati sconfinati (asse GPT) e la capacità di ragionamento strutturato (asse o). Un modello del genere sarebbe in grado di decidere quando seguire una catena logica interna e quando affidarsi all’intuito statistico, bilanciando velocità e accuratezza. Sul fronte parametri, se GPT-4.5 è davvero dell’ordine dei multi-trilioni (5-7 T di param. totali stimati, ~600B attivi), GPT-5 potrebbe non aumentare di un ulteriore ordine di grandezza – a meno di progressi hardware rivoluzionari – ma piuttosto ottimizzare l’uso di quelli esistenti (ad esempio con sparsità più efficiente, modelli modulari, memorie a lungo termine). Un’altra direzione quasi certa è l’aumento della finestra di contesto: già nel 2023 GPT-4 supportava input fino a 32k token, e laboratori come Anthropic esploravano contesti di 100k o più. Ciò indica che i modelli futuri potrebbero leggere e produrre documenti lunghissimi, mantenendo coerenza su interi libri o su conversazioni protratte nel tempo, un elemento chiave per avvicinarsi all’uso umano del linguaggio. Inoltre, la multimodalità sarà protagonista: GPT-4 ha aperto la porta con immagini statiche, i successori potrebbero gestire anche audio, video, e farlo in modo integrato (immaginiamo un modello che legga un manuale, guardi un video dimostrativo e poi ne spieghi il contenuto per iscritto). OpenAI stessa nella presentazione di GPT-4.5 enfatizza che stanno “esplorando le capacità visive in un blog a parte” e che il modello supporta input immagini tramite l’API
Quindi possiamo attenderci un futuro modello capace di comprendere contesti multimodali complessi – ad esempio, ricevere una domanda correlata a un grafico e a un articolo di testo insieme e rispondere correttamente riferendosi a entrambi. Un’altra area di sviluppo sarà la memoria a lungo termine e l’apprendimento continuo: finora i GPT sono sistemi statici addestrati una tantum, ma la ricerca (anche di OpenAI) suggerisce che far apprendere continuamente il modello dalle interazioni (in modo controllato) potrebbe mantenere aggiornate le conoscenze e personalizzare il comportamento. In parallelo, l’integrazione con strumenti esterni (funzioni, motori di ricerca, calcolatori) diventerà probabilmente nativa: già GPT-4 supporta il function calling, in futuro potremmo vedere modelli che attivano autonomamente moduli specializzati (per calcoli, retrieval di informazioni aggiornate, ecc.) durante una sessione. Infine, c’è da considerare la robustezza e affidabilità: GPT-4.5 ha ridotto le allucinazioni rispetto a GPT-4, ma non le ha eliminate; un GPT-5 dovrebbe idealmente raggiungere un livello di accuratezza tale da poter essere impiegato con fiducia in contesti critici (medicina, diritto, ingegneria). Ciò richiederà avanzamenti sia nei dati (per coprire lacune di conoscenza), sia nei metodi di training (per penalizzare con efficacia ogni output non supportato da logica o evidenza). È un obiettivo ambizioso: significa in sostanza avvicinare il ragionamento del modello a quello umano, con la differenza che un’IA può essere dotata di fonti esteriori per verificare i fatti in tempo reale.
Se GPT-2 e GPT-3 hanno dimostrato il potere del “scaling up” e GPT-4 ha iniziato a mostrare i limiti di quel solo approccio, GPT-4.5 e i progetti paralleli di OpenAI indicano la strada futura: unire la quantità (parametri, dati, compute) alla qualità (strategie di ragionamento, supervisione fine). Come afferma OpenAI, «ogni nuovo ordine di grandezza di calcolo porta capacità inedite» ma è necessaria anche una diversa prospettiva per raggiungere la flessibilità dell’intelligenza umana.
Il percorso da GPT-2 a GPT-4.5 ci ha portati da un modello che scriveva frasi a uno che dialoga, calcola, programma e riflette (quasi) come noi. Il prossimo tratto di strada, che porti si chiami GPT-5 o in altro modo, punta a colmare quel “quasi”, integrando tutta la conoscenza enciclopedica accumulata con una comprensione autentica e una capacità di pensiero sempre più vicina a quella di un esperto umano, ma con la velocità e la vasta memoria di una macchina. Sarà una sfida tecnica imponente, ma guardando indietro ai progressi dal 2019 a oggi, la traiettoria evolutiva dei modelli OpenAI lascia intravedere ulteriori sorprese all’orizzonte – forse meno “scintillanti” sul momento, ma ancora più profonde nella sostanza.