Skip to content Skip to footer

OpenAI lancia O3 e O4-mini: nuovi standard per l’intelligenza artificiale ‘pensante’

OpenAI ha annunciato due nuovi modelli della sua serie “o”: si chiamano o3 e o4-mini, e introducono dei miglioramenti significativi nella capacità di ragionamento. Questi modelli sono progettati per riflettere più a lungo prima di rispondere, consentendo loro di affrontare domande complesse con una precisione superiore rispetto ai modelli precedenti. Per la prima volta, sono in grado di utilizzare tutti gli strumenti disponibili all’interno di ChatGPT in modo autonomo: possono cercare informazioni online, esaminare file e dati con Python, interpretare immagini, e persino generarne di nuove. Questa abilità si basa su un addestramento specifico che li ha istruiti non solo su come usare gli strumenti, ma soprattutto quando farlo, in funzione del tipo di risposta richiesta. Il risultato è una maggiore efficacia su compiti articolati e multiformi, con risposte che arrivano in meno di un minuto e in un formato già ottimizzato per l’utente.

Il modello o3 è attualmente il più potente disponibile per il ragionamento e stabilisce nuovi standard di riferimento in campi come la programmazione, la matematica avanzata, la scienza e l’analisi visiva. Si distingue in particolare per la capacità di lavorare su input visivi come grafici, immagini e schemi complessi, ed è stato valutato con un margine d’errore del 20% inferiore rispetto al modello o1 su compiti difficili del mondo reale, soprattutto in contesti tecnico-scientifici e creativi. Gli utenti che l’hanno provato in anteprima l’hanno definito un “partner di pensiero” in grado di sviluppare ipotesi originali e valutarle criticamente, mostrando rigore analitico in discipline come biologia, ingegneria e matematica.

Il modello o4-mini, invece, è più leggero, ottimizzato per ragionamenti rapidi e con costi inferiori. Nonostante la sua dimensione ridotta, si comporta sorprendentemente bene in matematica, programmazione e analisi visiva, raggiungendo risultati eccellenti nelle competizioni accademiche come l’AIME. Per molte attività quotidiane che richiedono ragionamento ma non potenza estrema, o4-mini si dimostra un’ottima scelta, anche perché consente un numero molto più alto di utilizzi rispetto al fratello maggiore.

Entrambi i modelli offrono una migliore comprensione delle istruzioni e generano risposte più utili e verificabili rispetto alle versioni precedenti. Questo è possibile grazie a un’intelligenza migliorata e all’uso mirato di fonti aggiornate via web e alla capacità di ricordare conversazioni passate, rendendo l’interazione più naturale e pertinente.

Un altro punto chiave è l’uso avanzato delle immagini. Questi modelli non si limitano a “vedere” un’immagine, ma la integrano attivamente nella loro catena di ragionamento. Possono interpretare foto sfuocate, invertite, diagrammi complessi o lavagne scritte a mano, ed elaborare risposte basate su ciò che osservano, eventualmente modificando o trasformando le immagini per facilitarne l’analisi.

Sul piano della progettazione interna, OpenAI ha spinto al massimo l’uso dell’apprendimento per rinforzo, dimostrando che lasciando “pensare” più a lungo un modello si ottengono risultati significativamente migliori, soprattutto in combinazione con gli strumenti esterni. Questo approccio consente ai modelli di comportarsi in modo più flessibile e strategico: possono, ad esempio, eseguire una serie di ricerche sul web, analizzare i risultati e riformulare la ricerca se necessario, il tutto per risolvere un problema complesso come una previsione energetica regionale o una strategia aziendale.

I test pubblici mostrano che l’accuratezza dei modelli è aumentata in modo sostanziale in tutti i benchmark: dalle domande universitarie (MMMU) alla scienza di livello PhD (GPQA), dai compiti di ingegneria software (SWE-Bench) all’editing di codice in linguaggi multipli. I numeri parlano chiaro: o3 e o4-mini stabiliscono nuovi massimi nelle prestazioni e nella capacità di seguire istruzioni complesse su più turni, con risultati superiori anche nelle valutazioni effettuate da esperti esterni.

o3 è il modello ideale per chi cerca un’intelligenza raffinata e multi-dimensionale, mentre o4-mini si presenta come il compagno perfetto per chi ha bisogno di risposte intelligenti, veloci e convenienti. Entrambi portano ChatGPT più vicino a un’intelligenza operativa autonoma, in grado di affrontare compiti articolati e agire con una logica quasi “agente”. Questo rappresenta un passo deciso verso un futuro in cui l’intelligenza artificiale non solo assiste, ma collabora in profondità con chi la utilizza.