OpenAI ha svelato il suo ultimo modello di intelligenza artificiale, o1, precedentemente noto con il nome in codice “Strawberry”. Questo modello è progettato per migliorare le capacità di ragionamento nell’intelligenza artificiale. Come riportato da più fonti, questa nuova serie di modelli mira ad affrontare problemi complessi in ambito scientifico, di programmazione e matematico, trascorrendo più tempo a “riflettere” prima di rispondere, imitando processi di ragionamento simili a quelli umani.
Ragionamento e prestazioni migliorate
Il modello o1 dimostra notevoli capacità nella risoluzione di problemi complessi, in particolare nei campi STEM. Nelle valutazioni, si è classificato all’89° percentile nelle domande di programmazione competitiva (Codeforces) e si è posizionato tra i primi 500 studenti nella qualificazione per le Olimpiadi della Matematica USA (AIME). Le sue prestazioni si estendono anche ai settori scientifici, superando l’accuratezza di livello dottorato umano in un benchmark di problemi di fisica, biologia e chimica (GPQA). Questa avanzata capacità di ragionamento consente a o1 di affrontare questioni multisfaccettate, generare algoritmi sofisticati ed eccellere in compiti di analisi comparativa come l’esame di contratti o documenti legali.
Varianti del modello o1
Sono state introdotte due varianti del modello o1: o1-preview e o1-mini. O1-mini è una versione più piccola, più veloce e più conveniente, progettata specificamente per compiti di programmazione. Costa l’80% in meno rispetto a o1-preview, mantenendo ancora prestazioni competitive nei benchmark di programmazione. Entrambi i modelli sono disponibili in ChatGPT e tramite l’API di OpenAI, con o1-mini che offre un equilibrio tra efficienza e potenza per gli sviluppatori che richiedono capacità di ragionamento senza la necessità di una vasta conoscenza del mondo.
Limitazioni e sfide
Nonostante le sue avanzate capacità, il modello o1 deve affrontare diverse sfide. È significativamente più costoso da utilizzare, con costi di input 3 volte superiori e costi di output 4 volte superiori rispetto a GPT-4o nell’API. Il modello può essere più lento nell’elaborare le query, impiegando talvolta oltre dieci secondi per rispondere a domande complesse. Inoltre, o1 attualmente manca di funzionalità come la navigazione sul web e l’analisi dei file, disponibili in altri modelli di intelligenza artificiale. Ci sono anche segnalazioni di allucinazioni aumentate e una tendenza a fare affermazioni sicure ma errate più frequentemente rispetto ai suoi predecessori.
Disponibilità e piani futuri
Attualmente disponibile per gli utenti ChatGPT Plus e Team, i modelli o1 hanno limiti di frequenza settimanali di 30 messaggi per o1-preview e 50 per o1-mini. Gli utenti aziendali ed educativi avranno accesso la prossima settimana, mentre gli sviluppatori che soddisfano i requisiti del livello di utilizzo dell’API 5 possono iniziare a prototipare con entrambi i modelli immediatamente. OpenAI prevede di estendere l’accesso a o1-mini a tutti gli utenti gratuiti di ChatGPT in futuro, anche se non è stata annunciata una data di rilascio specifica. L’azienda è impegnata a migliorare le capacità dei modelli, affrontare le limitazioni e integrare funzionalità aggiuntive come la navigazione e il caricamento di file per migliorarne l’utilità in varie applicazioni.
Benchmark del modello OpenAI o1
Il modello o1 di OpenAI ha dimostrato prestazioni eccezionali in vari benchmark, evidenziando le sue avanzate capacità di ragionamento..
Le prestazioni del modello o1 sono particolarmente degne di nota nei campi STEM, dimostrando la sua capacità di risolvere problemi complessi e ragionare attraverso compiti impegnativi. Il suo successo attraverso questi diversi benchmark indica un significativo avanzamento nelle capacità di ragionamento dell’intelligenza artificiale, posizionandolo come uno strumento potente per varie applicazioni in ambito scientifico, matematico e di programmazione.