OpenAI, l’azienda dietro il popolare ChatGPT, ha annunciato il lancio del suo nuovo modello di linguaggio, GPT-4o. La “o” in GPT-4o sta per “omni”, indicando la capacità del modello di gestire testo, voce e video. Questo nuovo modello rappresenta un miglioramento rispetto al suo predecessore, GPT-4 Turbo, offrendo capacità migliorate, elaborazione più veloce e risparmi di costo per gli utenti.
GPT-4o è destinato a potenziare il chatbot ChatGPT e l’API di OpenAI, consentendo ai sviluppatori di utilizzare le capacità del modello. Il nuovo modello è disponibile sia per gli utenti gratuiti che per quelli a pagamento, con alcune funzionalità che verranno rilasciate immediatamente e altre nelle settimane successive.
Il nuovo modello apporta un miglioramento significativo nella velocità di elaborazione, una riduzione del 50% dei costi, un aumento di cinque volte dei limiti di velocità e supporto per oltre 50 lingue. OpenAI pianifica di distribuire gradualmente il nuovo modello agli utenti di ChatGPT Plus e Team, con disponibilità aziendale “in arrivo presto”. L’azienda ha anche iniziato a distribuire il nuovo modello agli utenti di ChatGPT Free, sebbene con limiti di utilizzo, lunedì.
Nelle settimane a venire, OpenAI introdurrà funzionalità di voce e video migliorate per ChatGPT. Le capacità di voce di ChatGPT potrebbero intensificare la concorrenza con altri assistenti vocali, come Siri di Apple, Google di Alphabet e Alexa di Amazon. Gli utenti possono ora interrompere ChatGPT durante le richieste per simulare una conversazione più naturale.
GPT-4o migliora notevolmente l’esperienza nel chatbot AI di OpenAI, ChatGPT. La piattaforma ha a lungo offerto una modalità di voce che trascrive le risposte del chatbot utilizzando un modello di sintesi vocale, ma GPT-4o supera questo, consentendo agli utenti di interagire con ChatGPT più come un assistente. Il modello offre una risposta “in tempo reale” e può anche rilevare le sfumature nella voce di un utente, generando voci in “un range di stili emotivi diversi” (incluso il canto).
GPT-4o migliora anche le capacità di visione di ChatGPT. Dato un’immagine – o uno schermo del desktop – ChatGPT può ora rispondere rapidamente a domande correlate, su argomenti che vanno da “Cosa sta succedendo in questo codice software?” a “Quale marca di camicia indossa questa persona?”. Queste funzionalità evolveranno ulteriormente nel futuro, con il modello che potrebbe consentire a ChatGPT di “guardare” una partita di sport in diretta e spiegare le regole.
GPT-4o è anche più multilingue, con prestazioni migliorate in circa 50 lingue. E nell’API di OpenAI e nel servizio Azure OpenAI di Microsoft, GPT-4o è due volte più veloce, costa la metà e ha limiti di velocità più alti rispetto a GPT-4 Turbo.
Durante la dimostrazione, GPT-4o ha mostrato di poter capire le emozioni degli utenti ascoltando il loro respiro. Quando ha notato che un utente era stressato, ha offerto consigli per aiutarlo a rilassarsi. Il modello ha anche mostrato di poter conversare in più lingue, traducendo e rispondendo automaticamente alle domande.
Gli annunci di OpenAI mostrano quanto rapidamente il mondo dell’IA stia avanzando. I miglioramenti nei modelli e la velocità con cui funzionano, insieme alla capacità di unire capacità multi-modalità in un’interfaccia omni-modale, sono destinati a cambiare come le persone interagiscono con questi strumenti.