OpenAI ha presentato Sora, un nuovo modello di intelligenza artificiale generativa in grado di creare video a partire da istruzioni testuali. Sora è un modello di diffusione che utilizza un’architettura transformer, simile ai modelli GPT, per generare scene realistiche e immaginative, inclusi scenari complessi con più personaggi e tipi specifici di movimento[1][2][3]. Il modello può anche animare immagini statiche, estendere video esistenti e riempire fotogrammi mancanti, producendo video fino a un minuto di lunghezza in vari stili come fotorealistico, animato o in bianco e nero[1][2].
Nonostante le sue capacità, Sora ha delle limitazioni, come difficoltà nella simulazione di fisica complessa, nella comprensione di causa ed effetto e nel mantenere accuratamente i dettagli spaziali. Ad esempio, potrebbe non mostrare un segno di morso su un biscotto dopo che qualcuno ha dato un morso, o potrebbe confondere la sinistra con la destra in una scena[1][2].
OpenAI sta prendendo precauzioni di sicurezza prima di rendere Sora ampiamente disponibile. Stanno lavorando con red teamers per testare il modello per potenziali danni, come disinformazione, contenuti d’odio e pregiudizi. Stanno anche sviluppando strumenti per rilevare contenuti fuorvianti e prevedono di includere metadati C2PA in futuro per garantire la provenienza dei video generati da Sora[1][2].
Attualmente Sora è disponibile per i red teamers e un gruppo selezionato di artisti visivi, designer e cineasti per ricevere feedback. OpenAI sta interagendo con politici, educatori e artisti per comprendere le preoccupazioni e identificare casi d’uso positivi per la tecnologia. Sottolineano che imparare dall’uso nel mondo reale è fondamentale per creare e rilasciare sistemi di intelligenza artificiale sempre più sicuri[1][2][3].
L’introduzione di Sora segue il modello di sviluppo rapido di OpenAI negli strumenti di intelligenza artificiale generativa, inclusi ChatGPT, DALL-E 3 e ora Sora, che rappresenta un significativo avanzamento nella capacità dell’IA di generare contenuti video[3].
Citations:
[1] Sora: Creating video from text https://openai.com/sora
[2] OpenAI’s newest model Sora can generate videos — and they look decent | TechCrunch https://techcrunch.com/2024/02/15/openais-newest-model-can-generate-videos-and-they-look-decent/
[3] OpenAI announces Sora, a wild AI text-to-video model. See it in action. https://mashable.com/article/openai-sora-ai-text-to-video-model-announcement
Ecco un esempio di video generato da Sora utilizzando il seguente Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.more