Ho testato OpenAI Sora ed ecco cosa ho scoperto

 | Intelligenza-Artificiale

OpenAI è stato ufficialmente rilasciato Sorail terzo giorno della serie “12 Days of OpenAI”. Dopo mesi di suspense dal suo primo annuncio nell'aprile 2024, Sora ha dimostrato di rappresentare un grande passo avanti nello spazio dei contenuti video generati dall'intelligenza artificiale. OpenAI ha rilasciato il modello Sora Turbo, la versione accelerata di fascia alta del modello Sora originale. Diamo un'occhiata alle funzionalità appena aggiunte e proviamole!

Cos'è Sora?

Sora è un generatore di testo in video che utilizza avanzato modelli di diffusione E architetture di trasformatori creare video basati su descrizioni scritte. Questi video vengono generati iniziando con il rumore e perfezionandolo progressivamente in più passaggi. Questo processo di diffusione consente al modello di produrre sequenze video realistiche e coerenti da un'ampia gamma di input testuali.

Basandosi sui precedenti successi di OpenAI con GPT, DALL·EE CLIPSora introduce un grande passo avanti consentendo agli utenti di creare video da zero o estendere quelli esistenti in base a istruzioni di testo. Che si tratti di generare un video completamente nuovo o di animare un'immagine, la capacità di Sora di creare narrazioni visivamente accattivanti direttamente dal linguaggio naturale non ha precedenti.

Funzionalità di OpenAI Sora

  • Genera video dal testo: Crea video da semplici istruzioni di testo.
  • Estendi i video esistenti: Continua o modifica i video esistenti.
  • Immagini animate: Dai vita alle immagini fisse con l'animazione.
  • Gestisci scene complesse: Mantieni la continuità tra più fotogrammi.
  • Scalare e adattare: Genera video in vari formati e lunghezze.
  • Trasforma i video: Modifica i video esistenti in base alle istruzioni di testo.

Miglioramenti chiave

  • Fisica realistica: Movimento degli oggetti più naturale.
  • Video più lunghi: Crea video fino a 20 secondi.
  • Illuminazione migliorata: Video visivamente più accattivanti con effetti di luce dinamici.

Mettere alla prova OpenAI Sora

Richiesta: Crea un video sul cane bianco che gioca con il gattino

Richiesta: Crea un video di un cane che balla su una spiaggia.

Suggerimento dello storyboard

Richiesta:

  • Una vivida animazione mostra una molecola psicotropa che viene ingerita, raffigurata come una piccola particella luminosa che entra nella bocca. Lo sfondo è una rappresentazione stilizzata del sistema digestivo umano, con colori vorticosi che suggeriscono l'inizio di un viaggio complesso.
  • La molecola viaggia attraverso il flusso sanguigno, circondata da globuli rossi e bianchi. È raffigurato come una particella luminosa e luminescente che si muove rapidamente attraverso una rete di vasi sanguigni.
  • La molecola raggiunge la barriera ematoencefalica, raffigurata come un muro luccicante, e la penetra, entrando nel cervello. La scena diventa più intricata, con i neuroni e le sinapsi che si illuminano mentre la molecola interagisce con loro.

Richiesta:

  1. In una stanza per bambini caldamente illuminata, un bambino e una bambina siedono in un'accogliente yurta improvvisata costruita con coperte e cuscini scozzesi. Indossano cappelli giocosi e stivali di feltro, circondati dalla morbida luce delle lampade. I bambini ridacchiano mentre giocano con una renna giocattolo, i loro occhi brillano di fantasia.
  2. I bambini chiudono forte gli occhi, un senso di anticipazione nell'aria.
  3. Non appena aprono gli occhi, si trasformano in adulti, stando di fronte al moderno paesaggio di un hotel in Yakutia, circondati da vere yurte e da un vasto scenario invernale innevato.

Osservazione: durante la creazione dei video utilizzando il file ChatGPT Plus mi ci è voluto molto tempo, vedo che c'è molto margine di miglioramento.

Come accedere a Sora?

È possibile accedere a Sora tramite il nuovo sito web – sora.com. Puoi utilizzare i tuoi piani ChatGPT per ottenere l'accesso al modello:

  • Conto ChatGPT Plus: Questo piano ti dà 50 generazioni al mese. Questi potrebbero essere correlati al numero di creazioni di testo in video o ad altre attività specifiche al mese.
  • Conto OpenAI Pro: Questo offre generazioni illimitate in modalità coda lenta, inoltre 500 generazioni più veloci al mese. Questo livello sembra focalizzato sull'offerta di maggiore flessibilità, con la possibilità di elaborare le attività più velocemente per un certo numero di generazioni, mentre altre attività potrebbero essere messe in coda ed elaborate più lentamente.
  • Disponibilità: Il servizio non sarà disponibile per Regno Unito e UE al momento del lancio, il che potrebbe essere dovuto a considerazioni legali, normative o sulla privacy dei dati (come il GDPR). Questa limitazione potrebbe essere eliminata in futuro man mano che si espanderanno in più regioni.

Funzionalità di OpenAI Sora

Funzionalità di OpenAI Sora

Prodotto separato

  • Sora è un prodotto autonomo, non integrato in ChatGPT o altre piattaforme OpenAI.
  • Accessibile tramite Sora.comdove vengono visualizzati i video generati e curati di recente.

Creazione e montaggio video

  • Genera video dalle istruzioni: gli utenti possono creare video in base a istruzioni di testo.
  • Carica immagini: Gli utenti possono anche caricare immagini, che Sora può utilizzare per generare video.
  • Funzionalità di remix: consente agli utenti di apportare modifiche ai video esistenti descrivendo le modifiche desiderate.
    • Impostazione della forza: controlla quanto drasticamente verrà modificato il video, con impostazioni più elevate che portano a cambiamenti più artistici.
  • Montaggio video: Sora può anche modificare i video originariamente generati dallo strumento.

Caricamento e miglioramento delle immagini

Caricamento e miglioramento delle immagini
  • Carica immagini: Puoi iniziare caricando un'immagine per creare un video. Questa immagine può fungere da base e puoi estenderla con ulteriori elementi, testo o animazione.
  • Descrizione del testo: Puoi anche descrivere l'immagine con del testo. Più dettagliata è la tua descrizione, più specifica sarà la creazione del video che seguirà le tue istruzioni. Per le descrizioni meno dettagliate, lo strumento colmerà le lacune con creatività generale e dettaglio.

Temi (Preimpostazioni)

Temi di Sora
  • SORA fornisce vari preset che possono essere utilizzati per definire il tema generale del video. Alcuni esempi includono:
    • Mondo dei palloncini: Questo preset potrebbe creare un'atmosfera stravagante o onirica.
    • Ferma il movimento: Una preimpostazione progettata per emulare lo stile di animazione stop-motion, conferendo al tuo video un aspetto artigianale fotogramma per fotogramma.

Selezione delle proporzioni

  • Puoi scegliere le proporzioni del tuo video. Alcune opzioni comuni includono:
    • 16:9 (Schermo ampio): ideale per la maggior parte dei video, in particolare per YouTube, film widescreen, ecc.
    • 1:1 (Quadrato): adatto per post sui social media come Instagram.
    • 9:16 (Verticale): perfetto per piattaforme come TikTok o Instagram Stories.

Durata del video

Durata
  • Puoi impostare la durata del tuo video fino a 20 secondioffrendoti flessibilità nella quantità di contenuti inclusi.

Integrazione di testo e immagini

  • La piattaforma consente la combinazione di testo e immagini per l'espressione creativa:
    • Crea caricando immagini: Carichi un'immagine che funga da base per il tuo video, quindi estendila o animala con contenuti aggiuntivi.
    • Creazione basata su testo: Puoi descrivere scene o immagini utilizzando il testo. Più il testo è specifico, più il video segue la tua direzione. Ad esempio, una descrizione dettagliata guiderà il video a replicare esattamente gli elementi menzionati.

Storyboard (creazione avanzata)

Storyboard (creazione avanzata)
  • Per progetti video più complessi, Storyboard la modalità ti consente di dirigere la creazione del video lungo una sequenza temporale. Ciò fornisce:
    • Controllo sulla sequenza: Puoi definire l'ordine degli elementi (testo, immagini e video).
    • Modifica avanzata: Consente regolazioni e sequenze di scene più precise.
    • Integrazione multimediale: Puoi combinare immagini, testo e clip video per creare una narrazione o una storia visiva complessa.

Qualità e risoluzione video

Qualità e risoluzione video
  • Opzioni di risoluzione: Genera video fino a 1080p risoluzione.
    • Vengono effettuate riprese a 1080p 8 volte più a lungo da generare rispetto a 480p, che è l'opzione più veloce.
    • 720p richiede 4 volte più a lungo superiore a 480p.
    • 480p è il più veloce.
  • Tempo medio di generazione: UN paio di minuti per un video 1080p (soggetto alla domanda e al traffico degli utenti).

In poche parole,

SORA è una piattaforma di creazione video flessibile e intuitiva con potenti opzioni di personalizzazione. Puoi:

  • Carica immagini o descrivi scene con testo.
  • Scegli tra vari temi preimpostati come Balloon World o Stop Motion.
  • Controlla le proporzioni e la durata del video.
  • Utilizza la modalità Storyboard per l'editing e il sequenziamento video avanzati.

Questa combinazione di funzionalità consente agli utenti di creare facilmente video accattivanti e dall'aspetto professionale, anche con conoscenze tecniche minime.

Queste funzionalità delineano Sora come uno strumento potente ma ancora imperfetto per generare contenuti video creativi, in particolare per progetti stilizzati non fotorealistici.

I Fondamenti Tecnici di Sora

Sora è fondamentalmente costruito su modello di diffusioneuna tecnica che inizia con rumore casuale e lo perfeziona in modo iterativo in un video coerente. Questo processo rispecchia quanto tradizionale immagine per immagine i modelli di diffusione funzionano, ma con l’ulteriore complessità delle sequenze video.

La chiave dell'innovazione di Sora è l'uso di rappresentazione basata su patch sia per le immagini che per i video. Similmente ai token in GPT, i video e le immagini in Sora sono suddivisi in “patch” di dati più piccoli. Ciò consente al modello di elaborare dati visivi grandi e complessi in modo più efficiente, rendendolo in grado di generare video di varie durate e risoluzioni.

Inoltre, Sora si basa su tecnica di ricapitolazione utilizzato in DA E 3permettendogli di generare didascalie altamente descrittive per i suoi dati di addestramento. Questa capacità consente al modello di seguire da vicino le istruzioni testuali, risultando in video fedeli alle istruzioni dell'utente e più allineati con la descrizione dell'input.

Leggi anche: Cos'è il trasformatore di diffusione Sora (DiT) di OpenAI?

Considerazioni etiche di OpenAI Sora

Ecco cosa Sora si aspetta che tu faccia:

  1. Consenso: carica contenuti multimediali che presentano persone solo con il loro esplicito consenso e assicurati che i minori di 18 anni abbiano il consenso appropriato.
  2. Violenza e temi espliciti: non caricare contenuti che raffigurano violenza, temi espliciti o materiale per adulti.
  3. Diritti sui media: assicurati di disporre della proprietà o dei diritti necessari per caricare i contenuti multimediali che condividi.
  4. Conseguenze: L'uso improprio della piattaforma violando queste regole può comportare la sospensione o il ban dell'account senza rimborso.

Guardando al futuro: il futuro dei video generati dall'intelligenza artificiale

La versione finale di Sora rappresenta una pietra miliare notevole nell'evoluzione dell'intelligenza artificiale, combinando gli ultimi progressi in Elaborazione del linguaggio naturale (PNL), visione artificialeE apprendimento profondo per generare video di alta qualità e di breve durata direttamente da istruzioni di testo. Le potenziali implicazioni di questa tecnologia sono di vasta portata, dalle industrie creative all’istruzione, al marketing e oltre.

La visione di OpenAI per il modello è di vasta portata, con l'obiettivo finale di creare sistemi in grado di simulare il mondo reale, portandoci un passo avanti verso la realizzazione di Intelligenza Generale Artificiale (AGI). Man mano che Sora si evolve, le sue capacità probabilmente si espanderanno, incorporando funzionalità più avanzate come la generazione di video in tempo reale, la narrazione interattiva e persino l'integrazione con la realtà virtuale e aumentata.

L'hai provato? Fammi sapere i tuoi pensieri nella sezione commenti qui sotto!

Ciao, sono Pankaj Singh Negi – Redattore senior dei contenuti | Appassionato di narrazione e creazione di narrazioni avvincenti che trasformano le idee in contenuti di grande impatto. Adoro leggere di tecnologia che rivoluziona il nostro stile di vita.

Fonte: www.analyticsvidhya.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *