Condividi diagramma: l'evoluzione del testo in video commerciale |  di Selina Li |  Marzo 2024

 | Intelligenza-Artificiale

Negli ultimi anni abbiamo assistito all’emergere del commerciale testo in video modelli e prodotti. Vorrei condividere un auto-creato diagramma temporale completo che cattura la notevole evoluzione dei modelli/prodotti commerciali text-to-video negli ultimi 3 anni (compresi il 2022, 2023 e 2024 fino ad ora).

Ho creato il diagramma mentre mi preparavo per una presentazione su Sora al mio team. È stato emozionante vedere come emergono prodotti così straordinari insieme allo sviluppo di lavori di ricerca sulla visione artificiale (CV), inclusi ma non limitati a Generative Adversarial Networks (GAN), architettura dei trasformatori e modelli di diffusione.

Come suggerito dal documento di Microsoft Research”Sora: una revisione su background, tecnologia, limiti e opportunità dei modelli di visione ampia”, consideriamo Sora come un salto perché non è solo uno strumento, ma potenzialmente anche un “simulatore del mondo” per simulare le dinamiche fisiche e contestuali delle scene rappresentate nel mondo fisico.

Questa evoluzione, ovviamente, non si fermerà e sono sicuro che vedremo altre interessanti novità in arrivo. Come testimone ci tengo a mantenere aggiornato questo diagramma.

Mi piacerebbe sentire i tuoi pensieri su questa evoluzione e su dove vedi la tecnologia text-to-video in futuro. Discutiamo degli impatti, delle potenziali applicazioni e delle considerazioni etiche che derivano da questi progressi.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *