Negli ultimi anni abbiamo assistito all’emergere del commerciale testo in video modelli e prodotti. Vorrei condividere un auto-creato diagramma temporale completo che cattura la notevole evoluzione dei modelli/prodotti commerciali text-to-video negli ultimi 3 anni (compresi il 2022, 2023 e 2024 fino ad ora).
Ho creato il diagramma mentre mi preparavo per una presentazione su Sora al mio team. È stato emozionante vedere come emergono prodotti così straordinari insieme allo sviluppo di lavori di ricerca sulla visione artificiale (CV), inclusi ma non limitati a Generative Adversarial Networks (GAN), architettura dei trasformatori e modelli di diffusione.
Come suggerito dal documento di Microsoft Research”Sora: una revisione su background, tecnologia, limiti e opportunità dei modelli di visione ampia”, consideriamo Sora come un salto perché non è solo uno strumento, ma potenzialmente anche un “simulatore del mondo” per simulare le dinamiche fisiche e contestuali delle scene rappresentate nel mondo fisico.
Questa evoluzione, ovviamente, non si fermerà e sono sicuro che vedremo altre interessanti novità in arrivo. Come testimone ci tengo a mantenere aggiornato questo diagramma.
Mi piacerebbe sentire i tuoi pensieri su questa evoluzione e su dove vedi la tecnologia text-to-video in futuro. Discutiamo degli impatti, delle potenziali applicazioni e delle considerazioni etiche che derivano da questi progressi.
Fonte: towardsdatascience.com