Il video AI open source di Lightricks offre 4K, audio e rendering più veloce | Intelligenza-Artificiale

Indice contenuti

Lightricks sta alzando la posta per la creazione e l’iterazione rapida di video con il suo ultimo modello di intelligenza artificiale. L’azienda afferma che il suo modello base LTX-2 appena rilasciato può generare nuovi contenuti più velocemente della velocità di riproduzione, inoltre alza il livello di risoluzione e qualità.

L’LTX-2 open source è in grado di generare un video stilizzato e ad alta definizione di sei secondi in soli cinque secondi senza alcun compromesso in termini di qualità, consentendo ai creatori di produrre contenuti professionali molto più velocemente di prima.

È un risultato impressionante, ma non è l’unico parametro che distingue LTX-2 dagli altri. Combina la sintesi audio e video nativa con la trasparenza open source e, se gli utenti sono disposti ad aspettare solo qualche secondo in più, possono migliorare i propri output con una risoluzione 4K fino a 48 fotogrammi al secondo, afferma l’azienda. Ancora meglio, i creatori possono eseguire il software su GPU di livello consumer, riducendo drasticamente i costi di elaborazione.

I modelli di diffusione diventano maggiorenni

LTX-2 è quello che è noto come modello di diffusione, che funziona aggiungendo in modo incrementale “rumore” al contenuto generato e quindi riducendolo finché l’output non assomiglia alle risorse video su cui è stato addestrato il modello.

Con LTX-2, Lightricks ha accelerato il processo di diffusione, in modo che i creatori possano ripetere le loro idee producendo anteprime dal vivo quasi istantaneamente. Il modello è anche in grado di generare contemporaneamente audio di accompagnamento – che si tratti di una colonna sonora, di dialoghi o di effetti sonori ambientali – accelerando notevolmente i flussi di lavoro creativi.

Questo è un grosso problema, poiché prima i creatori avrebbero dovuto evocare qualsiasi audio separatamente dal video, quindi dedicare del tempo a unirlo insieme e assicurarsi che ci fosse una perfetta sincronizzazione. I modelli Veo di Google sono stati celebrati per la loro potente integrazione della generazione di suoni sincronizzati, quindi queste nuove funzionalità in LTX servono a rafforzare l’idea che la tecnologia di Lightricks è alla pari con quella all’avanguardia.

Quando si tratta di opzioni di accesso, Lightricks offre ancora ai creatori molta flessibilità con LTX-2. La piattaforma di punta dell’azienda LTX Studio è rivolta ai professionisti che, in alcuni casi, sono disposti a sacrificare un po’ di velocità per creare video della massima qualità. Con le conseguenti velocità di elaborazione leggermente più lente, saranno in grado di produrre video con risoluzione nativa 4K fino a 48 fps, creando lo stesso standard previsto dalle produzioni cinematografiche, afferma Lightricks.

La piattaforma offre un’ampia gamma di controlli creativi, che influenzano i parametri personalizzabili del modello. Maggiori dettagli su questi saranno annunciati presto, ma dovrebbero includere controlli di posa e profondità, generazione da video a video e alternative di rendering: tieni gli occhi aperti per una data di rilascio, entro la fine dell’autunno.

Zeev Farbman, co-fondatore e amministratore delegato di Lightricks, ritiene che le capacità potenziate di LTX-2 dimostrino fino a che punto i modelli di diffusione stiano finalmente diventando maturi. Ha affermato in una dichiarazione che LTX-2 è: “Il motore AI creativo più completo e completo che abbiamo mai costruito, che combina audio e video sincronizzati, fedeltà 4K, flussi di lavoro flessibili ed efficienza radicale”.

“Non si tratta di vaporware o di una demo di ricerca”, ha detto. “È una vera svolta nella generazione di video.”

Una pietra miliare importante

Con LTX-2, Lightricks sta dimostrando di essere all’avanguardia nella generazione di video AI, con la piattaforma che arriva sulla scia di una serie di primati del settore nei precedenti modelli LTXV.

A luglio, la famiglia di modelli LTXV dell’azienda, tra cui LTXV-2B e LTXV-13B, è diventata la prima a supportare la generazione di video di lunga duratache ha seguito un aggiornamento che estende l’output fino a 60 secondi. In questo modo, la produzione video basata sull’intelligenza artificiale è diventata “veramente diretta”, con gli utenti in grado di iniziare con un suggerimento iniziale e aggiungere ulteriori suggerimenti in tempo reale mentre il video veniva trasmesso in streaming dal vivo.

LTXV-13B aveva già la reputazione di essere uno dei modelli di creazione video più potenti in circolazione, anche prima di quell’aggiornamento di un minuto. Lanciata a maggio, è stata la prima piattaforma del settore a supportare il rendering multiscala, che consente agli utenti di migliorare progressivamente i propri video spingendo il modello ad aggiungere più colore e dettagli, passo dopo passo, nello stesso modo in cui gli animatori professionisti “stratificano” ulteriori dettagli sul loro lavoro nei processi di produzione tradizionali.

È stato addestrato il modello 13B dati concessi in licenza da Getty e Shutterstock. Le partnership dell’azienda con questi colossi di contenuti sono importanti, non solo per la qualità dei dati di formazione, ma anche per ragioni etiche; I risultati dei modelli sono molto meno problematici in termini di copyright, un problema che affligge molte altre creazioni di modelli di intelligenza artificiale.

Lightricks ha anche rilasciato una versione distillata di LTXV-13B che semplifica e accelera il processo di diffusione, il che significa che il contenuto può essere generato in soli quattro-otto passaggi. La versione distillata supporta anche LoRA, il che significa che può essere ottimizzata dagli utenti per creare contenuti più in sintonia con lo stile estetico di un progetto.

Modelli di fatturazione innovativi

Come i modelli precedenti, LTX-2 sarà rilasciato con licenza open source, rendendolo una valida alternativa a La serie di modelli Wan2 di Alibaba. Lightricks ha sottolineato che è veramente open source, in contrapposizione al semplice “accesso aperto”, il che significa che i suoi pesi pre-addestrati, i set di dati e tutti gli strumenti saranno disponibili su GitHub, insieme al modello stesso.

LTX-2 è disponibile per gli utenti in LTX Studio e attraverso la sua API a partire da ora, con la versione open source prevista per essere rilasciata a novembre.

Per coloro che preferiscono utilizzare la versione a pagamento tramite API, Lightricks offre prezzi flessibili, con costi a partire da soli 0,04 dollari al secondo per una versione che genera video HD in soli cinque secondi. La versione Pro bilancia la velocità con le prestazioni e qui i prezzi partono da $ 0,07 al secondo. La versione Ultra costa $ 0,12 al secondo per la generazione di video con risoluzione 4K a 48 fps, più audio ad alta fedeltà. I prezzi variano anche in base alla risoluzione, con gli utenti che possono scegliere tra 720p, 1080p, 2K e 4K.

Lightricks afferma che, grazie all’efficienza dell’elaborazione del modello, il suo prezzo rende LTX-2 fino al 50% più economico rispetto ai modelli concorrenti, rendendo i progetti estesi più economicamente sostenibili, ma con un’iterazione più rapida e una qualità superiore rispetto alle generazioni precedenti. In alternativa, gli utenti potranno utilizzare il modello scaricando la versione open source ed eseguendola su GPU di livello consumer dopo che sarà disponibile su GitHub il mese prossimo.

Fonte immagine: Unsplash

Fonte: www.artificialintelligence-news.com