Quando lo specialista dell’AI generativa ha rilasciato Stable Video Diffusion, ha evidenziato la versatilità di questo modello video in diverse applicazioni: partendo da questa base, ora Stability AI ha annunciato il rilascio di Stable Video 3D.
Questo nuovo modello – spiega l’azienda – fa progredire il campo della tecnologia 3D, offrendo una qualità e una visualizzazione multipla notevolmente migliorate rispetto al modello Stable Zero123, rilasciato in precedenza, e secondo il team superando altre alternative open source come Zero123-XL.
Questa versione presenta due varianti: SV3D_u genera video orbitali basati su input di immagini singole senza condizionamento della telecamera. Estendendo le capacità di SVD3_u, la variante SV3D_p consente di utilizzare sia immagini singole che viste orbitali, permettendo la creazione di video 3D lungo percorsi specifici della telecamera.
Stable Video 3D può essere utilizzato per scopi commerciali con un abbonamento Stability AI Membership. Per uso non commerciale, è possibile scaricare i pesi del modello su Hugging Face nonché consultare il paper di ricerca.
Adattando il modello diffusion image-to-video Stable Video Diffusion con l’aggiunta del condizionamento del percorso della telecamera, spiega la società sviluppatrice, Stable Video 3D è in grado di generare video multi-vista di un oggetto. L’uso di modelli video diffusion, a differenza dei modelli image diffusion utilizzati in Stable Zero123, offre notevoli vantaggi in termini di generalizzazione e coerenza delle viste generate.
Inoltre, Stability AI propone un’ottimizzazione 3D migliorata, sfruttando questa potente capacità di Stable Video 3D di generare orbite arbitrarie attorno a un oggetto. Implementando ulteriormente queste tecniche con l’ottimizzazione dell’illuminazione disentangled e una nuova funzione sampling loss con masked score distillation, Stable Video 3D è in grado di produrre in modo affidabile mesh 3D di qualità da singole immagini in input.
Stable Video 3D – sottolinea ancora l’azienda – introduce progressi significativi nella generazione 3D, in particolare nella novel view synthesis (NVS). A differenza degli approcci precedenti, spesso alle prese con prospettive limitate e incoerenze nei risultati, Stable Video 3D è in grado di fornire viste coerenti da qualsiasi angolazione con un’abile generalizzazione. Questa capacità non solo migliora la controllabilità delle pose, ma garantisce anche un aspetto coerente degli oggetti in più viste, migliorando ulteriormente gli aspetti critici di una generazione 3D realistica e accurata.
Stable Video 3D sfrutta la sua coerenza multi-vista per ottimizzare i Neural Radiance Fields (NeRF) 3D e le rappresentazioni delle mesh per migliorare la qualità delle mesh 3D generate direttamente dalle nuove viste. Inoltre, al fine di ridurre il problema dell’illuminazione “baked-in”, Stable Video 3D impiega un modello di illuminazione disgiunta che viene ottimizzato congiuntamente alla forma e alla texture 3D.