AW7 - AdventuryXR

Extended reality: incontro con Lennard Wolff

Ricordate quando, qualche anno fa, si è iniziato a parlare di Gaussian Splatting, affascinando molte persone (anche dentro la nostra redazione, anche se con opinioni contrastanti)?

From Metaverse Hype to Concrete Reality: How Gaussian Splatting is Revolutionizing Cinema

Remember when, a few years ago, people started talking about Gaussian Splatting, fascinating many (including our editorial team, albeit with differing opinions)? First as an almost science-fiction idea, then as a concrete potential to revolutionize the way we capture and reproduce reality in 3D. For those unfamiliar with it, Gaussian Splatting is a 3D reconstruction technique that transforms images into photorealistic representations of reality that can be navigated in real-time.

We had followed the early experiments, then its promises of democratization: Luma AI, for example, had launched an app that allowed creating 3D scans with a simple iPhone, before the company shifted decidedly toward generative artificial intelligence and essentially put that volumetric capture technology on the back burner.

It was the metaverse period, or rather, the metaverse hype: Facebook was changing its name to Meta, pushing VR headsets that promised to transport us to new dimensions, billion-dollar investments. A bubble born far too early, perhaps more to shift media attention than due to real technological and market maturity. The fall was equally swift: just think of Apple's VisionPro, which despite the great innovation proposed (at stellar costs, at least for the consumer market) and the very recent upgrade to the new M5 processors, has essentially halted production, with analysts talking about a possible relaunch only in 2026 or 2027 with smart glasses and new form factors. But while the general public's attention shifted elsewhere, something interesting happened: Gaussian Splatting, after initial examples tied to grand promises but objectively often disappointing quality results, continued to evolve. Not exactly in the shadows, but at least in a less talked-about and more specialized dimension. There, away from the metaverse spotlight, the technology found concrete applications: not just output for VR headsets that are still not very popular today, but especially the creation of content that can become compelling cinematic video experiences. Experiences that don't necessarily have to be interactive or enjoyed with expensive devices, but can exist as immersive narrative, as production flexibility, as a new visual language. And it's precisely in this context that the work of Lennard Wolff, CEO and Co-Founder of AdventuryXR, fits in. The acronym "XR" – extended reality – is not coincidental: it's perhaps the term that best describes not only the common ground between VR, AR, and MR, but also the breadth of possibilities that today, more than ever, are accessible to image professionals. From his experience as director of photography at Synthesia, where he helped create some of the first realistic AI-generated avatars, to founding AdventuryXR and using 4D Gaussian Splatting for cinematic projects in Hollywood, Wolff represents a bridge between seemingly distant worlds: video, photography, special effects, artificial intelligence, and storytelling. We're thrilled to bring you this interview with one of the few people currently working in this field with incredible technologies and a vision that unites seemingly scattered pieces – Gaussian Splatting, cinema, AI, volumetric capture, storytelling – into a coherent and fascinating mosaic. While waiting to visit his studio in London, we asked Lennard a few questions via Zoom, and what he told us confirms that the future of special effects, and perhaps of cinema itself, is taking an unexpected but concrete shape.

To start, could you tell us about your entry into the AI sector? What was the first company you worked for and what was their initial vision?

Lennard: "I started working in this AI sector with a company called Synthesia. I joined them very early; there were maybe seven people in the company and they had just developed this brand new technology for lip sync, which used AI to track lip movements in a video and then use them to make those lips change to speak any language."

How did the company's vision evolve when you started testing the technology in real-world scenarios, particularly regarding the Hollywood market?

Lennard: "At that point, when I first met them, they thought they would conquer the Hollywood market. They thought it was the most interesting market and that there was the greatest need for translations to make films more international. But I think when we did the first shoots for avatars - I was already working in the studio as Director of Photography at the time - we understood very quickly: 'Ok, this technology has an application, but it's definitely not in Hollywood because the technology wasn't up to par yet.' The quality wasn't there and there were still many problems."

If Hollywood wasn't the right solution, where did the company find its most successful niche?

Lennard: "I think they understood that the corporate sector would be where they would thrive the most. The amount of corporate training that exists and corporate videos essentially created a niche in which to integrate these AI tools."

With Synthesia's growth, you moved to a more technical role regarding data collection. Can you describe your responsibilities in 'capture for research'?

Lennard: "Basically I oversaw capture for research... practically everything, from research data for video, audio and that sort of thing. And what was new for me at the time is that we started doing something called volumetric capture."

For those unfamiliar with the term, how does volumetric capture work technically and how does it compare to traditional photography?

Lennard: "Volumetric capture, the way we do it, basically consists of having 78 cameras in a large room, and inside this there are about 300 lights. These lights flash like photographic lights: they flash to freeze a single frame in time, and the cameras are also synchronized, but they freeze a single frame in time to get a really clean separation between each individual frame, so you essentially have zero motion blur. Those principles are also fundamental to photography."

What was the scale of this data collection at its peak?

Lennard: "On average, in a week, we created about a petabyte and a half of data, or 1,500 terabytes. We built very specific algorithms, everything was completely customized to do this. We compressed the data down to 5% and then uploaded it to AWS (Amazon Web Services) storage."

After the closure of studio production at Synthesia, how was AdventuryXR born and what new technology were you following during that period?

Lennard: "Fortunately for us, they allowed us to purchase the equipment we had used for a long time. About a year before, we were following the scientific progress in the computer vision world very closely, and at that point they had released something called Gaussian splatting (it was first seen at SIGGRAPH), which is basically a form of 3D reconstruction."

How does Gaussian splatting differ from traditional 3D methods like photogrammetry or mesh-based rendering?

Lennard: "Instead of rendering a very heavy mesh, Gaussian splatting takes individual points and creates small ellipses in 3D space. It goes directly from the point cloud and transforms them into small ellipsoids that contain information about color, how they appear from different angles and opacity. It has an extremely photorealistic appearance."

You mentioned '4D Gaussian splatting.' How do you add the dimension of time and movement to these 3D 'splats'?

Lennard: "We add a topological element to the splats themselves, which basically contain information about time. Each splat has its own ID, and these are tracked over time; this temporal element is then compressed into a function that describes the movement of these splats over time. That tracking happens with AI."

Virtual reality (VR) has had many 'false starts' in the last decade. Why do you believe the current era, and your work with AdventuryXR, can finally lead to a change in adoption?

Lennard: "I think this coming year will be quite a big change because the technology itself is now much cheaper. I sometimes use a Quest headset, and the cheapest model now costs about 250 pounds. It's not an overly expensive device and we've seen that there's potential in this."

Beyond generic VR, how is this technology being applied to Hollywood today? Can you give us a specific example?

Lennard: "Working in the Hollywood industry works because there the value of projects is at such a high level that you can recoup losses. They used a Gaussian splatting sequence in the new Superman by James Gunn, it's a holographic version of his parents."

Why is this method particularly valuable for filmmakers and those working in visual effects (VFX)?

Lennard: "Hollywood production houses are interested in flexibility. Once they've shot something under normal circumstances, there's no going back. But this technology allows them to do exactly that: producers or the director can say later: 'Ok, actually we want this slightly different,' being able to completely change the camera angle."

Finally, for those who want to experiment, how accessible is Gaussian splatting?

Lennard: "Most of the code for Gaussian splatting is open source. You don't need to be a professional programmer to use it. Most people who have a laptop can render it locally. I met a guy in the United States who built the entire structure with wood he had lying around and only spent money on cameras and basic synchronization software, and it works very well."

Prima come idea quasi fantascientifica, poi come potenzialità concreta di rivoluzionare il modo in cui catturiamo e riproduciamo la realtà in 3D. Per chi non lo conoscesse, il Gaussian Splatting è una tecnica di ricostruzione 3D che trasforma le immagini in rappresentazioni fotorealistiche della realtà navigabili in tempo reale.

Avevamo seguito le prime sperimentazioni, poi le sue promesse di democratizzazione: Luma AI, per esempio, aveva lanciato un’app che permetteva di creare scansioni 3D con un semplice iPhone, prima che l’azienda virasse decisamente verso l’intelligenza artificiale generativa e mettesse sostanzialmente in secondo piano quella tecnologia di cattura volumetrica.

Era il periodo del metaverso, o meglio, dell’hype del metaverso: Facebook che stava cambiando nome in Meta, spingeva verso i visori VR che promettevano di trasportarci in nuove dimensioni, investimenti miliardari. Una bolla nata con largo ed eccessivo anticipo, forse più per spostare l’attenzione mediatica che per una reale maturità tecnologica e di mercato. La calata è stata altrettanto repentina: basti pensare al VisionPro di cui Apple, malgrado la grande innovazione proposta (a costi stellari, almeno per il mercato consumer) e il recentissimo upgrade ai nuovi processori M5, ha sostanzialmente interrotto la produzione, con gli analisti che parlano di un possibile rilancio solo nel 2026 o 2027 con smart glasses e nuovi form factor.

Ma mentre l’attenzione del grande pubblico si è spostata altrove, qualcosa di interessante è accaduto: il Gaussian Splatting, dopo i primi esempi legati a grandi promesse ma a risultati oggettivamente ancora di qualità spesso deludente, ha continuato a evolversi. Non esattamente nell’ombra, ma quantomeno in una dimensione meno chiacchierata e più specialistica. Lì, lontano dai riflettori del metaverso, la tecnologia ha trovato applicazioni concrete: non solo output per visori VR ancora oggi poco popolari, ma soprattutto creazione di contenuti che possono diventare esperienze video cinematografiche avvincenti. Esperienze che non devono necessariamente essere interattive o fruite con dispositivi costosi, ma che possono vivere come narrazione immersiva, come flessibilità produttiva, come nuovo linguaggio visivo.

AdventuryXR CEO - Photo Lennard
Lennard Wolff, AdventuryXR CEO
AdventuryXR CEO - Photo Lennard

Ed è proprio in questo contesto che si inserisce il lavoro di Lennard Wolff, CEO e Co-Founder di AdventuryXR. La sigla “XR” – extended reality, “realtà estesa” – non è casuale: è forse il termine che meglio racconta non solo i punti in comune tra VR, AR e MR, ma anche l’ampiezza delle possibilità che oggi, più che mai, sono accessibili ai professionisti dell’immagine. Dalla sua esperienza come direttore della fotografia in Synthesia, dove ha contribuito a creare alcuni dei primi avatar realistici generati con AI, fino alla fondazione di AdventuryXR e all’utilizzo del Gaussian Splatting 4D per progetti cinematografici a Hollywood, Wolff rappresenta un ponte tra mondi apparentemente distanti: video, fotografia, effetti speciali, intelligenza artificiale e storytelling.

Siamo entusiasti di potervi proporre questa intervista a una delle poche persone che al momento lavorano proprio in questo ambito con tecnologie incredibili e una visione che unisce tasselli apparentemente sparsi – Gaussian Splatting, cinema, AI, cattura volumetrica, storytelling – in un mosaico coerente e affascinante. In attesa di visitare il suo studio a Londra, abbiamo fatto a Lennard qualche domanda via Zoom, e quello che ci ha raccontato conferma che il futuro degli effetti speciali, e forse del cinema stesso, sta prendendo una forma inaspettata ma concreta.

AdventuryXR

Per iniziare, potresti parlarci del tuo ingresso nel settore dell’AI? Qual è stata la prima azienda per cui hai lavorato e qual era la loro visione iniziale?

Lennard: “Ho iniziato a lavorare in questo settore dell’AI con un’azienda chiamata Synthesia. Mi sono unito a loro molto presto; c’erano forse sette persone in azienda e avevano appena sviluppato questa tecnologia nuovissima per il lip sync, che usava l’AI per tracciare i movimenti delle labbra in un video e poi usarli per far sì che quelle labbra cambiassero nel parlare qualsiasi lingua.”

Come si è evoluta la visione dell’azienda quando avete iniziato a testare la tecnologia in scenari reali, in particolare per quanto riguarda il mercato di Hollywood?

Lennard: “A quel punto, quando li ho incontrati per la prima volta, pensavano che avrebbero conquistato il mercato di Hollywood. Pensavano che fosse il mercato più interessante e che ci fosse il massimo bisogno di traduzioni per rendere i film più internazionali. Ma credo che quando abbiamo fatto le prime riprese per gli avatar – io all’epoca lavoravo già in studio come Direttore della fotografia – abbiamo capito molto presto: ‘Ok, questa tecnologia ha un’applicazione, ma non è sicuramente a Hollywood perché la tecnologia non era ancora all’altezza’. La qualità non c’era e c’erano ancora molti problemi.”

Se Hollywood non era la soluzione giusta, dove ha trovato l’azienda la sua nicchia di maggior successo?

Lennard: “Credo che abbiano capito che il settore aziendale (corporate) sarebbe stato quello in cui avrebbero prosperato di più. La quantità di formazione aziendale che esiste e i video aziendali hanno praticamente creato una nicchia in cui integrare questi strumenti di AI.”

Con la crescita di Synthesia, sei passato a un ruolo più tecnico riguardante la raccolta dei dati. Puoi descriverci le tue responsabilità nella ‘cattura per la ricerca’?

Lennard: “Fondamentalmente supervisionavo la cattura per la ricerca… praticamente tutto, dai dati di ricerca per il video, l’audio e quel genere di cose. E quello che per me era nuovo all’epoca è che abbiamo iniziato a fare qualcosa chiamato cattura volumetrica.”

Per chi non conoscesse il termine, come funziona tecnicamente la cattura volumetrica e come si confronta con la fotografia tradizionale?

Lennard: “La cattura volumetrica, nel modo in cui la facciamo noi, consiste fondamentalmente nell’avere 78 telecamere in una grande stanza, e all’interno di questa ci sono circa 300 luci. Queste luci lampeggiano come luci fotografiche: lampeggiano per congelare un singolo fotogramma nel tempo, e anche le telecamere sono sincronizzate, ma congelano un singolo fotogramma nel tempo per ottenere una separazione davvero pulita tra ogni singolo fotogramma, in modo da avere essenzialmente zero sfocatura da movimento (motion blur). Quei principi sono alla base anche della fotografia.”

Qual era la scala di questa raccolta di dati al suo apice?

Lennard: “In media, in una settimana, creavamo circa un petabyte e mezzo di dati, ovvero 1.500 terabyte. Abbiamo costruito algoritmi molto specifici, tutto era completamente personalizzato per farlo. Comprimevamo i dati fino al 5% e poi li caricavamo sullo storage AWS (Amazon Web Services).”

AdventuryXR

Dopo la chiusura della produzione in studio presso Synthesia, come è nata AdventuryXR e quale nuova tecnologia stavate seguendo in quel periodo?

Lennard: “Fortunatamente per noi, ci hanno permesso di acquistare l’attrezzatura che avevamo utilizzato per molto tempo. Circa un anno prima, seguivamo molto da vicino i progressi scientifici nel mondo della computer vision, e a quel punto avevano rilasciato qualcosa chiamato Gaussian splatting (si era visto la prima volta al SIGGRAPH), che è fondamentalmente una forma di ricostruzione 3D.”

In cosa differisce il Gaussian splatting dai metodi 3D tradizionali come la fotogrammetria o il rendering basato su mesh?

Lennard: “Invece di renderizzare una mesh molto pesante, il Gaussian splatting prende singoli punti e crea piccole ellissi nello spazio 3D. Va direttamente dalla nuvola di punti e li trasforma in piccoli ellissoidi che contengono informazioni su colore, come appaiono da diverse angolazioni e opacità. Ha un aspetto estremamente fotorealistico.”

Hai menzionato il ‘Gaussian splatting 4D’. Come si aggiunge la dimensione del tempo e del movimento a questi ‘splat’ 3D?

Lennard: “Aggiungiamo un elemento topologico agli splat stessi, che fondamentalmente contengono informazioni sul tempo. Ogni splat ha il proprio ID, e questi vengono tracciati nel tempo; questo elemento temporale viene poi compresso in una funzione che descrive il movimento di questi splat nel tempo. Quel tracciamento avviene con l’AI.”

La realtà virtuale (VR) ha avuto molti ‘falsi inizi’ nell’ultimo decennio. Perché credi che l’era attuale, e il tuo lavoro con AdventuryXR, possa finalmente portare a un cambiamento nell’adozione?

Lennard: “Penso che quest’anno che sta arrivando sarà un cambiamento piuttosto grande perché la tecnologia stessa ora è molto più economica. Io uso a volte un visore Quest, e il modello più economico costa ora circa 250 sterline. Non è un dispositivo eccessivamente costoso e abbiamo visto che c’è potenziale in questo.”

Oltre al VR generico, come viene applicata oggi questa tecnologia a Hollywood? Puoi farci un esempio specifico?

Lennard: “Lavorare nell’industria di Hollywood funziona perché lì il valore dei progetti è a un livello così alto che puoi recuperare le perdite. Hanno usato una sequenza di Gaussian splatting nel nuovo Superman di James Gunn, è una versione olografica dei suoi genitori.”

Perché questo metodo è particolarmente prezioso per i registi cinematografici e chi si occupa di effetti speciali (VFX)?

Lennard: “Le case di produzione di Hollywood sono interessate alla flessibilità. Una volta che hanno girato qualcosa in circostanze normali, non si torna indietro. Ma questa tecnologia permette loro di fare esattamente questo: i produttori o il regista possono dire in seguito: ‘Ok, in realtà vogliamo questo in modo leggermente diverso’, potendo cambiare completamente l’angolazione della telecamera.”

Infine, per chi volesse sperimentare, quanto è accessibile il Gaussian splatting?

Lennard: “La maggior parte del codice per il Gaussian splatting è open source. Non serve essere un programmatore professionista per usarlo. La maggior parte delle persone che hanno un laptop può renderizzarlo localmente. Ho incontrato un ragazzo negli Stati Uniti che ha costruito l’intera struttura con del legno che aveva in giro e ha speso soldi solo per le telecamere e un software di sincronizzazione di base, e funziona molto bene.”

Grazie a Lennard per la bella chiacchierata!