Un brand di borracce termiche. Un video girato con Runway 3.5, quello del periodo in cui i video AI avevano sei mani e gli spaghetti si muovevano come serpenti. Un test su Amazon, durato un mese. Risultato: ordini +130%, CTR +174%, prima pagina per la keyword principale. Prima volta in assoluto per quel brand. Ho parlato con Alessandro Marino, founder di Mindleg Studios, di come è arrivato a fare questo lavoro, di come lo fa davvero e di cosa succede quando l’AI entra nei processi di produzione video in modo serio. Chi è Alessandro Alessandro parte come grafico. Poi legge Zero to One a 19 anni e si converte al marketing, in particolare al growth hacking, lavorando in diverse startup tra Londra, Mantova e Milano. Fine 2022 entra in Contents.com, una startup europea che usava già GPT-3 per generare contenuti testuali, e lì incontra per la prima volta un mondo AI generativa sul serio. In parallelo gestisce Lunia, un’agenzia di video e contenuti che lavorava ancora tutto a mano, con videomaker e fotografi. Poi arriva il 2024, Runway 3.5, i video brutti con le mani storte, e la scelta: ci punto. Nasce Mindleg Studios. Focus al 95% sulla parte video. Come lavora: i tre livelli Alessandro ha un modo preciso di pensare al workflow in base all’output che deve produrre. Non usa un solo tool per tutto: calibra la complessità del setup in base al lavoro. Livello base: generazione veloce Per asset rapidi e non definitivi usa Gemini con Imagen integrato. Genera l’immagine, watermark incluso, senza preoccuparsene. Serve un’idea visiva veloce? Basta questo. Livello intermedio: piattaforma aggregata Per lavori un po’ più strutturati usa Higgsfield. È una piattaforma che aggrega i principali modelli di immagini e video con un’interfaccia template-based: scegli il modello, scegli l’effetto, ottimizza il prompt o parti da un template già pronto. Ha un marketing aggressivo, è diventata lo standard tra i freelancer del digital marketing. Per chi vuole fare cose buone senza costruire un workflow da zero, è il punto di ingresso giusto. Livello avanzato: canvas a nodi Per i lavori complessi, soprattutto quando gestisce più asset in parallelo o lavora con un team, usa Figma Weave (ex Weavy, acquisita da Figma a ottobre 2025 per oltre $200M). È un canvas visuale a nodi: sulla sinistra tieni tutti i tuoi asset di riferimento, sulla destra costruisci il flusso. Un esempio pratico che ha descritto in live: colleghi un’immagine a un agente, l’agente ha come prompt “analizza questa immagine e dimmi altri 5 prompt per generare 5 varianti”, i 5 prompt vanno direttamente dentro Imagen che genera 5 immagini, tutte e 5 tornano nel canvas. Puoi continuare da lì, animarle, collegarle a un tool video, fare upscaling. Tutto senza uscire dall’ambiente. Per un team marketing con grafiche standardizzate, questo tipo di flusso è pensato per girare con input variabile ma output consistente. I casi d’uso concreti Borracce termiche su Amazon: il primo test Luglio 2024. Alessandro ha un contatto in Turnover Digital, una grossa agenzia Amazon di Milano. Gli propone un test: video AI per i Sponsored Brand, quei video piccoli che appaiono mentre scorri tra i prodotti su Amazon. La strategia era semplice: i video su Amazon erano quasi tutti brutti o di bassa qualità. Un video con più cura visiva avrebbe sfruttato l’effetto halo, per cui la qualità percepita del video si trasferisce al prodotto. E la dimensione ridotta dei Sponsored Brand era un vantaggio: non serviva una 4K a schermo intero. Il video lo ha fatto con Runway 3.5. La borraccia che vola, la borraccia in mezzo alla natura, la borraccia vicino a un ruscello. Quello che oggi si farebbe in dieci minuti gli ha preso una settimana, tutte le difficoltà del periodo. Il video è rimasto su Amazon per un mese. I dati che gli ha mandato Turnover: ordini +130%, CTR +174%. E per la prima volta quel brand aveva raggiunto la prima pagina per la sua keyword principale, mantenendosi stabile. L’alternativa: andare fisicamente al ruscello, portare la borraccia, il fotografo, le luci, fare la post-produzione. Un costo facilmente dieci volte superiore, e soprattutto: per un test non lo fai neanche. Video istituzionale per una startup EV Una startup italiana e spagnola nel settore delle colonnine elettriche aveva bisogno di qualcosa da mostrare quando andava a trattare con la pubblica amministrazione. Il pitch era solido, ma mancava “quel qualcosa che fa dire: fighi”. Il concept del video: mostrare il problema prima della soluzione. Due persone al tavolo, inizia a cadere cenere nera, si alzano a guardare intorno, la città è avvolta dallo smog. Inquadrature dall’alto, tutto molto epico, la nube sale. Poi arriva la colonnina del brand, si illumina, spazza via lo smog. Video da 1 minuto e 20. Full AI. Clip generate con modelli video, montaggio in Adobe Premiere Pro, voiceover con ElevenLabs. Sul voiceover vale la pena fermarsi un momento. ElevenLabs non è più solo text-to-voice: mentre scrivi il testo puoi inserire tag di enfasi, “dillo ridendo”, “con più tensione”, “in modo più serio”. Le voci che reggono bene l’italiano sono migliorate molto. Per un video da un minuto e venti, con il giusto lavoro sui tag, il risultato è professionale. Shooting fotografico AI per la moda Durante la live, come caso ipotetico, ho tirato fuori la mia vecchia startup Wools: maglioni in lana, shooting al Pitti Moda, fotografie da fare, modelle, campionario, luci, il fotografo. Un casino organizzativo e un costo importante. Alessandro mi ha descritto il flusso che userebbe oggi per un caso simile. Prima di tutto crea la modella: bastano 2-3 foto abbastanza nitide di lei (anche allo specchio, full body su sfondo bianco, in pose diverse) per poterla ricreare in qualsiasi contesto con i modelli di generazione immagini. Se l’agenzia vuole una campagna geolocalizzata con modelle di etnie diverse, si fa direttamente in generazione, senza casting. Poi crea il prodotto: se hai i bozzetti del maglione e le informazioni sul materiale, bastano per generare tutte le inquadrature del capo. Poi fa indossare il prodotto alla modella generata, aggiusta, itera. Subito dopo: upscaling obbligatorio con Topaz Lab Astra. Nel settore moda ogni dettaglio conta, dalla texture del tessuto alla pelle. Topaz Astra è il modello specifico per video AI, ma funziona anche sulle immagini. Nota a margine: Freepik ha acquisito Magnific, un altro upscaler molto usato, adesso lo trovi direttamente dentro Freepik. Per la parte video: animare le immagini se sono venute bene, oppure costruire uno script semplice. Il tool che usa in questo momento per la qualità è Kling 3 in 4K. I cinesi, sotto questo punto di vista, stanno producendo risultati che i concorrenti occidentali faticano a eguagliare. Risultato finale: prime immagini e video per un e-commerce, pronte in un paio d’ore. Uno smoke test completo a una frazione del costo dello shooting fisico. Se il brand poi vuole crescere e fare le foto vere, lo farà sapendo già cosa funziona. Dubbing multilingua: 15 pillole audio in spagnolo Un altro caso di cui va particolarmente orgoglioso: un’azienda nel settore Garden (ex Bayern Garden) aveva fatto 15 pillole audio da circa un minuto ciascuna. A quel punto gli chiedono: puoi tradurle in spagnolo? Sembra una cosa che si fa in un clic. In realtà è un lavoro preciso con ElevenLabs Dub Studio: cloni la voce originale, carichi l’audio, il sistema genera la traduzione doppiata con la stessa voce. Poi c’è una fase di revisione in cui puoi accorciare, rielaborare, rigenerare singoli passaggi dove il ritmo non funziona o la pronuncia è sbagliata. Il punto che sottolineava: quella traduzione prima semplicemente non si faceva. Non perché il traduttore o il doppiatore fosse caro, ma perché il budget non era previsto. L’AI non ha rubato il lavoro a un doppiatore: ha reso possibile una produzione che non sarebbe mai esistita. Il nodo dei costi I costi della produzione AI stanno cambiando rapidamente, e non sempre verso il basso. Un’immagine 4K full quality con GPT Image su Figma Weave arriva a €1,50 per immagine. Un video da 15 secondi che due anni fa costava 5 euro oggi ne costa 30 se vuoi mantenere gli standard professionali. La forbice tra uso amatoriale e uso professionale si sta allargando. Per chi non ha bisogno del massimo della risoluzione, Flux costa un decimo di Imagen e su molti use case i risultati sono comparabili. Scegliere il modello giusto per l’output giusto è già una competenza. Come sempre il costo va valutato in modo relativo. Un video fisico per una borraccia su Amazon costa facilmente 20 volte di più. Lo shooting moda al Pitti costa comunque quello che costa. Se il test AI funziona, hai già il dato prima di investire sul fisico. Aura: il SaaS che sta costruendo Alessandro sta sviluppando un tool che chiama Aura. Funziona così: inserisci l’ASIN del prodotto su Amazon, il sistema fa lo scraping automatico di tutte le informazioni, sei agenti lavorano in parallelo e generano le otto immagini infografiche standard, già nei formati e nelle specifiche di Amazon. Selezioni i colori primari del brand, il resto è automatico. Il modulo che sta per rilasciare è ASIN to Video: struttura fissa, packshot, tre caratteristiche del prodotto, packshot finale. Quando hai fatto 70 video advertising da 15 secondi sai che quella struttura funziona sempre. Metti il sistema a produrla in automatico. I 5 tool di Alessandro * Claude: preferisce la chat. Ha settato qualche skill utile. Non usa molto Cowork o Code. * Wispr Flow: il numero uno. Dettatura continua, pensiero parlato, tutto trascritto. La chiama “la svolta di vita”. * Figma Weave: il canvas principale. Node-based, tutto il workflow in un posto. * Topaz Lab Astra: upscaling di immagini e video. Indispensabile per qualità professionale. * ElevenLabs: voiceover, dubbing multilingua, tag di enfasi nel testo. Vuoi risentire l