Ho testato Google Veo 3 ed ecco la mia recensione onesta

In qualità di content writer presso Manus, testare nuovi strumenti di AI fa praticamente parte della descrizione del mio lavoro. Quando è stato rilasciato Google Veo 3, internet è letteralmente impazzita per le demo. Volti parlanti realistici, audio sincronizzato, immagini cinematografiche, tutto da un singolo prompt di testo. Ho visto abbastanza cicli di hype sull'AI per sapere che le demo sono curate e che i risultati nel mondo reale sono tutta un'altra storia.
Quindi ho deciso di dedicare un po' di tempo a utilizzare davvero Google Veo 3, sottoponendolo a quattro prompt distinti progettati per metterne alla prova i limiti, e documentando tutto con onestà.
Questo non è un riassunto del materiale di marketing di Google. Questa è una recensione pratica di Google Veo 3 basata sulla mia esperienza reale, comprese le parti che mi hanno colpito, quelle che mi hanno frustrato e quelle che semplicemente non hanno funzionato. Alla fine di questo articolo, saprai esattamente in cosa è bravo Veo 3, dove zoppica, se vale il prezzo e come si confronta con la concorrenza.
Cos'è Google Veo 3? (E cosa c'è di nuovo in Veo 3.1?)
Google Veo 3 è un modello avanzato di generazione video con AI che crea clip video di alta qualità da un singolo prompt di testo. Supporta dialoghi sincronizzati, effetti sonori ambientali e musica di sottofondo, tutto da un unico prompt, e si è rapidamente guadagnato la reputazione di produrre alcune delle riprese con volti parlanti generate dall'AI più realistiche in circolazione.
Veo 3 è stato annunciato per la prima volta al Google I/O verso metà del 2025 ed è rapidamente diventato uno dei generatori video AI più discussi dell'anno. L'aggiornamento più recente, Veo 3.1, ha portato miglioramenti significativi: maggiore stabilità, sincronizzazione labiale più accurata, generazione di personaggi più coerente e upscaling a 1080p e 4K. È accessibile tramite alcuni prodotti Google: Google Flow, uno strumento cinematografico di livello professionale creato per l'editing e la sequenza di scene più lunghe e complesse, e Google Whisk, uno strumento sperimentale focalizzato sulla generazione rapida da immagine a video e sulle clip brevi. Per questa recensione, ho testato tramite l'app Gemini, dove ho semplicemente selezionato il pill dello strumento "Create video" ed eseguito tutti e quattro i prompt da lì.
Il mio processo di test pratico
Per sottoporlo a un test adeguato, non volevo semplicemente lanciargli prompt semplici e chiudere la giornata. Ho chiesto a Manus di aiutarmi a progettare quattro prompt specifici per valutare diverse capacità: dialogo e sincronizzazione labiale, atmosfera cinematografica, coerenza del prodotto e azione dinamica. Ecco come è andato effettivamente il processo.
Come ho ottenuto l'accesso (e come puoi farlo anche tu)
Ottenere l'accesso a Veo 3 è onestamente un po' confuso all'inizio, e penso valga la pena ripercorrerlo perché è un punto critico comune.

Ho iniziato con l'account gratuito. L'interfaccia è piuttosto generica, simile ad altri strumenti AI, con una casella di prompt e alcuni pill di strumenti tra cui scegliere. Non c'era alcuna opzione di generazione video visibile da nessuna parte. Ho provato comunque a inserire il mio primo prompt, solo per vedere cosa sarebbe successo.

Quello che ho ottenuto in risposta è stata un'immagine, non un video. L'immagine era in realtà impressionante e corrispondeva bene al prompt, ma chiaramente non era quello che avevo chiesto. Ho quindi provato a chiedere esplicitamente a Gemini di creare un video per me, pensando che forse aveva solo frainteso la mia intenzione. La risposta che ho ricevuto è stata: "Posso creare quel video per te oggi se aggiorni il tuo abbonamento."

Quindi sono andato a guardare i piani a pagamento.
Ecco la ripartizione attuale di ciò che ogni piano offre per la generazione video:
Piano | Prezzo mensile | Crediti AI | Accesso a Veo 3.1 |
Free | $0 | 50 crediti giornalieri | Accesso limitato a Flow, Animate e generazione di immagini |
Google AI Plus | $7,99/mese | 200 crediti mensili | Maggiore accesso a Flow e generazione da immagine a video su Whisk |
Google AI Pro | $19,99/mese | 1.000 crediti mensili | Accesso superiore a Flow e Whisk |
Google AI Ultra | $249,99/mese | 25.000 crediti mensili | Massimo accesso a Flow e Whisk |
Il testo dei piani è vago. Google AI Plus dice "maggiore accesso alla creazione da immagine a video con Veo 3" e Google AI Pro dice "accesso superiore". Non esattamente chiarissimo su cosa si ottiene realmente. Ho scelto prima Google AI Plus, dato che era il livello successivo e sembrava che potesse fare al caso mio. Pagato, abbonato e via! Con il piano Plus, ho potuto vedere l'aggiunta dell'opzione "Create Video" che prima non era disponibile nel piano gratuito.

I 4 prompt che ho usato per testare i limiti di Veo 3
Ecco i quattro prompt che ho messo insieme per testare diversi aspetti delle capacità di Veo 3:
1.Il test di dialogo e sincronizzazione labiale — Per valutare la funzione audio nativa principale con dialogo sincronizzato.
2.Il test cinematografico e atmosferico — Per valutare quanto bene gestisce stili visivi complessi e direzione della camera.
3.Il test di coerenza di prodotto e oggetti — Per verificare se può produrre video di prodotto puliti e professionali.
4.Il test di azione e movimento — Per vedere come gestisce i movimenti rapidi, il lavoro dinamico della camera e l'audio stratificato.
I risultati: 4 esempi di video Veo 3 (Il buono, il brutto e il glitchato)
Prompt #1: Il test di dialogo e sincronizzazione labiale
Prompt utilizzato: "Inquadratura medio-ravvicinata di una storica donna sulla quarantina, con gli occhiali, seduta in una biblioteca illuminata calorosamente. Guarda direttamente in camera, parlando con un tono riflessivo e coinvolgente. Dice: 'Ciò che la maggior parte delle persone non si rende conto sull'Impero Romano è che il suo crollo non è stato un evento singolo, ma un lento e complesso sgretolamento nel corso dei secoli.' Rumore ambientale: il silenzioso fruscio delle pagine che si girano e il soffuso ronzio del condizionatore della biblioteca. Stile: intervista documentaristica, girata con una fotocamera digitale di alta qualità."
La mia esperienza: Ok, sono rimasto genuinamente sbalordito da questo. Il processo è stato fluido e il video è stato pronto in pochi minuti. Storia vera: mentre stava generando, ho cambiato scheda per fare altre cose. Quando sono tornato e ho visto l'output, ho davvero pensato che fosse apparso un annuncio casuale sullo schermo. Sembrava così realistico. La storica, l'illuminazione, il tono… tutto era perfetto. Parlava con inflessioni, pause ed enfasi naturali. Le sue espressioni facciali e i gesti delle mani? Azzeccatissimi. Era genuinamente degno di un'intervista documentaristica.
Le uniche cose che sembravano un po' fuori posto erano gli aggressivi granelli di polvere che fluttuavano nella luce solare, un po' fastidiosi. E anche se avevo chiesto suoni ambientali di biblioteca, il modello mi ha dato invece una sottile traccia di musica di sottofondo. Ma onestamente? È stata una decisione esecutiva intelligente. La musica si adattava perfettamente allo stile documentaristico, forse anche meglio di quanto avessi chiesto. Che inizio!
Cosa mi è piaciuto | Cosa non mi è piaciuto |
Personaggio incredibilmente realistico e dall'aspetto naturale | I granelli di polvere nella luce solare erano un po' fastidiosi |
Sincronizzazione labiale perfetta con inflessioni del parlato naturali | Ha ignorato la specifica richiesta di suono ambientale (ma è stata una buona scelta) |
Ha catturato perfettamente lo stile dell'intervista documentaristica | |
Prompt #2: Il test cinematografico e atmosferico
Prompt utilizzato: "Dolly shot che si muove lentamente all'indietro, rivelando un astronauta solitario in piedi sul bordo di un cratere su Marte. Il cielo è di un arancione rossastro polveroso con due piccole lune visibili. Desolato e silenzioso. Stile: fantascienza epica, 4K, obiettivo grandangolare, estremamente dettagliato, atmosfera suggestiva e malinconica."
La mia esperienza: Questo è stato… un risultato misto. La prima cosa che mi ha colpito è stato il riflesso nel casco dell'astronauta. Avevo chiesto un debole riflesso della Terra, ma quello che ho ottenuto è stato uno strano frammento distorto del volto di un uomo. Sembrava completamente fuori posto, come un bizzarro glitch in cui gli strati di trasparenza e le dimensioni erano tutti sbagliati. Doveva essere il volto dell'astronauta stesso? Chi lo sa! Sembrava semplicemente incollato sopra.
Tutto il resto non era male. La tuta, il cratere, il movimento della camera, tutto solido. I dettagli della nebbia di polvere e sabbia erano in realtà super realistici. Ma il prompt chiedeva due piccole lune, e il cielo mostrava quelli che sembravano tre pianeti di dimensioni diverse. È un peccato per il volto glitchato, perché senza quello, sarebbe stato impressionante. Con la generazione video AI, si vince qualcosa e si perde qualcosa. Il modello ha aggiunto un sole, stelle e nebbia in movimento, che hanno funzionato. Il volto extra e il pianeta? Non altrettanto.
Cosa mi è piaciuto | Cosa non mi è piaciuto |
Buona esecuzione del movimento di camera dolly | Grave glitch con il volto distorto nel riflesso del casco |
Dettagli realistici di nebbia di polvere e sabbia | Non ha seguito l'istruzione delle "due lune" |
Ha catturato bene l'atmosfera desolata ed epica della fantascienza | La tuta dell'astronauta mancava di alcuni dettagli fini |
Prompt #3: Il test di coerenza di prodotto e oggetti
Prompt utilizzato: "Inquadratura a piattaforma girevole di una teiera in ceramica di alta gamma, dal design bellissimo. La teiera è bianca opaca minimalista, appoggiata su una superficie semplice di colore grigio chiaro. La camera ruota lentamente di 360 gradi attorno alla teiera. Stile: spot commerciale di prodotto pulito, illuminazione da studio, ombre morbide, obiettivo macro, messa a fuoco estremamente nitida, nessuna distrazione sullo sfondo."
La mia esperienza: Questo è stato semplicemente… ok. Non particolarmente impressionante. Il modello mi ha dato l'interpretazione più basilare e letterale del prompt. Ho chiesto una teiera "di alta gamma, dal design bellissimo" e mi ha dato una semplice pentola in ceramica dall'aspetto tradizionale. L'angolo della camera era giusto, ma la superficie era bianca invece del grigio chiaro che avevo specificato. Come fa a sbagliare con un prompt così semplice?
Ciò che mi ha davvero infastidito è stata la messa a fuoco. Ho specificamente chiesto "messa a fuoco estremamente nitida", ma la teiera era sfocata, con bordi non puliti, come se facesse parte dello sfondo. Per uno spot commerciale di prodotto, non ha senso. A peggiorare le cose, quando la teiera ruotava, il manico veniva tagliato fuori dall'inquadratura. Il modello non riusciva nemmeno a mantenere completamente visibile l'unico oggetto nell'inquadratura. Per una demo di prodotto, è un enorme fallimento.
Cosa mi è piaciuto | Cosa non mi è piaciuto |
Angolo della camera e movimento di rotazione corretti | Il design della teiera era semplice e poco ispirato |
L'impostazione dello sfondo e dell'illuminazione era quasi corretta | Il video era sfocato e fuori fuoco |
La rotazione di 360 gradi era fluida | Il prodotto veniva tagliato durante la rotazione |
Prompt #4: Il test di azione e movimento
Prompt utilizzato: "Inquadratura POV in soggettiva tenuta a mano di qualcuno che corre attraverso un affollato e vivace mercato notturno a Bangkok. La camera è traballante mentre si fa strada tra persone e bancarelle di cibo. Il vapore si alza dai wok e lanterne colorate pendono dall'alto. SFX: una cacofonia di suoni di mercato — persone che parlano, cibo che sfrigola, musica in lontananza. Il corridore occasionalmente guarda alle sue spalle, respirando affannosamente. Stile: film d'azione crudo, realistico, immersivo, movimento leggermente sfocato."
La mia esperienza: Questo non era quello che mi aspettavo, e non in senso positivo. Il video si è aperto con un personaggio che urlava "Togliti di mezzo!" e un effetto sonoro casuale di pugno, che l'ha trasformato immediatamente in una scena di fuga aggressiva che non avevo mai chiesto. Il mercato era affollato, ma qualcosa non andava. Tutti erano in piedi in file perfettamente dritte e ordinate, e nessuno si muoveva. Avete mai visto un mercato affollato che sembri così? Era completamente innaturale.
Il corridore non si è mai voltato a guardare alle sue spalle, un'azione specifica che avevo richiesto. Anche l'audio era un disastro. L'unico suono corretto era il respiro affannoso del corridore. Il resto dei suoni del mercato era troppo distante e silenzioso, quando avrebbe dovuto essere una cacofonia ravvicinata e immersiva. I cartelli erano un misto di tailandese e cinese, facendo sembrare un generico "mercato asiatico" invece di specificamente Bangkok. Questo urlava semplicemente "generato dall'AI".
Cosa mi è piaciuto | Cosa non mi è piaciuto |
Il suono del respiro del corridore era realistico | Sono stati aggiunti dialoghi ed effetti sonori indesiderati |
La sensazione di camera a mano era in qualche modo presente | La folla era statica e completamente irrealistica |
L'illuminazione e i colori del mercato erano vivaci | L'ambientazione sembrava generica, non specifica di Bangkok |
La funzionalità che cambia tutto: audio nativo e sincronizzazione labiale
Nonostante i risultati incoerenti nei miei quattro test, il successo del Prompt #1 evidenzia davvero perché Veo 3 stia ottenendo così tanta attenzione. La qualità della sincronizzazione labiale è dove brilla davvero. Quando funziona, come nel mio test della storica, il risultato è abbastanza convincente da essere scambiato per riprese reali. Il modello non si limita ad abbinare i movimenti della bocca alle parole; genera schemi di linguaggio naturali con inflessioni, pause ed enfasi. Prende anche decisioni creative sull'audio, come scegliere la musica di sottofondo rispetto al rumore ambientale quando serve meglio la scena. Questo tipo di intelligenza audio contestuale è ciò che fa la differenza tra una clip che sembra generata dall'AI e una che regge davvero.
Le parti fastidiose: limiti giornalieri, rendering lento e strani glitch
Ecco dove devo essere onesto riguardo alle frustrazioni, perché ce ne sono state diverse.
I limiti di generazione giornalieri sono stati un vero problema. Dopo aver generato solo due video sul piano Google AI Plus, ho sbattuto contro un muro. È apparso questo messaggio.

È qui che il vago linguaggio "maggiore accesso" e "accesso superiore" nelle pagine dei piani diventa un vero problema. Ho dovuto eseguire l'upgrade di nuovo a Google AI Pro per continuare i miei test. Sono due upgrade a pagamento solo per eseguire quattro prompt.
E poi ci sono i glitch. Il volto distorto nel riflesso del casco dell'astronauta, il pianeta extra nel cielo, il dialogo aggiunto nella scena del mercato di Bangkok. Questi sono i tipi di artefatti visivi e audio che possono rendere un output altrimenti impressionante completamente inutilizzabile se quello che cercavi era il realismo. Limiti di Veo 3 come questi sono da tenere a mente prima di impegnarsi in un piano a pagamento.
Google Veo 3 vale il prezzo? Il mio verdetto onesto
Dopo questi giri di test, ecco dove mi posiziono sul fatto se Google Veo 3 valga la pena.
Per contenuti incentrati sul dialogo, in particolare video con volti parlanti, interviste in stile documentaristico o qualsiasi scena in cui un personaggio parla direttamente alla camera, Veo 3 è uno dei migliori strumenti disponibili in questo momento. La qualità della sincronizzazione labiale e la generazione del parlato naturale sono genuinamente impressionanti e difficili da eguagliare. Se questo è il tuo caso d'uso principale, il piano Google AI Pro a $19,99 al mese è un investimento ragionevole.
Per tutto il resto, è più una scommessa. Il test della demo di prodotto è stato deludente, la sequenza d'azione è stata un disastro e il test cinematografico ha avuto un glitch che ha reso l'output inutilizzabile. I limiti giornalieri sono frustranti, specialmente sui piani di livello inferiore, e i tempi di rendering rallentano le cose. Se sei un creator indipendente che sperimenta con i video AI, vale la pena provarlo. Se sei un'agenzia o un team di produzione che ha bisogno di risultati coerenti e affidabili su larga scala, i limiti potrebbero superare i benefici per ora.
La conclusione: Veo 3 è genuinamente impressionante nelle giuste condizioni, ma non è ancora il generatore video affidabile e universale che le demo suggeriscono. È uno strumento potente con uno sweet spot specifico, e conoscere quello sweet spot prima di abbonarti ti risparmierà molta frustrazione.
Come Manus può potenziare il tuo flusso di lavoro per i video AI
Generare clip è solo una parte del processo. Un progetto video finito richiede il brainstorming di idee, la scrittura di script e prompt, l'organizzazione degli asset e la creazione del contenuto circostante: i post del blog, le didascalie social e le descrizioni dei video che effettivamente fanno vedere i tuoi contenuti. È qui che entra in gioco Manus.
Ho usato Manus durante tutto questo processo di recensione: per pianificare il mio approccio al test, strutturare i quattro prompt e consolidare le mie note e scoperte in qualcosa di coerente prima di scrivere. Avere uno strumento che ti aiuta a organizzare i tuoi pensieri prima di mettere le parole su una pagina fa una vera differenza, specialmente quando stai destreggiandoti tra più output di test e cercando di confrontarli in modo equo. Se stai costruendo un flusso di lavoro per contenuti video, vale la pena avere un Agent AI al tuo fianco per il lavoro circostante. Puoi provare Manus gratuitamente su manus.im.
Domande frequenti
Come posso accedere a Google Veo 3?
Puoi accedere a Google Veo 3 tramite l'app Gemini iscrivendoti a uno dei piani AI a pagamento di Google. Il piano Google AI Plus ($7,99/mese) fornisce un accesso limitato, mentre il piano Google AI Pro ($19,99/mese) sblocca la generazione video con Veo 3.1 Fast. L'accesso completo con i limiti più alti è disponibile sul piano Google AI Ultra ($249,99/mese).
Esiste una versione gratuita di Google Veo 3?
Non esiste una versione gratuita dedicata di Veo 3. Il piano gratuito di Google AI ha un accesso molto limitato e non supporta la generazione video diretta tramite l'app Gemini. Gli utenti gratuiti possono avere un accesso limitato tramite Google Flow, ma per una generazione video pratica avrai bisogno di un piano a pagamento.
Quali sono i limiti di Google Veo 3?
I principali limiti di Veo 3 includono limiti di generazione giornalieri (anche sui piani a pagamento), tempi di rendering lenti di circa 3-5 minuti per clip, una lunghezza massima del video di 8 secondi, occasionali glitch visivi e incongruenze, e difficoltà con scene complesse a più elementi. La coerenza degli oggetti negli scatti di prodotto e il comportamento dei personaggi nelle sequenze d'azione sono anche aree in cui può essere carente.
Google Veo 3 può creare video più lunghi di 8 secondi?
No, l'attuale versione di Google Veo 3 genera clip fino a 8 secondi. Per contenuti più lunghi, dovresti generare più clip e montarle insieme in uno strumento come Google Flow o un editor video standard.
Google Veo 3 è migliore di Sora di OpenAI?
Dipende da ciò di cui hai bisogno. Veo 3 ha un chiaro vantaggio nel realismo del dialogo e della sincronizzazione labiale, rendendolo la scelta migliore per contenuti con volti parlanti o in stile intervista. Sora 2 generalmente funziona meglio per scene narrative più lunghe e ha un comportamento dei personaggi più coerente in prompt complessi. Per la maggior parte dei creator, la scelta si riduce al tuo caso d'uso principale.
