Manus fait désormais partie de Meta — apportant l'IA aux entreprises du monde entier

Autre·vendredi, mars 06

J'ai testé Google Veo 3 et voici ma critique honnête

En tant que rédacteur de contenu chez Manus, tester de nouveaux outils d'AI fait pratiquement partie de la description de poste. Lorsque Google Veo 3 est sorti, Internet a collectivement perdu la tête face aux démos. Des têtes parlantes réalistes, un audio synchronisé, des visuels cinématographiques, le tout à partir d'une simple invite textuelle. J'ai vu suffisamment de cycles de battage médiatique autour de l'AI pour savoir que les démos sont soigneusement sélectionnées et que les résultats en conditions réelles sont une tout autre histoire.
J'ai donc décidé de passer du temps à utiliser réellement Google Veo 3, en lui soumettant quatre prompts distincts conçus pour pousser ses limites, et à tout documenter honnêtement.
Ceci n'est pas un résumé des supports marketing de Google. C'est une critique pratique de Google Veo 3 basée sur mon expérience réelle, y compris les parties qui m'ont impressionné, celles qui m'ont frustré et celles qui n'ont tout simplement pas fonctionné. À la fin de cet article, vous saurez exactement dans quoi Veo 3 excelle, où il pèche, s'il vaut son prix et comment il se compare à la concurrence.


Qu'est-ce que Google Veo 3 ? (Et quoi de neuf dans Veo 3.1 ?)

Google Veo 3 est un modèle avancé de génération vidéo par AI qui crée des clips vidéo de haute qualité à partir d'un simple prompt textuel. Il prend en charge le dialogue synchronisé, les effets sonores ambiants et la musique de fond, le tout à partir d'un seul prompt, et s'est rapidement forgé une réputation pour produire certaines des séquences de têtes parlantes générées par AI les plus réalistes qui soient.
Veo 3 a été annoncé pour la première fois lors de Google I/O vers la mi-2025 et est rapidement devenu l'un des générateurs vidéo AI les plus discutés de l'année. La mise à jour la plus récente, Veo 3.1, a apporté des améliorations significatives : meilleure stabilité, synchronisation labiale plus précise, génération de personnages plus cohérente et mise à l'échelle en 1080p et 4K. Il est accessible via quelques produits Google — Google Flow, un outil de réalisation cinématographique de qualité professionnelle conçu pour le montage et le séquençage de scènes plus longues et plus complexes, et Google Whisk, un outil expérimental axé sur la génération rapide d'image-vers-vidéo et de courts clips. Pour cette critique, j'ai testé via l'application Gemini, où j'ai simplement sélectionné l'icône de l'outil « Créer une vidéo » et exécuté les quatre prompts depuis là.


Mon processus de test pratique

Pour faire un test correct, je ne voulais pas simplement lancer des prompts simples et m'en contenter. J'ai demandé à Manus de m'aider à concevoir quatre prompts spécifiques pour évaluer différentes capacités : dialogue et synchronisation labiale, atmosphère cinématographique, cohérence des produits et action rythmée. Voici comment ce processus s'est réellement déroulé.

Comment j'ai obtenu l'accès (et comment vous le pouvez aussi)

Obtenir l'accès à Veo 3 est honnêtement un peu déroutant au début, et je pense que cela vaut la peine d'en parler car c'est un point sensible courant.
Capture d'écran de l'interface du compte gratuit Gemini

J'ai commencé avec le compte gratuit. L'interface est plutôt générique, similaire à d'autres outils d'AI, avec une zone de prompt et quelques icônes d'outils à choisir. Aucune option de génération vidéo n'était visible nulle part. J'ai quand même essayé de saisir mon premier prompt, juste pour voir ce qui se passerait.
Capture d'écran de Gemini renvoyant une image au lieu d'une vidéo

Ce que j'ai obtenu en retour était une image, pas une vidéo. L'image était en fait impressionnante et correspondait bien au prompt, mais ce n'était clairement pas ce que j'avais demandé. J'ai ensuite essayé de demander explicitement à Gemini de me créer une vidéo, pensant qu'il avait peut-être mal interprété mon intention. La réponse que j'ai reçue était : « Je peux créer cette vidéo pour vous aujourd'hui si vous mettez à niveau votre abonnement. »
Capture d'écran de l'invite de mise à niveau

Je suis donc allé regarder les forfaits payants.
Voici la répartition actuelle de ce que chaque forfait propose pour la génération vidéo :
Forfait
Prix mensuel
Crédits AI
Accès à Veo 3.1
Free
0 $
50 crédits quotidiens
Accès limité à Flow, Animate et génération d'images
Google AI Plus
7,99 $/mois
200 crédits mensuels
Plus d'accès à Flow et à la génération image-vers-vidéo sur Whisk
Google AI Pro
19,99 $/mois
1 000 crédits mensuels
Accès supérieur à Flow et Whisk
Google AI Ultra
249,99 $/mois
25 000 crédits mensuels
Accès maximal à Flow et Whisk
La formulation des forfaits est vague. Google AI Plus dit « plus d'accès à la création image-vers-vidéo avec Veo 3 » et Google AI Pro dit « accès supérieur ». Pas exactement clair sur ce que vous obtenez réellement. J'ai d'abord opté pour Google AI Plus, car c'était le niveau supérieur suivant et il semblait faire l'affaire. Payé, abonné, et c'est parti ! Sur le forfait plus, j'ai pu voir l'ajout de l'option « Créer une vidéo » qui n'était pas disponible auparavant sur le forfait gratuit.
Forfait Gemini Plus avec l'option « Créer une vidéo » désormais visible



Les 4 prompts que j'ai utilisés pour tester les limites de Veo 3

Voici les quatre prompts que j'ai préparés pour tester différents aspects des capacités de Veo 3 :
1.Le test de dialogue et de synchronisation labiale — Pour évaluer la fonctionnalité audio native principale avec dialogue synchronisé.
2.Le test cinématographique et atmosphérique — Pour évaluer la manière dont il gère les styles visuels complexes et la direction de la caméra.
3.Le test de cohérence des produits et des objets — Pour vérifier s'il peut produire des vidéos de produits propres et professionnelles.
4.Le test d'action et de mouvement — Pour voir comment il gère les mouvements rapides, le travail dynamique de la caméra et l'audio en couches.


Les résultats : 4 exemples de vidéos Veo 3 (Le bon, le mauvais et le bogué)

Prompt n°1 : Le test de dialogue et de synchronisation labiale

Prompt utilisé : « Plan rapproché moyen d'une historienne d'une quarantaine d'années, avec des lunettes, assise dans une bibliothèque chaleureusement éclairée. Elle regarde directement la caméra, parlant d'un ton réfléchi et engageant. Elle dit : 'Ce que la plupart des gens ne réalisent pas à propos de l'Empire romain, c'est que son effondrement n'a pas été un événement unique, mais un démantèlement lent et complexe sur des siècles.' Bruit ambiant : le froissement discret des pages qui tournent et le doux ronronnement de la climatisation de la bibliothèque. Style : Interview documentaire, tournée avec une caméra numérique de haute qualité. »

Mon expérience : Bon, j'ai été véritablement épaté par celui-ci. Le processus s'est déroulé sans accroc, et la vidéo était prête en quelques minutes. Histoire vraie : pendant qu'elle se générait, j'ai changé d'onglet pour faire autre chose. Quand je suis revenu et que j'ai vu le résultat, j'ai vraiment cru qu'une publicité aléatoire était apparue sur mon écran. Cela semblait si réaliste. L'historienne, l'éclairage, le ton… tout était parfait. Elle parlait avec des inflexions naturelles, des pauses et de l'emphase. Ses expressions faciales et ses gestes des mains ? Impeccables. C'était vraiment digne d'une interview documentaire.
Les seules choses qui semblaient un peu décalées étaient les particules de poussière agressives flottant au soleil, qui étaient un peu distrayantes. Et bien que j'aie demandé des sons d'ambiance de bibliothèque, le modèle m'a donné une piste musicale de fond subtile à la place. Mais honnêtement ? C'était une décision exécutive intelligente. La musique correspondait parfaitement au style documentaire, peut-être même mieux que ce que j'avais demandé. Quel début !
Ce que j'ai aimé
Ce que je n'ai pas aimé
Personnage incroyablement réaliste et d'apparence naturelle
Les particules de poussière dans la lumière du soleil étaient un peu distrayantes
Synchronisation labiale parfaite avec des inflexions de parole naturelles
A ignoré la demande spécifique de son d'ambiance (mais a fait un bon choix)
A capturé parfaitement le style d'interview documentaire



Prompt n°2 : Le test cinématographique et atmosphérique

Prompt utilisé : « Plan en travelling reculant lentement, révélant un astronaute solitaire debout sur la crête d'un cratère sur Mars. Le ciel est d'un orange-rougeâtre poussiéreux avec deux petites lunes visibles. Désolé et silencieux. Style : Science-fiction épique, 4K, objectif grand angle, extrêmement détaillé, ambiance impressionnante et mélancolique. »

Mon expérience : Celui-ci était… mitigé. La première chose qui a attiré mon attention, c'est le reflet dans le casque de l'astronaute. J'avais demandé un faible reflet de la Terre, mais ce que j'ai obtenu était un étrange et déformé fragment du visage d'un homme. Cela semblait complètement décalé, comme un bogue bizarre où les couches de transparence et les dimensions étaient toutes fausses. Était-ce censé être le propre visage de l'astronaute ? Qui sait ! Cela avait juste l'air collé.
Tout le reste n'était pas mauvais. La combinaison, le cratère, le mouvement de la caméra, tout était solide. Les détails de la poussière et du brouillard de sable étaient en fait super réalistes. Mais le prompt demandait deux petites lunes, et le ciel montrait ce qui ressemblait à trois planètes de tailles différentes. C'est dommage pour le visage bogué, car sans cela, cela aurait été impressionnant. Avec la génération vidéo par AI, on gagne parfois, on perd parfois. Le modèle a ajouté un soleil, des étoiles et un brouillard en mouvement, ce qui a fonctionné. Le visage et la planète supplémentaires ? Pas tellement.
Ce que j'ai aimé
Ce que je n'ai pas aimé
Bonne exécution du mouvement de caméra en travelling
Bogue majeur avec le visage déformé dans le reflet du casque
Détails réalistes de la poussière et du brouillard de sable
N'a pas suivi l'instruction des « deux lunes »
A bien capturé l'ambiance désolée et épique de la science-fiction
La combinaison de l'astronaute manquait de finesse dans les détails


Prompt n°3 : Le test de cohérence des produits et des objets

Prompt utilisé : « Plan en plateau tournant d'une théière en céramique haut de gamme et magnifiquement conçue. La théière est d'un blanc mat minimaliste, posée sur une surface unie gris clair. La caméra tourne lentement à 360 degrés autour de la théière. Style : Publicité produit épurée, éclairage de studio, ombres douces, objectif macro, mise au point extrêmement nette, aucune distraction d'arrière-plan. »

Mon expérience : Celui-ci était juste… correct. Pas particulièrement impressionnant. Le modèle m'a donné l'interprétation la plus basique et littérale du prompt. J'ai demandé une théière « haut de gamme et magnifiquement conçue », et il m'a donné un pot en céramique simple et d'aspect traditionnel. L'angle de la caméra était correct, mais la surface était blanche au lieu du gris clair que j'avais spécifié. Comment peut-il se tromper avec un prompt aussi simple ?
Ce qui m'a vraiment dérangé, c'est la mise au point. J'ai spécifiquement demandé une « mise au point extrêmement nette », mais la théière était floue, avec des bords imprécis, comme si elle faisait partie de l'arrière-plan. Pour une publicité produit, cela n'a aucun sens. Pour aggraver les choses, lorsque la théière a tourné, l'anse a été coupée hors du cadre. Le modèle ne pouvait même pas garder le seul et unique objet du plan entièrement visible. Pour une démonstration de produit, c'est un énorme échec.
Ce que j'ai aimé
Ce que je n'ai pas aimé
Angle de caméra et mouvement de rotation corrects
La conception de la théière était simple et sans inspiration
La configuration de l'arrière-plan et de l'éclairage était globalement correcte
La vidéo était floue et hors mise au point
La rotation à 360 degrés était fluide
Le produit a été coupé pendant la rotation


Prompt n°4 : Le test d'action et de mouvement

Prompt utilisé : « Plan POV à la main de quelqu'un courant à travers un marché nocturne bondé et vibrant à Bangkok. La caméra est tremblante alors qu'ils se faufilent entre les gens et les stands de nourriture. La vapeur s'élève des woks, et des lanternes colorées sont suspendues au-dessus. SFX : une cacophonie de sons de marché — des gens qui parlent, de la nourriture qui grésille, de la musique au loin. Le coureur jette occasionnellement un coup d'œil par-dessus son épaule, respirant lourdement. Style : Film d'action brut, réaliste, immersif, mouvement légèrement flou. »

Mon expérience : Ce n'était pas ce à quoi je m'attendais, et pas du tout dans le bon sens. La vidéo s'ouvre sur un personnage qui crie « Pousse-toi ! » et un effet sonore de coup de poing aléatoire, ce qui en a immédiatement fait une scène d'évasion agressive que je n'ai jamais demandée. Le marché était bondé, mais quelque chose clochait sérieusement. Tout le monde se tenait en files parfaitement droites et ordonnées, et personne ne bougeait. Avez-vous déjà vu un marché animé qui ressemble à cela ? C'était complètement contre nature.
Le coureur n'a pas une seule fois jeté un coup d'œil par-dessus son épaule, une action spécifique que j'avais demandée. L'audio était également un désastre. Le seul son qui était correct était la respiration lourde du coureur. Le reste des sons du marché était trop lointain et silencieux, alors qu'ils auraient dû être une cacophonie proche et immersive. Les enseignes étaient un mélange de thaï et de chinois, donnant l'impression d'un « marché asiatique » générique au lieu d'être spécifiquement à Bangkok. Celui-ci criait simplement « généré par AI ».
Ce que j'ai aimé
Ce que je n'ai pas aimé
Le son de la respiration du coureur était réaliste
Des dialogues et effets sonores indésirables ont été ajoutés
La sensation de caméra à la main était quelque peu présente
La foule était statique et complètement irréaliste
L'éclairage et les couleurs du marché étaient vibrants
Le décor semblait générique, pas spécifique à Bangkok


La fonctionnalité qui change tout : Audio natif et synchronisation labiale

Malgré les résultats incohérents de mes quatre tests, le succès du Prompt n°1 met vraiment en évidence pourquoi Veo 3 attire autant l'attention. La qualité de la synchronisation labiale est là où il brille véritablement. Quand cela fonctionne, comme dans mon test de l'historienne, le résultat est suffisamment convaincant pour être confondu avec de vraies images. Le modèle ne se contente pas de faire correspondre les mouvements de la bouche aux mots ; il génère des schémas de parole naturels avec des inflexions, des pauses et de l'emphase. Il prend également des décisions créatives concernant l'audio, comme choisir une musique de fond plutôt qu'un bruit ambiant lorsque cela sert mieux la scène. C'est ce type d'intelligence audio contextuelle qui fait la différence entre un clip qui semble généré par AI et un qui tient vraiment la route.


Les parties agaçantes : Limites quotidiennes, rendu lent et bogues étranges

C'est ici que je dois être honnête sur les frustrations, car il y en a eu plusieurs.
Les limites de génération quotidiennes étaient un vrai problème. Après avoir généré seulement deux vidéos sur le forfait Google AI Plus, j'ai atteint un mur. Ce message est apparu.
Capture d'écran du message de limite quotidienne atteinte

C'est ici que le langage vague « plus d'accès » et « accès supérieur » sur les pages des forfaits devient un vrai problème. J'ai dû mettre à niveau à nouveau vers Google AI Pro pour poursuivre mes tests. C'est deux mises à niveau payantes juste pour exécuter quatre prompts.
Et puis il y a les bogues. Le visage déformé dans le reflet du casque de l'astronaute, la planète supplémentaire dans le ciel, le dialogue ajouté dans la scène du marché de Bangkok. Ce sont les types d'artefacts visuels et audio qui peuvent rendre un résultat par ailleurs impressionnant complètement inutilisable si le réalisme est ce que vous recherchiez. Les limites de Veo 3 comme celles-ci valent la peine d'être gardées à l'esprit avant de s'engager dans un forfait payant.


Google Veo 3 vaut-il son prix ? Mon verdict honnête

Après ces tours de tests, voici où j'en suis sur la question de savoir si Google Veo 3 en vaut la peine.
Pour le contenu axé sur le dialogue, en particulier les vidéos de têtes parlantes, les interviews de style documentaire ou toute scène où un personnage parle directement à la caméra, Veo 3 est l'un des meilleurs outils disponibles actuellement. La qualité de la synchronisation labiale et la génération de parole naturelle sont véritablement impressionnantes et difficiles à égaler. Si c'est votre cas d'utilisation principal, le forfait Google AI Pro à 19,99 $ par mois est un investissement raisonnable.
Pour tout le reste, c'est plus un pari. Le test de démonstration de produit était décevant, la séquence d'action était un désastre, et le test cinématographique avait un bogue qui rendait le résultat inutilisable. Les limites quotidiennes sont frustrantes, surtout sur les forfaits de niveau inférieur, et les temps de rendu ralentissent les choses. Si vous êtes un créateur solo expérimentant la vidéo AI, cela vaut la peine d'essayer. Si vous êtes une agence ou une équipe de production qui a besoin de résultats cohérents et fiables à grande échelle, les limitations pourraient l'emporter sur les avantages pour le moment.
En résumé : Veo 3 est véritablement impressionnant dans les bonnes conditions, mais ce n'est pas encore le générateur vidéo fiable et polyvalent que les démos suggèrent. C'est un outil puissant avec un créneau spécifique, et connaître ce créneau avant de vous abonner vous évitera beaucoup de frustration.


Comment Manus peut booster votre flux de travail vidéo AI

Générer des clips n'est qu'une partie du processus. Un projet vidéo terminé nécessite de la réflexion sur les idées, l'écriture de scripts et de prompts, l'organisation des actifs et la création du contenu environnant — les articles de blog, les légendes sociales et les descriptions de vidéos qui font effectivement voir votre contenu. C'est là que Manus intervient.
J'ai utilisé Manus tout au long de ce processus de critique : pour planifier mon approche de test, structurer les quatre prompts et consolider mes notes et conclusions en quelque chose de cohérent avant d'écrire. Avoir un outil qui vous aide à organiser votre pensée avant de mettre des mots sur une page fait une vraie différence, surtout lorsque vous jonglez avec plusieurs résultats de tests et essayez de les comparer équitablement. Si vous construisez un flux de travail de contenu vidéo, cela vaut la peine d'avoir un Agent AI dans votre coin pour le travail environnant. Vous pouvez essayer Manus gratuitement sur manus.im.


Questions fréquemment posées

Comment puis-je accéder à Google Veo 3 ?

Vous pouvez accéder à Google Veo 3 via l'application Gemini en vous abonnant à l'un des forfaits AI payants de Google. Le forfait Google AI Plus (7,99 $/mois) offre un accès limité, tandis que le forfait Google AI Pro (19,99 $/mois) débloque la génération vidéo avec Veo 3.1 Fast. L'accès complet avec les limites les plus élevées est disponible sur le forfait Google AI Ultra (249,99 $/mois).

Existe-t-il une version gratuite de Google Veo 3 ?

Il n'existe pas de version gratuite dédiée de Veo 3. Le forfait Google AI gratuit a un accès très limité et ne prend pas en charge la génération vidéo directe via l'application Gemini. Les utilisateurs gratuits peuvent avoir un accès limité via Google Flow, mais pour une génération vidéo pratique, vous aurez besoin d'un forfait payant.

Quelles sont les limitations de Google Veo 3 ?

Les principales limitations de Veo 3 incluent les limites de génération quotidiennes (même sur les forfaits payants), des temps de rendu lents d'environ 3-5 minutes par clip, une longueur vidéo maximale de 8 secondes, des bogues visuels et incohérences occasionnels, et des difficultés avec des scènes complexes à plusieurs éléments. La cohérence des objets dans les plans produits et le comportement des personnages dans les séquences d'action sont également des domaines où il peut être insuffisant.

Google Veo 3 peut-il créer des vidéos de plus de 8 secondes ?

Non, la version actuelle de Google Veo 3 génère des clips d'une durée maximale de 8 secondes. Pour un contenu plus long, vous devrez générer plusieurs clips et les monter ensemble dans un outil comme Google Flow ou un éditeur vidéo standard.

Google Veo 3 est-il meilleur que Sora d'OpenAI ?

Cela dépend de ce dont vous avez besoin. Veo 3 a un avantage clair en matière de réalisme du dialogue et de la synchronisation labiale, ce qui en fait le meilleur choix pour le contenu de type tête parlante ou interview. Sora 2 fonctionne généralement mieux pour les scènes narratives plus longues et a un comportement de personnage plus cohérent à travers des prompts complexes. Pour la plupart des créateurs, le choix se résume à votre cas d'utilisation principal.

Téléchargez l'application pour ordinateur et mobile

Accédez à Manus à tout moment, partout.

Téléchargez l'application Manus pour ordinateur et mobile