Manus ahora es parte de Meta, llevando IA a empresas de todo el mundo.

Otro·viernes, marzo 06

Probé Google Veo 3 y aquí está mi reseña honesta

Como redactor de contenido en Manus, probar nuevas herramientas de AI es básicamente parte de la descripción del trabajo. Cuando salió Google Veo 3, internet colectivamente perdió la cabeza con las demos. Cabezas parlantes realistas, audio sincronizado, visuales cinematográficos, todo a partir de un solo prompt de texto. He visto suficientes ciclos de hype de AI para saber que las demos están curadas y los resultados del mundo real son una historia totalmente diferente.
Así que decidí dedicar algo de tiempo a usar realmente Google Veo 3, ejecutándolo a través de cuatro prompts distintos diseñados para llevarlo al límite, y documentando todo honestamente.
Esto no es un resumen de los materiales de marketing de Google. Esta es una reseña práctica de Google Veo 3 basada en mi experiencia real, incluyendo las partes que me impresionaron, las partes que me frustraron y las partes que simplemente no funcionaron. Al final de este artículo, sabrás exactamente en qué es bueno Veo 3, dónde se queda corto, si vale la pena el precio y cómo se compara con la competencia.


¿Qué es Google Veo 3? (¿Y qué hay de nuevo en Veo 3.1?)

Google Veo 3 es un avanzado modelo de generación de video con AI que crea videoclips de alta calidad a partir de un solo prompt de texto. Soporta diálogo sincronizado, efectos de sonido ambiental y música de fondo, todo desde un solo prompt, y rápidamente se ha ganado la reputación de producir algunas de las imágenes de cabezas parlantes generadas por AI más realistas que existen.
Veo 3 fue anunciado por primera vez en Google I/O alrededor de mediados de 2025 y rápidamente se convirtió en uno de los generadores de video con AI más comentados del año. La actualización más reciente, Veo 3.1, trajo mejoras significativas: mejor estabilidad, sincronización labial más precisa, generación de personajes más consistente y escalado a 1080p y 4K. Es accesible a través de algunos productos de Google: Google Flow, una herramienta de cinematografía de nivel profesional creada para editar y secuenciar escenas más largas y complejas, y Google Whisk, una herramienta experimental enfocada en la generación rápida de imagen a video y clips cortos. Para esta reseña, probé a través de la app de Gemini, donde simplemente seleccioné la pestaña de la herramienta "Crear video" y ejecuté los cuatro prompts desde allí.


Mi proceso de pruebas prácticas

Para hacer una prueba adecuada, no quería simplemente lanzarle prompts simples y darlo por terminado. Le pedí a Manus que me ayudara a diseñar cuatro prompts específicos para evaluar diferentes capacidades: diálogo y sincronización labial, atmósfera cinematográfica, consistencia de producto y acción de ritmo rápido. Así fue cómo realmente se desarrolló ese proceso.

Cómo obtuve acceso (y cómo tú también puedes)

Obtener acceso a Veo 3 es honestamente un poco confuso al principio, y creo que vale la pena explicarlo porque es un punto problemático común.
Captura de pantalla de la interfaz de cuenta gratuita de Gemini

Comencé con la cuenta gratuita. La interfaz es bastante genérica, similar a otras herramientas de AI, con una caja de prompt y algunas pestañas de herramientas para elegir. No había ninguna opción de generación de video visible en ningún lado. Probé ingresando mi primer prompt de todos modos, solo para ver qué pasaría.
Captura de pantalla de Gemini devolviendo una imagen en lugar de un video

Lo que obtuve fue una imagen, no un video. La imagen era realmente impresionante y coincidía bien con el prompt, pero claramente no era lo que pedí. Luego intenté pedirle explícitamente a Gemini que creara un video para mí, pensando que tal vez había malinterpretado mi intención. La respuesta que recibí fue: "Puedo crear ese video para ti hoy si actualizas tu suscripción".
Captura de pantalla del aviso de actualización

Así que fui a ver los planes de pago.
Aquí está el desglose actual de lo que ofrece cada plan para la generación de video:
Plan
Precio mensual
Créditos AI
Acceso a Veo 3.1
Free
$0
50 créditos diarios
Acceso limitado a Flow, animar y generar imágenes
Google AI Plus
$7.99/mes
200 créditos mensuales
Más acceso a Flow y generación de imagen a video en Whisk
Google AI Pro
$19.99/mes
1,000 créditos mensuales
Mayor acceso a Flow y Whisk
Google AI Ultra
$249.99/mes
25,000 créditos mensuales
Máximo acceso a Flow y Whisk
La redacción de los planes es vaga. Google AI Plus dice "más acceso a la creación de imagen a video con Veo 3" y Google AI Pro dice "mayor acceso". No es exactamente cristalino lo que realmente estás obteniendo. Fui primero con Google AI Plus, ya que era el siguiente nivel y parecía que serviría. Pagado, suscrito, ¡y allá vamos! En el plan Plus, pude ver la adición de la opción "Crear video" que antes no estaba disponible en el plan gratuito.
Plan Gemini Plus con la opción "Crear video" ahora visible



Los 4 prompts que usé para probar los límites de Veo 3

Aquí están los cuatro prompts que armé para probar diferentes aspectos de las capacidades de Veo 3:
1.La prueba de diálogo y sincronización labial — Para evaluar la función central de audio nativo con diálogo sincronizado.
2.La prueba cinematográfica y atmosférica — Para evaluar qué tan bien maneja estilos visuales complejos y dirección de cámara.
3.La prueba de consistencia de producto y objeto — Para verificar si puede producir videos de producto limpios y profesionales.
4.La prueba de acción y movimiento — Para ver cómo maneja el movimiento rápido, el trabajo de cámara dinámico y el audio en capas.


Los resultados: 4 ejemplos de video de Veo 3 (lo bueno, lo malo y lo defectuoso)

Prompt #1: La prueba de diálogo y sincronización labial

Prompt utilizado: "Plano medio cercano de una historiadora de unos 40 años, con anteojos, sentada en una biblioteca cálidamente iluminada. Ella mira directamente a la cámara, hablando con un tono reflexivo y atractivo. Dice: 'Lo que la mayoría de la gente no se da cuenta sobre el Imperio Romano es que su colapso no fue un solo evento, sino un lento y complejo desmoronamiento a lo largo de siglos'. Ruido ambiental: el suave susurro de páginas pasando y el suave zumbido del aire acondicionado de la biblioteca. Estilo: Entrevista documental, filmada con una cámara digital de alta calidad".

Mi experiencia: Bueno, este realmente me dejó alucinado. El proceso fue fluido y el video estuvo listo en minutos. Historia real: mientras se generaba, cambié de pestaña para hacer otras cosas. Cuando regresé y vi el resultado, realmente pensé que había aparecido un anuncio aleatorio en mi pantalla. Se veía así de realista. La historiadora, la iluminación, el tono... todo estaba clavado. Hablaba con inflexiones naturales, pausas y énfasis. ¿Sus expresiones faciales y gestos con las manos? Perfectos. Era genuinamente digno de una entrevista documental.
Las únicas cosas que se sintieron un poco fuera de lugar fueron las agresivas motas de polvo flotando en la luz del sol, que distraían un poco. Y aunque pedí sonidos ambientales de biblioteca, el modelo me dio una sutil pista de música de fondo en su lugar. ¿Pero honestamente? Fue una decisión ejecutiva inteligente. La música encajaba perfectamente con el estilo documental, tal vez incluso mejor de lo que había pedido. ¡Qué comienzo!
Lo que me gustó
Lo que no me gustó
Personaje increíblemente realista y de aspecto natural
Las motas de polvo en la luz del sol distraían un poco
Sincronización labial perfecta con inflexiones naturales del habla
Ignoró la solicitud específica de sonido ambiental (pero tomó una buena decisión)
Captó el estilo de entrevista documental perfectamente



Prompt #2: La prueba cinematográfica y atmosférica

Prompt utilizado: "Plano dolly moviéndose lentamente hacia atrás, revelando a un astronauta solitario parado en la cresta de un cráter en Marte. El cielo es un naranja rojizo y polvoriento con dos pequeñas lunas visibles. Desolado y silencioso. Estilo: Ciencia ficción épica, 4K, lente gran angular, extremadamente detallado, ambiente impresionante y melancólico".

Mi experiencia: Este fue... una mezcla de cosas. Lo primero que me llamó la atención fue el reflejo en el casco del astronauta. Había pedido un reflejo tenue de la Tierra, pero lo que obtuve fue una extraña y distorsionada porción del rostro de un hombre. Se veía completamente fuera de lugar, como una bizarra falla donde las capas de transparencia y dimensiones estaban todas mal. ¿Se suponía que era el propio rostro del astronauta? ¡Quién sabe! Simplemente parecía pegado.
Todo lo demás no estuvo mal. El traje, el cráter, el movimiento de cámara, todo sólido. Los detalles del polvo y la niebla de arena fueron en realidad súper realistas. Pero el prompt pedía dos pequeñas lunas, y el cielo mostraba lo que parecían tres planetas de diferentes tamaños. Es una pena lo del rostro defectuoso, porque sin él, esto habría sido impresionante. Con la generación de video con AI, ganas algunas, pierdes algunas. El modelo agregó un sol, estrellas y niebla en movimiento, lo cual funcionó. ¿El rostro extra y el planeta? No tanto.
Lo que me gustó
Lo que no me gustó
Buena ejecución del movimiento de cámara dolly
Falla mayor con el rostro distorsionado en el reflejo del casco
Detalles realistas de polvo y niebla de arena
No siguió la instrucción de "dos lunas"
Captó bien el ambiente desolado y épico de ciencia ficción
El traje del astronauta carecía de algunos detalles finos


Prompt #3: La prueba de consistencia de producto y objeto

Prompt utilizado: "Plano de plataforma giratoria de una tetera de cerámica de alta gama y bellamente diseñada. La tetera es un blanco mate minimalista, sentada sobre una superficie lisa de color gris claro. La cámara gira lentamente 360 grados alrededor de la tetera. Estilo: Comercial de producto limpio, iluminación de estudio, sombras suaves, lente macro, enfoque extremadamente nítido, sin distracciones de fondo".

Mi experiencia: Este fue solo... pasable. No particularmente impresionante. El modelo me dio la interpretación más básica y literal del prompt. Pedí una tetera "de alta gama y bellamente diseñada", y me dio una tetera de cerámica simple y de aspecto tradicional. El ángulo de cámara estaba bien, pero la superficie era blanca en lugar del gris claro que había especificado. ¿Cómo puede equivocarse así con un prompt tan simple?
Lo que realmente me molestó fue el enfoque. Pedí específicamente "enfoque extremadamente nítido", pero la tetera estaba borrosa, con bordes poco limpios, como si fuera parte del fondo. Para un comercial de producto, eso no tiene sentido. Para empeorar las cosas, cuando la tetera giraba, el asa quedaba completamente cortada del cuadro. El modelo ni siquiera podía mantener el único objeto del plano completamente visible. Para una demostración de producto, eso es un gran fracaso.
Lo que me gustó
Lo que no me gustó
Ángulo de cámara correcto y movimiento de rotación
El diseño de la tetera era simple y poco inspirado
La configuración del fondo y la iluminación fue mayormente correcta
El video estaba borroso y desenfocado
La rotación de 360 grados fue suave
El producto fue cortado durante la rotación


Prompt #4: La prueba de acción y movimiento

Prompt utilizado: "Plano POV en mano de alguien corriendo a través de un mercado nocturno abarrotado y vibrante en Bangkok. La cámara se mueve mientras se abren paso entre la gente y los puestos de comida. Sale vapor de los woks, y faroles coloridos cuelgan en lo alto. SFX: una cacofonía de sonidos de mercado: gente hablando, comida chisporroteando, música distante. El corredor ocasionalmente mira por encima del hombro, respirando con dificultad. Estilo: Película de acción cruda, realista, inmersiva, movimiento ligeramente borroso".

Mi experiencia: Esto no fue lo que esperaba, y para nada en el buen sentido. El video se abrió con un personaje gritando "¡Quítense del camino!" y un efecto de sonido aleatorio de un puñetazo, lo que inmediatamente lo convirtió en una agresiva escena de escape que nunca pedí. El mercado estaba abarrotado, pero algo estaba muy mal. Todos estaban parados en filas perfectamente rectas y ordenadas, y nadie se estaba moviendo. ¿Alguna vez has visto un mercado concurrido que se vea así? Era completamente antinatural.
El corredor nunca miró por encima del hombro, una acción específica que solicité. El audio también era un desastre. El único sonido que estaba bien era la respiración pesada del corredor. El resto de los sonidos del mercado eran demasiado distantes y silenciosos, cuando deberían haber sido una cacofonía cercana e inmersiva. Los letreros eran una mezcla de tailandés y chino, haciendo que se sintiera como un genérico "mercado asiático" en lugar de específicamente Bangkok. Este simplemente gritaba "generado por AI".
Lo que me gustó
Lo que no me gustó
El sonido de la respiración del corredor era realista
Se agregaron diálogos y efectos de sonido no deseados
La sensación de cámara en mano estaba algo presente
La multitud era estática y completamente irrealista
La iluminación y los colores del mercado eran vibrantes
El escenario se sentía genérico, no específico de Bangkok


La función que lo cambia todo: Audio nativo y sincronización labial

A pesar de los resultados inconsistentes en mis cuatro pruebas, el éxito del Prompt #1 realmente resalta por qué Veo 3 está recibiendo tanta atención. La calidad de la sincronización labial es donde genuinamente brilla. Cuando funciona, como lo hizo en mi prueba de la historiadora, el resultado es lo suficientemente convincente como para confundirlo con metraje real. El modelo no solo combina los movimientos de la boca con las palabras; genera patrones naturales de habla con inflexiones, pausas y énfasis. También toma decisiones creativas sobre el audio, como elegir música de fondo en lugar de ruido ambiental cuando sirve mejor a la escena. Ese tipo de inteligencia contextual de audio es lo que marca la diferencia entre un clip que parece generado por AI y uno que realmente se sostiene.


Las partes molestas: Límites diarios, renderizado lento y fallas extrañas

Aquí es donde tengo que ser honesto sobre las frustraciones, porque hubo varias.
Los límites diarios de generación fueron un problema real. Después de generar solo dos videos en el plan Google AI Plus, choqué contra una pared. Apareció este mensaje.
Captura de pantalla del mensaje de límite diario alcanzado

Aquí es donde el lenguaje vago de "más acceso" y "mayor acceso" en las páginas de los planes se convierte en un problema real. Tuve que actualizar nuevamente a Google AI Pro para continuar con mis pruebas. Eso son dos actualizaciones pagadas solo para ejecutar cuatro prompts.
Y luego están las fallas. El rostro distorsionado en el reflejo del casco del astronauta, el planeta extra en el cielo, el diálogo agregado en la escena del mercado de Bangkok. Estos son los tipos de artefactos visuales y de audio que pueden hacer que un resultado por lo demás impresionante sea completamente inutilizable si lo que buscas es realismo. Las limitaciones de Veo 3 como estas vale la pena tenerlas en cuenta antes de comprometerse con un plan pagado.


¿Vale la pena el precio de Google Veo 3? Mi veredicto honesto

Después de estas rondas de pruebas, aquí es donde me ubico sobre si Google Veo 3 vale la pena.
Para contenido con mucho diálogo, específicamente videos de cabezas parlantes, entrevistas estilo documental o cualquier escena donde un personaje habla directamente a la cámara, Veo 3 es una de las mejores herramientas disponibles en este momento. La calidad de la sincronización labial y la generación natural del habla son genuinamente impresionantes y difíciles de igualar. Si ese es tu caso de uso principal, el plan Google AI Pro a $19.99 al mes es una inversión razonable.
Para todo lo demás, es más una apuesta. La prueba de demostración de producto fue decepcionante, la secuencia de acción fue un desastre, y la prueba cinematográfica tuvo una falla que hizo que el resultado fuera inutilizable. Los límites diarios son frustrantes, especialmente en los planes de nivel inferior, y los tiempos de renderizado ralentizan las cosas. Si eres un creador independiente experimentando con video AI, vale la pena probarlo. Si eres una agencia o equipo de producción que necesita resultados consistentes y confiables a escala, las limitaciones podrían superar los beneficios por ahora.
En resumen: Veo 3 es genuinamente impresionante en las condiciones adecuadas, pero aún no es el generador de video confiable y de uso general que sugieren las demos. Es una herramienta poderosa con un punto óptimo específico, y conocer ese punto óptimo antes de suscribirte te ahorrará mucha frustración.


Cómo Manus puede potenciar tu flujo de trabajo de video con AI

Generar clips es solo una parte del proceso. Un proyecto de video terminado requiere generar ideas, escribir guiones y prompts, organizar recursos y crear el contenido circundante: las publicaciones de blog, los pies de página de redes sociales y las descripciones de video que realmente hacen que se vea tu contenido. Ahí es donde entra Manus.
Usé Manus a lo largo de este proceso de revisión: para planificar mi enfoque de prueba, estructurar los cuatro prompts, y consolidar mis notas y hallazgos en algo coherente antes de escribir. Tener una herramienta que te ayude a organizar tu pensamiento antes de poner palabras en una página marca una diferencia real, especialmente cuando estás haciendo malabares con múltiples resultados de pruebas y tratando de compararlos de manera justa. Si estás construyendo un flujo de trabajo de contenido de video, vale la pena tener un Agent de AI de tu lado para el trabajo circundante. Puedes probar Manus gratis en manus.im.


Preguntas frecuentes

¿Cómo puedo obtener acceso a Google Veo 3?

Puedes acceder a Google Veo 3 a través de la app de Gemini suscribiéndote a uno de los planes pagados de AI de Google. El plan Google AI Plus ($7.99/mes) ofrece acceso limitado, mientras que el plan Google AI Pro ($19.99/mes) desbloquea la generación de video con Veo 3.1 Fast. El acceso completo con los límites más altos está disponible en el plan Google AI Ultra ($249.99/mes).

¿Hay una versión gratuita de Google Veo 3?

No hay una versión gratuita dedicada de Veo 3. El plan gratuito de Google AI tiene un acceso muy limitado y no admite la generación directa de video a través de la app de Gemini. Los usuarios gratuitos pueden tener acceso limitado a través de Google Flow, pero para la generación práctica de video necesitarás un plan pagado.

¿Cuáles son las limitaciones de Google Veo 3?

Las principales limitaciones de Veo 3 incluyen límites diarios de generación (incluso en planes pagados), tiempos de renderizado lentos de aproximadamente 3-5 minutos por clip, una duración máxima de video de 8 segundos, fallas visuales ocasionales e inconsistencias, y dificultad con escenas complejas de múltiples elementos. La consistencia de objetos en planos de productos y el comportamiento del personaje en secuencias de acción también son áreas donde puede quedarse corto.

¿Puede Google Veo 3 crear videos de más de 8 segundos?

No, la versión actual de Google Veo 3 genera clips de hasta 8 segundos de duración. Para contenido más largo, necesitarías generar múltiples clips y editarlos juntos en una herramienta como Google Flow o un editor de video estándar.

¿Es Google Veo 3 mejor que Sora de OpenAI?

Depende de lo que necesites. Veo 3 tiene una clara ventaja en realismo de diálogo y sincronización labial, lo que lo convierte en la mejor opción para contenido de cabezas parlantes o estilo entrevista. Sora 2 generalmente funciona mejor para escenas narrativas más largas y tiene un comportamiento de personaje más consistente en prompts complejos. Para la mayoría de los creadores, la elección se reduce a tu caso de uso principal.

Descarga la aplicación de escritorio y móvil

Accede a Manus en cualquier momento y lugar.

Descarga la aplicación de escritorio y móvil de Manus
    Probé Google Veo 3 y aquí está mi reseña honesta