Google anunció una de sus actualizaciones más importantes en su aplicación Gemini: ahora puedes subir hasta tres imágenes de referencia visuales (fotografías) para guiar la generación de video con su modelo Veo 3.1. Se trata de su nueva funcionalidad, conocida como “Ingredients to Video”, que simplifica la creación de clips, además de que da un control creativo mucho más preciso.

Over 100 Pocket FM creators use Veo 3.1 a week because of its lifelike lip-sync and cinematic quality.



The impact: Drives 30-40% uplifts in user retention and brings acquisition results at par with live action promos across @PocketFM_App's flagship shows. pic.twitter.com/0oHKIpqTiy — Google Cloud (@googlecloud) November 17, 2025

¿Qué son estos “ingredientes visuales” y para qué sirven?

Con estas imágenes de referencia, “ingredientes visuales” en Google Gemini, puedes definir:

Precisión en los personajes

El modelo mantiene la apariencia constante de un personaje en diferentes escenas o tomas.

Estilo visual

Gracias a esta función podrás aplicar texturas, iluminación o estilos artísticos particulares, tomados de tus fotos, para que todo el video comparta la misma estética.

Construcción del mundo

Si cuentas con un entorno o temática específica, puedes asegurar que tanto los objetos, como los fondos y todas las escenas coincidan con tus imágenes de referencia.

Cabe decir que este sistema no solo da más control creativo, sino que también reduce la necesidad de escribir prompts largos o que sean tan detallados.

Our most anticipated launch of the year is here.



- Gemini 3, our most intelligent model



- Generative interfaces, for perfectly designed responses



- Gemini Agent, made to complete complex tasks on your behalf



See how Gemini 3 can help you learn, build & plan anything 🧵 — G3mini (@GeminiApp) November 18, 2025

¿Cómo funciona la generación de video en Gemini?

Al abrir la app Google Gemini, vas a Herramientas y seleccionas la opción Video. Subes hasta tres imágenes (pueden ser personajes, objetos o escenas). Añade una descripción de la escena, además de instrucciones de audio (por ejemplo: “ambiente urbano”, “olas suaves”, “conversación”, ect.”) En segundos, la Inteligencia Artificial de Google te va a generar un video de unos 8 segundos, en calidad de 720p, con audio sincronizado.

¿Quién puede usar esta función de Gemini y desde cuándo?

La función se está desplegando desde hoy en la app Gemini para usuarios con suscripciones Google AI Plus, Pro y Ultra. En estas versiones, se verá claramente qué modelo de video se usa, que en este caso, se usa Veo 3.1.

Conforme a Google, todos los videos generados incluirán una marca de agua visible para indicar que fueron creados por IA, así como una marca digital invisible usando SynthID, lo cual ayuda a la trazabilidad y autenticidad.

¿Qué aporta Veo 3.1 frente a versiones anteriores?

Esta actualización de Veo 3.1, mejora la calidad del video en varios frentes, ya que presenta un audio más enriquecido y natural (con diálogos, sonidos ambientales y efectos), un mejor control narrativo, además de una capacidad más precisa para respetar los “ingredientes visuales” que subas.

Además de que ofrece funciones adicionales desde su API, como “extensión de escena” (para generar video más largo) o transiciones entre un primer y un último fotograma usando imágenes de referencia.

Cabe señalar que esta nueva herramienta es de pago, lo que limita su acceso a suscriptores de ciertos planes. Está disponible solo en algunas regiones, no completamente en todo el mundo. Aunque permite subir imágenes, Google indica que se han tomado medidas de seguridad: hay controles para contenido inseguro y limitaciones para evitar mal uso.

Con esta novedad, Google Gemini refuerza su apuesta por la creatividad asistida por IA, dándole más poder al usuario para definir cómo quiere que sus imágenes cobren vida en video; ¿crees que esta función cambiará la forma en la que se crean contenidos visuales con IA?