SUSCRÍBETE
Diario Expreso Ecuador

Gemini Omni: Así es el nuevo modelo de IA de Google que edita y crea videos

El motor multimedia permite combinar texto, imágenes y audio para generar escenas hiperrealistas que pueden modificarse paso a paso

Presentación oficial de Gemini Omni

Presentación oficial de Gemini OmniLa Razón

Publicado por

Creado:

Actualizado:

Lo que debes saber

  • Este modelo responde a un desarrollo nativo que permite a la IA asimilar el entorno físico, simulando la lógica y las dinámicas del mundo real.
  • Omni se construye sobre los cimientos de Nano Banana, el proyecto lanzado por Google el año pasado para revolucionar la generación y edición de imágenes estáticas.

En el marco de su conferencia anual para desarrolladores Google I/O, el gigante tecnológico oficializó el lanzamiento de Gemini Omni, una nueva familia de modelos de inteligencia artificial nativamente multimodales que fusiona la capacidad de razonamiento lógico de la compañía con la generación avanzada de contenidos multimedia, en una estrategia que busca reemplazar a Google Veo, para dar inicio a una experiencia completamente interactiva.

Durante la presentación inaugural, los directivos de Google explicaron que el objetivo a largo plazo de esta arquitectura es ser capaz de procesar cualquier tipo de instrucción de entrada para generar cualquier modalidad de salida, iniciando su despliegue enfocado principalmente en la producción y edición de video de alta calidad.

" data-youtube-vid="" src="https://www.youtube.com/embed/" width="100%" frameborder="0" allowfullscreen>

¿Cómo funciona Gemini Omni?

A diferencia de las herramientas convencionales de texto a video que requieren volver a formular el código de la imagen desde cero ante cualquier error, Gemini Omni opera bajo un concepto denominado "world model" (modelo de mundo). Este procesa simultáneamente múltiples formatos: textos, pistas de audio, videos o hasta cinco fotografías de referencia; para unificarlos en una sola pieza de video coherente.

Lo cierto es que, la tecnología clave de Omni radica en su capacidad para calcular fuerzas físicas subyacentes, tales como la gravedad, la energía cinética y la dinámica de fluidos. Esto asegura que los movimientos de agua, caídas de objetos o desplazamientos de cámara luzcan naturales y fluidos.

Edición interactiva y creación de Avatares

La principal ventaja narrativa de este modelo es la edición conversacional encadenada; un usuario puede cargar una filmación propia o un clip generado previamente y solicitar modificaciones específicas utilizando lenguaje natural.

Al recordar el contexto de los turnos previos del chat, el sistema permite alterar el vestuario de un sujeto, modificar las condiciones de iluminación o transformar un fondo diurno en un paisaje nocturno sin perder la consistencia del personaje original ni los ángulos de la toma.

Por otro lado, la plataforma introduce la función de avatares de IA, esta herramienta opcional consiente a los creadores de contenido configurar una réplica digital segura basada en su propia apariencia física y registro de voz. El propósito es permitir la producción de metrajes narrados por el usuario de forma automatizada, agilizando los flujos de trabajo en plataformas digitales sin necesidad de grabaciones físicas recurrentes.

Disponibilidad y seguridad en el despliegue

El primer integrante de esta familia tecnológica en liberarse al mercado es Gemini Omni Flash. Su distribución se ha estructurado en tres niveles de acceso inmediatos:

En esta primera fase de despliegue, el sistema solo acepta pistas de voz humana como referencia de audio para las instrucciones

En esta primera fase de despliegue, el sistema solo acepta pistas de voz humana como referencia de audio para las instruccionesGoogle

  • Usuarios Premium: Los suscriptores de los planes Google AI Plus, Pro y Ultra ya disponen del modelo integrado de forma nativa en la aplicación web de Gemini y dentro del entorno colaborativo Google Flow.
  • Público General y Creadores: El acceso gratuito se habilitará de forma progresiva a lo largo de la semana, implementándose directamente en las funciones de creación de YouTube Shorts y en la suite de edición YouTube Create.
  • Desarrolladores y Empresas: En las próximas semanas se abrirán las interfaces de programación de aplicaciones (APIs) para clientes corporativos que busquen integrar este motor en entornos externos.

Ante los riesgos de desinformación o suplantación de identidad mediante deepfakes, Google aclaró que mantendrá ciertas restricciones geográficas en funciones de voz avanzadas mientras concluye fases de prueba adicionales.

Asimismo, todo metraje generado o editado bajo este entorno llevará integrado de forma obligatoria SynthID, una marca de agua digital imperceptible para el ojo humano desarrollada por DeepMind. Dicho sello permitirá el rastreo y la verificación de la autenticidad del archivo mediante herramientas de inspección en el Buscador de Google, Chrome y la propia aplicación de Gemini.

tracking