VOID: la inteligencia artificial de Netflix que puede eliminar objetos en videos de forma realista
La herramienta no solo elimina elementos, sino que recrea el entorno con coherencia física, abriendo nuevas posibilidades en la edición audiovisual

La herramienta utiliza modelos de difusión y datos sintéticos para aprender cómo se comportan los objetos cuando cambia una escena.
Lo que debes saber
- Netflix presentó VOID (Video Object and Interaction Deletion) como su primer modelo de inteligencia artificial aplicado a edición de video.
- A diferencia de herramientas tradicionales, VOID no solo elimina objetos o personas, sino que reconstruye la escena considerando interacciones físicas.
- El sistema funciona en tres etapas: creación de máscara, generación del video modificado y refinamiento del resultado.
En medio de la carrera global por desarrollar inteligencia artificial aplicada al entretenimiento, Netflix ha dado un paso poco habitual para una plataforma de streaming: presentar su propio modelo de IA de código abierto. Se trata de la "eliminación de objetos e interacciones de vídeo", VOID por sus siglas en inglés, una herramienta diseñada para modificar videos de forma avanzada, eliminando objetos o personas sin dejar rastros evidentes.
Economía y negocios
Quienes consumieron más de $5.188,26 en el extranjero con tarjetas, deberán pagar el ISD este mes
Vanessa López
A diferencia de los sistemas tradicionales de edición, que suelen "borrar" elementos dejando inconsistencias visuales, VOID introduce un enfoque más complejo: reconstruir la escena como si ese elemento nunca hubiera existido. Esto implica no solo rellenar el espacio vacío, sino reinterpretar las interacciones físicas dentro del video; en términos prácticos, la tecnología no edita imágenes, sino que intenta entender cómo funciona el mundo dentro de ellas, algo que marca una diferencia clave frente a otras soluciones actuales.
¿Cómo funciona VOID?
El sistema desarrollado por Netflix opera a través de un proceso en tres etapas que combina segmentación, generación de video y refinamiento. Cada una de estas fases permite que la eliminación de un objeto no rompa la lógica visual ni física de la escena.

Modelo de funcionamiento de VOID.
1. Creación de la máscara de edición
El primer paso consiste en identificar qué partes del video deben modificarse. Para ello, VOID genera una máscara frame a frame que clasifica la imagen en distintas zonas: áreas que se mantienen intactas, el objeto que será eliminado y regiones cercanas que podrían verse afectadas por su ausencia.
Este proceso no es manual, pues el sistema utiliza modelos de segmentación para detectar automáticamente los elementos, mientras que otras redes amplían la zona de afectación, anticipando qué partes del entorno cambiarían si ese objeto desaparece. Por ejemplo, si se elimina una persona que sostiene un objeto, la máscara también marcará ese objeto como afectado.
2. Modificación del video con IA generativa
Una vez definida la máscara, entra en juego el modelo generativo. En esta fase, VOID reconstruye el video eliminando el elemento seleccionado y recalculando lo que debería ocurrir en su ausencia.
Aquí está una de sus diferencias clave: no se limita a "rellenar" el fondo, sino que simula nuevas condiciones físicas. Por ejemplo, si en una escena dos autos chocan y se elimina uno de ellos, el sistema no dejará al otro estrellándose contra la nada; en cambio, interpretará que el impacto nunca ocurrió y ajustará el movimiento del vehículo para que continúe su trayectoria de forma natural.
Para lograr esto, el modelo fue entrenado con datos sintéticos que muestran escenas con y sin determinados elementos, lo que le permite aprender cómo cambian las interacciones dentro de un entorno.
3. Refinamiento y corrección del resultado
El último paso busca mejorar la calidad visual del video generado. Tras la reconstrucción inicial, pueden aparecer deformaciones o inconsistencias en objetos que permanecen en la escena.
Para corregirlo, VOID utiliza un segundo modelo que analiza el video original, el editado y el movimiento de los elementos (flujo óptico), con el fin de ajustar detalles como formas, sombras y continuidad visual. Aunque el resultado aún no es perfecto, este refinamiento permite acercarse a una edición mucho más realista que las herramientas tradicionales.
Entretenimiento
Comic Con Ecuador celebra su décima edición con las voces originales de 'Guerreras K-pop'
Valeria Alvear
¿Qué beneficios aporta esta tecnología?
Lo cierto es que, el desarrollo de VOID no solo representa un avance técnico, sino también una oportunidad estratégica para Netflix dentro de la industria audiovisual.
En primer lugar, permite reducir costos de producción: con una herramienta capaz de modificar escenas ya grabadas, sería posible ajustar errores, eliminar elementos no deseados o incluso alterar partes de una historia sin necesidad de volver a rodar. Esto abre la puerta a una postproducción mucho más flexible.

La herramienta podría implicar una postproducción más ligera en el futuro cercano de la plataforma.
Además, la tecnología introduce nuevas posibilidades en términos de personalización del contenido. Al poder modificar elementos dentro de un video, Netflix podría adaptar detalles específicos según el espectador, desde objetos hasta contextos visuales, lo que tendría implicaciones directas en modelos de negocio como la publicidad integrada.
Por otro lado, el hecho de que VOID sea de código abierto posiciona a la compañía dentro del ecosistema tecnológico más allá del entretenimiento. Al liberar esta herramienta en plataformas como GitHub o Hugging Face, Netflix no solo impulsa la investigación en inteligencia artificial, sino que también atrae a desarrolladores que podrían mejorar o expandir sus capacidades.
En conjunto, VOID representa un paso hacia una nueva etapa en la edición audiovisual: una en la que las imágenes no solo se modifican, sino que se reconstruyen bajo nuevas reglas físicas, redefiniendo lo que significa "editar" un video.