Las máquinas desarrollan ‘ojos’ humanos

Las maquinas desarrollan ‘ojos’ humanos

Se trata de Generative Query Network y ha sido creado por expertos de Google DeepMind.

Uno de los grandes retos de la inteligencia artificial es el de desenvolverse en un entorno natural, más allá de instrucciones precisas y situaciones controladas.

Por ejemplo, un brazo robótico necesita condiciones muy concretas para poder desarrollar su tarea. No es capaz de observar el entorno, deducir si se ha producido un cambio sustancial y adaptarse a él.

Entonces la Ciencia ha querido dar un salto y permitirle a las computadoras de alguna forma ser más autónomas. Es así que ha desarrollado un sistema de aprendizaje automático que permite “observar” una escena desde varios ángulos y deducir cómo sería esta desde otra perspectiva, lo que puede sentar las bases para crear máquinas capaces de aprender del mundo sin ayuda humana.

Un estudio publicado en Science esta semana presentó a Generative Query Network (red generadora de búsqueda ) el sistema creado por expertos de Google DeepMind que es tan elegante como complejo: su máquina solo ve un par de fotos en dos dimensiones de la escena y, a partir de ahí, es capaz de hacerse una composición de lugar en 3D de todo el paisaje. Al ver una estancia en la que un cubo rojo tapa por delante a una bola verde, este programa logra imaginar que, desde el lado opuesto de la sala, es la bola verde la que apenas deja ver al cubo rojo.

“En este trabajo hemos demostrado que una sola arquitectura neuronal puede aprender a percibir, interpretar y representar escenas sintéticas sin ningún etiquetado humano de los contenidos de estas escenas”, explican los investigadores de DeepMind.

La máquina absorbe todos los detalles estadísticamente significativos, como patrones habituales, texturas, colores y simetrías comunes para concentrar toda su capacidad en realizar una descripción concisa y abstracta de la escena. Así la máquina es capaz de inferir la composición general, en lugar de perderse en innumerables detalles concretos. Además, aprende este comportamiento por sí mismo y de una forma que le permite aplicarlo en cualquier entorno, sin ninguna especificación previa de las leyes de perspectiva o de iluminación, como sucedería con un humano.

Este trabajo también tiene limitaciones, entre ellas que sus experimentos se limitan a simples escenas en 3D con unos pocos objetos geométricos básicos. Por esto no queda claro hasta qué punto su enfoque podría llegar a comprender los entornos complejos del mundo real. En cualquier caso, esta nueva técnica introduce una serie de contribuciones cruciales que probablemente lo harán posible en el futuro.