Noticias sobre salud y tecnología en Colombia y el mundo

Encuentre todo sobre el panorama actual sobre salud y tecnología.

Tuesday, 31 July 2018 10:48

¿Por qué los computadores son tan malos comparando objetos? Conozca la respuesta

Escrito por Heon Health On line
Valora este artículo
(0 votos)

Una nueva investigación arroja luz sobre por qué los ordenadores son tan malos en una clase de tareas con las que ni siquiera los niños pequeños tienen problemas: determinar si dos objetos de una imagen son iguales o diferentes.

Los algoritmos de visión por computador han avanzado mucho en la última década. Estos desarrollos han demostrado ser tan buenos o mejores que la gente en tareas como categorizar razas de perros o gatos, y tienen la notable habilidad de identificar caras específicas de un mar de millones.

En un documento que presentaron la semana pasada en la reunión anual de la Sociedad de Ciencias Cognitivas, el equipo examina por qué los algoritmos de visión por computador fallan en las tareas de comparación y sugiere vías hacia sistemas más inteligentes.

Esto vs. aquello

"Hay mucho entusiasmo acerca de lo que la visión por computador ha sido capaz de lograr, y comparto mucho de eso", dice Thomas Serre, profesor asociado de ciencias cognitivas, lingüísticas y psicológicas en la Universidad de Brown y autor principal del documento. "Pero creemos que trabajando para entender las limitaciones de los sistemas de visión por computador actuales, como lo hemos hecho aquí, podemos realmente avanzar hacia nuevos sistemas mucho más avanzados en lugar de simplemente ajustar los sistemas que ya tenemos".

Para el estudio, Serre y sus colegas usaron algoritmos de visión computarizada de avanzada para analizar imágenes simples en blanco y negro que contenían dos o más formas generadas aleatoriamente. En algunos casos los objetos eran idénticos; a veces eran los mismos, pero con un objeto girado en relación con el otro; a veces los objetos eran completamente diferentes. Se le pidió a la computadora que identificara la misma o diferente relación.

El estudio mostró que, incluso después de cientos de miles de ejemplos de entrenamiento, los algoritmos no eran mejores que la oportunidad de reconocer la relación apropiada. La pregunta, entonces, era por qué estos sistemas son tan malos en esta tarea.

Serre y sus colegas sospecharon que tiene algo que ver con la incapacidad de estos algoritmos de visión por computador para individuar objetos. Cuando los equipos miran una imagen, en realidad no pueden saber dónde se detiene un objeto de la imagen y comienza el fondo u otro objeto. Sólo ven una colección de píxeles que tienen patrones similares a las colecciones de píxeles que han aprendido a asociar con ciertas etiquetas.

Esto funciona bien para problemas de identificación o categorización, pero se rompe al tratar de comparar dos objetos.

Uno a la vez

Para demostrar que esto era realmente la razón por la que los algoritmos se estaban rompiendo, Serre y su equipo realizaron experimentos que aliviaron al ordenador de tener que individuar objetos por sí mismo. En lugar de mostrarle al ordenador dos objetos en la misma imagen, los investigadores le mostraron los objetos uno a la vez en imágenes separadas.

Los experimentos mostraron que los algoritmos no tenían problemas para aprender relaciones iguales o diferentes siempre y cuando no tuvieran que ver los dos objetos en la misma imagen.

La fuente del problema en la individuación de objetos, dice Serre, es la arquitectura de los sistemas de aprendizaje automático que potencian los algoritmos.

Los algoritmos utilizan redes neuronales convolucionales: capas de unidades de procesamiento conectadas que imitan vagamente redes de neuronas en el cerebro. Una diferencia clave con respecto al cerebro es que las redes artificiales son exclusivamente "feed-forward", lo que significa que la información tiene un flujo unidireccional a través de las capas de la red. Así no es como funciona el sistema visual en los humanos, según Serre.

"Si observamos la anatomía de nuestro propio sistema visual, nos damos cuenta de que hay muchas conexiones recurrentes, en las que la información va de un área visual más alta a un área visual más baja y de vuelta a través de ella", dice Serre.

Aunque no está claro exactamente qué es lo que hacen esas retroalimentaciones, dice Serre, es probable que tengan algo que ver con nuestra capacidad para prestar atención a ciertas partes de nuestro campo visual y hacer representaciones mentales de objetos en nuestras mentes.

"Presumiblemente la gente atiende a un objeto, construyendo una representación de la característica que está ligada a ese objeto en su memoria de trabajo", dice Serre. "Luego cambian su atención a otro objeto. Cuando ambos objetos están representados en la memoria de trabajo, su sistema visual es capaz de hacer comparaciones como si fueran iguales o diferentes".

Serre y sus colegas plantean la hipótesis de que la razón por la que las computadoras no pueden hacer algo así es porque las redes neuronales de retroalimentación no permiten el tipo de procesamiento recurrente requerido para esta individuación y representación mental de los objetos. Podría ser, dice Serre, que para hacer más inteligente la visión por computador se necesitarán redes neuronales que se aproximen más a la naturaleza recurrente del procesamiento visual humano.

Los experimentos mostraron que los algoritmos no tenían problemas para aprender relaciones iguales o diferentes siempre y cuando no tuvieran que ver los dos objetos en la misma imagen.
La fuente del problema en la individuación de objetos, dice Serre, es la arquitectura de los sistemas de aprendizaje automático que potencian los algoritmos.

Los algoritmos utilizan redes neuronales convolucionales: capas de unidades de procesamiento conectadas que imitan vagamente redes de neuronas en el cerebro. Una diferencia clave con respecto al cerebro es que las redes artificiales son exclusivamente "feed-forward", lo que significa que la información tiene un flujo unidireccional a través de las capas de la red. Así no es como funciona el sistema visual en los humanos, según Serre.

"Si observamos la anatomía de nuestro propio sistema visual, nos damos cuenta de que hay muchas conexiones recurrentes, en las que la información va de un área visual más alta a un área visual más baja y de vuelta a través de ella", dice Serre.

Aunque no está claro exactamente qué es lo que hacen esas retroalimentaciones, dice Serre, es probable que tengan algo que ver con nuestra capacidad para prestar atención a ciertas partes de nuestro campo visual y hacer representaciones mentales de objetos en nuestras mentes.

"Presumiblemente la gente atiende a un objeto, construyendo una representación de la característica que está ligada a ese objeto en su memoria de trabajo", dice Serre. "Luego cambian su atención a otro objeto. Cuando ambos objetos están representados en la memoria de trabajo, su sistema visual es capaz de hacer comparaciones como si fueran iguales o diferentes".

Serre y sus colegas plantean la hipótesis de que la razón por la que las computadoras no pueden hacer algo así es porque las redes neuronales de retroalimentación no permiten el tipo de procesamiento recurrente requerido para esta individuación y representación mental de los objetos. Podría ser, dice Serre, que para hacer más inteligente la visión por computador se necesitarán redes neuronales que se aproximen más a la naturaleza recurrente del procesamiento visual humano.

Visto 1080 veces Modificado por última vez en Tuesday, 31 July 2018 11:28