¿Puede la inteligencia artificial distinguir una tetera de una pelota de golf?

¿Qué tan inteligente es la forma de inteligencia artificial conocida como redes de computadoras de aprendizaje profundo, y qué tanto imitan estas máquinas al cerebro humano? Han mejorado mucho en los últimos años, pero todavía tienen un largo camino por recorrer, según informa un equipo de psicólogos cognitivos de UCLA en la revista PLOS Computational Biology .

Los partidarios han expresado entusiasmo por el uso de estas redes para realizar muchas tareas individuales, e incluso trabajos, tradicionalmente realizados por personas. Sin embargo, los resultados de los cinco experimentos en este estudio mostraron.

Que es fácil engañar a las redes, y el método de las redes para identificar objetos utilizando la visión por computadora difiere sustancialmente de la visión humana.

«Las máquinas tienen graves limitaciones que debemos comprender», dijo Philip Kellman, un distinguido profesor de psicología de la UCLA y autor principal del estudio. «Estamos diciendo: ‘Espera, no tan rápido'».

La visión artificial, dijo, tiene inconvenientes. En el primer experimento, los psicólogos mostraron una de las mejores redes de aprendizaje profundo, llamada VGG-19, imágenes en color de animales y objetos. Las imágenes habían sido alteradas.

Por ejemplo, la superficie de una pelota de golf se mostraba en una tetera; Se colocaron rayas de cebra sobre un camello; y el patrón de un calcetín de argyle azul y rojo se mostró en un elefante.

VGG-19 clasificó sus mejores opciones y eligió el artículo correcto como su primera opción para solo cinco de 40 objetos.

«Podemos engañar a estos sistemas artificiales con bastante facilidad», dijo el coautor Hongjing Lu, profesor de psicología de la UCLA. «Sus mecanismos de aprendizaje son mucho menos sofisticados que la mente humana».

VGG-19 pensó que había un 0% de probabilidad de que el elefante fuera un elefante y solo un 0,41% de probabilidad de que la tetera fuera una tetera.

Su primera opción para la tetera fue una pelota de golf, que muestra que la red de inteligencia artificial analiza la textura de un objeto más que su forma, dijo el autor principal Nicholas Baker, un estudiante graduado de psicología de UCLA.

«Es absolutamente razonable que suba la pelota de golf, pero es alarmante que la tetera no aparezca en ninguna de las opciones», dijo Kellman. «No está tomando forma».

Los humanos identifican objetos principalmente por su forma, dijo Kellman. Los investigadores sospecharon que las redes de computadoras estaban usando un método diferente.

En el segundo experimento, los psicólogos mostraron imágenes de figurillas de vidrio a VGG-19 y a una segunda red de aprendizaje profundo, llamada AlexNet. VGG-19 se desempeñó mejor en todos los experimentos en los que se probaron ambas redes.

Ambas redes fueron entrenadas para reconocer objetos usando una base de datos de imágenes llamada ImageNet.

Sin embargo, a ambas redes les fue mal, al no poder identificar las figuras de vidrio. Ni VGG-19 ni AlexNet identificaron correctamente las figuras como sus primeras elecciones.

Una estatuilla de elefante fue clasificada con casi un 0% de probabilidad de ser un elefante por ambas redes. La mayoría de las respuestas principales fueron desconcertantes para los investigadores, como la elección del «sitio web» de VGG-19 para «ganso» y «el abrelatas» para el «oso polar».

En promedio, AlexNet clasificó la respuesta correcta en el lugar 328 de cada 1,000 opciones.

«Las máquinas cometen errores muy diferentes de los humanos», dijo Lu.

En el tercer experimento, los investigadores mostraron 40 dibujos delineados en negro, con imágenes en blanco, tanto para VGG-19 como para AlexNet.

Estos tres primeros experimentos tenían como objetivo descubrir si los dispositivos identificaban los objetos por su forma.

Las redes nuevamente hicieron un mal trabajo al identificar artículos como una mariposa, un avión y un plátano.

El objetivo de los experimentos no fue engañar a las redes, sino aprender si identifican objetos de manera similar a los humanos, o de una manera diferente, dijo el coautor Gennady Erlikhman, un erudito postdoctoral de UCLA en psicología.

En el cuarto experimento, los investigadores mostraron ambas redes 40 imágenes, esta vez en negro sólido.

Con las imágenes en negro, las redes obtuvieron mejores resultados, produciendo la etiqueta de objeto correcta entre sus cinco mejores opciones para aproximadamente el 50 por ciento de los objetos.

VGG-19, por ejemplo, clasificó un ábaco con un 99,99 por ciento de probabilidad de ser un ábaco y un cañón con un 61 por ciento de probabilidad de ser un cañón.

En contraste, VGG-19 y AlexNet pensaron que había menos del 1% de probabilidad de que un martillo blanco (delineado en negro) fuera un martillo.

Los investigadores creen que las redes funcionaron mucho mejor con los objetos negros porque los elementos carecen de lo que Kellman llama «contornos internos», bordes que confunden a las máquinas.

En el experimento cinco, los investigadores mezclaron las imágenes para hacerlas más difíciles de reconocer, pero conservaron partes de los objetos. Los investigadores seleccionaron seis imágenes que la red VGG-19 acertó originalmente y las mezclaron.

Los humanos encontraron estos difíciles de reconocer. VGG-19 acertó cinco de las seis imágenes y estuvo cerca de la sexta.

Como parte del quinto experimento, los investigadores evaluaron a los estudiantes de pregrado de UCLA, además de VGG-19. A diez estudiantes se les mostraron objetos en siluetas negras: algunos revueltos para ser difíciles de reconocer y algunos descifrados, algunos objetos por solo un segundo, y algunos durante el tiempo que los estudiantes quisieran verlos.

Los estudiantes identificaron correctamente el 92 por ciento de los objetos no encriptados y el 23 por ciento de los revueltos con solo un segundo para verlos. Cuando los estudiantes pudieron ver las siluetas durante todo el tiempo que quisieron, identificaron correctamente el 97 por ciento de los objetos no encriptados y el 37 por ciento de los objetos revueltos.

¿Qué conclusiones sacan los psicólogos?

Los seres humanos ven el objeto completo, mientras que las redes de inteligencia artificial identifican fragmentos del objeto.

«Este estudio muestra que estos sistemas obtienen la respuesta correcta en las imágenes en las que fueron entrenados sin tener en cuenta la forma», dijo Kellman. «Para los humanos, la forma general es primordial para el reconocimiento de objetos, y la identificación de imágenes por forma general no parece estar en estos sistemas de aprendizaje profundo en absoluto».

Hay docenas de máquinas de aprendizaje profundo, y los investigadores creen que sus hallazgos se aplican ampliamente a estos dispositivos.

Leave a Reply