MIT retira base de datos para entrenar IA con términos misóginos y racistas

Ciudad de México, 03-07-2020 |

El set de datos contenía imágenes de personas de piel oscura y de ascendencia asiática etiquetada con términos racistas

El Instituto Tecnológico de Massachusetts (MIT) retiró una base de datos –ampliamente utilizada para entrenar inteligencias artificiales en el reconocimiento de gente y objetos en imágenes– por contener términos racistas y misóginos. Este set, creado en 2006 y retirado el 29 de junio de 2020, contenía 80 mil imágenes y 53 mil 464 sustantivos copiados directamente de la base de datos léxica WordNet.

A diferencia de otras bases de datos, el corpus del MIT no se había sometido a escrutinio hasta ahora. Vinay Prabhu, científico de UnifyID, una startup de privacidad en Silicon Valley, y Abeba Birhane, candidata a doctorado en la Universidad Colegio de Dublín, encontraron varias imágenes del set de personas negras y asiáticas con etiquetas racistas, así como imágenes de genitales femeninos etiquetadas con términos ofensivos. Los expertos han publicado sus hallazgos en un trabajo que será revisado por pares para participar en un conferencia sobre computación en 2021.

#Internacional | Empresas y organizaciones se suman al boicot en contra de Facebook debido al manejo de mensajes de odio contra la comunidad afroamericana

➔ https://t.co/KRlXgQV8VM pic.twitter.com/32HDTbAjzH
— My Press (@mypress_mx) June 30, 2020

Según reportan, el problema con estos etiquetados dentro del set del MIT es que ha sido utilizado para entrenar redes neuronales y enseñar a estos sistemas a asociar imágenes con palabras; en consecuencia, se está enseñando a la inteligencia artificial (IA) a ser racista y sexista. Esto podría resultar, por ejemplo, en un chatbot con respuestas misóginas o en software de reconocimiento facial con prejuicios raciales.

Esta última problemática ha sido frecuentemente señalada por activistas, pues abundan los casos de arrestos de afroamericanos por falsos positivos al utilizar esta tecnología. Recientemente, en el contexto de las protestas por la violencia racial y la brutalidad policíaca en Estados Unidos, empresas como Amazon e IBM han anunciado la suspensión de sus servicios de reconocimiento de rostros para las corporaciones judiciales.

#Internacional | Gracias a pruebas gratuitas, se comprueba que hay pocos contagios durante marchas del movimiento #BlackLivesMatter

➔ https://t.co/XmyjlHxA4I pic.twitter.com/WRtnbLeEXA
— My Press (@mypress_mx) June 18, 2020

Al respecto, el MIT –quien se ha pronunciado previamente a favor del movimiento Black Lives Matter– emitió un comunicado, donde aprovechó para señalar como responsable al proceso automático de recolección de imágenes. "El conjunto de datos es demasiado grande (80 millones de imágenes) y las imágenes son tan pequeñas (32 x 32 píxeles) que puede ser difícil para las personas reconocer visualmente su contenido. Por lo tanto, la inspección manual, incluso si es posible, no garantizará que las imágenes ofensivas puedan eliminarse por completo", expresaron.

Pidió, como medida adicional, dejar de utilizar y eliminar la base de datos ya retirada a quienes aún conserven una copia. Sin asumir otro tipo de responsabilidad, el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT ofreció una disculpa a quienes el corpus racista y sexista hubiese afectado y dedicó un párrafo al final de su misiva para reconocer la gravedad del asunto entérminos raciales.