Programa del MIT reconstruye rostros de personas sólo con su voz

Ciudad de México, 24-06-2019 |

A través de una red neuronal e Inteligencia artificial se reconstruyen rasgos de etnia, género y edad con Speech2Face

Científicos pertenecientes al Laboratorio de Ciencias Informáticas e Inteligencia Artificial (CSAIL) del Instituto Tecnológico de Massachusetts (MIT) presentaron el Speech2Face, un programa que reconstruye el rostro de personas con sólo una nota de voz, como parte del ciclo de conferencias en Computer Vision and Pattern Recognition (CVPR) 2019.

¿Qué tipo de información, es decir, rasgos faciales pueden extraerse de la voz? Esa fue la pregunta que orientó el estudio y la formación del programa para el grupo de desarrolladores del MIT. El equipo trato de obtener datos de edad, género y etnia en la reconstrucción de los rostros.

El proceso, explicado de manera simple, es una red neuronal que convierte espectrogramas de notas de audio a pseudorasgos faciales, después son enviados a un decodificador para reconstruir una imagen aproximada del rostro. Se utilizaron un conjunto de datos AVSpeech, compuestos por más de un millón de vídeos pertenecientes a más de cien mil personas diferentes de YouTube, para entrenar la red neuronal.

Los resultados demostraron concordancia de los rostros generados a través de las notas de voz de vídeos comparados con el rostro verdadero. Inclusive, la reconstrucción probó ser más precisa cuando compararon notas de voz de 3 segundos con vídeos de 6 segundos.

Machine learning en tu #smartphone: cómo los algoritmos predicen lo que escribirás.

El aprendizaje automático, incluso sin una comprensión del lenguaje, logra hacer funcionar los predictores de texto.
????
https://t.co/mmcoBWalgD pic.twitter.com/ZMZPf3wf6f
— My Press (@mypress_mx) May 8, 2019

Además, la captura de rasgos que presenten edad, género y etnia depende de factores como acento, lenguaje usado, timbre de voz, etc, los cuales pueden corresponder con rasgos presentados por personas similares. De igual manera, el equipo expresó como los errores o mismatchs obtenidos son debido a la base de datos usada para el entrenamiento.

Debido a la falta de representación de diferentes lenguajes o acentos que faltaron por analizarse. Por ejemplo, mientras el sistema reconstruyó el rostro de una mujer con rasgos asiáticos sin acento aparente en su audio, no pudo inferir lo mismo de un hombre asiático, cuando habló en inglés la reconstrucción fue un hombre caucásico y cuando habló en chino fue un hombre con rasgos asiáticos.

¿Cuáles son los perfiles laborales tecnológicos más buscados por empresas en #México?

En el mundo, el auge de las #tecnologías cognitivas exige cada vez más especialistas en #MachineLearning o #IoT.

?? https://t.co/gUgAaGy7Wn pic.twitter.com/hGYSvMrtoO
— My Press (@mypress_mx) March 22, 2019

Las conclusiones a las que llegó el programa demuestran cómo la aplicación de machine learning y ciencia informática puede predecir rasgos plausibles y valida la existencia de información biométrica intermodal. Esto abre un nuevo campo de investigaciones y aplicaciones en las correlaciones voz-rostro.