Programa del MIT reconstruye rostros de personas sólo con su voz

Ciudad de México  

Autor:

A través de una red neuronal e Inteligencia artificial se reconstruyen rasgos de etnia, género y edad con Speech2Face

 

Científicos pertenecientes al Laboratorio de Ciencias Informáticas e Inteligencia Artificial (CSAIL) del Instituto Tecnológico de Massachusetts (MIT) presentaron el Speech2Face, un programa que reconstruye el rostro de personas con sólo una nota de voz, como parte del ciclo de conferencias en Computer Vision and Pattern Recognition (CVPR) 2019.

¿Qué tipo de información, es decir, rasgos faciales pueden extraerse de la voz? Esa fue la pregunta que orientó el estudio y la formación del programa para el grupo de desarrolladores del MIT. El equipo trato de obtener datos de edad, género y etnia en la reconstrucción de los rostros.

El proceso, explicado de manera simple, es una red neuronal que convierte espectrogramas de notas de audio a pseudorasgos faciales, después son enviados a un decodificador para reconstruir una imagen aproximada del rostro. Se utilizaron un conjunto de datos AVSpeech, compuestos por más de un millón de vídeos pertenecientes a más de cien mil personas diferentes de YouTube, para entrenar la red neuronal.

Los resultados demostraron concordancia de los rostros generados a través de las notas de voz de vídeos comparados con el rostro verdadero. Inclusive, la reconstrucción probó ser más precisa cuando compararon notas de voz de 3 segundos con vídeos de 6 segundos.

Además, la captura de rasgos que presenten edad, género y etnia depende de factores como acento, lenguaje usado, timbre de voz, etc, los cuales pueden corresponder con rasgos presentados por personas similares. De igual manera, el equipo expresó como los errores o mismatchs obtenidos son debido a la base de datos usada para el entrenamiento.

Debido a la falta de representación de diferentes lenguajes o acentos que faltaron por analizarse. Por ejemplo, mientras el sistema reconstruyó el rostro de una mujer con rasgos asiáticos sin acento aparente en su audio, no pudo inferir lo mismo de un hombre asiático, cuando habló en inglés la reconstrucción fue un hombre caucásico y cuando habló en chino fue un hombre con rasgos asiáticos.

Las conclusiones a las que llegó el programa demuestran cómo la aplicación de machine learning y ciencia informática puede predecir rasgos plausibles y valida la existencia de información biométrica intermodal. Esto abre un nuevo campo de investigaciones y aplicaciones en las correlaciones voz-rostro.

 

TecnologíaCienciaDatos personales

¿Te gustó el contenido?

 

 

Recibe las noticias por correo

Entérate de la economía, noticias internacionales y el impacto en los negocios. Aviso de privacidad