Un sistema de IA dibuja rostros a partir de voces

12 jun. 2019 10:30

AI robot 06 — © metamorworks/Shutterstock

Andrés Castellano

Leer en otros idiomas:

English / Italiano / Français

Alguna vez, todos hemos escuchando la voz de una persona desconocida, y realizado un retrato imaginario de dicha persona en nuestras mentes, con más o menos éxito. Ahora, un algoritmo hace el mismo experimento. Pero, ¿qué tal lo hace? Encuentra la respuesta en este artículo.

San Francisco veta el reconocimiento facial por primera vez en EE.UU.

El algoritmo en cuestión se llama Speech2Face. Un grupo de científicos entrenó a la red neural utilizando millones de videos localizados en la red, en los que se puede escuchar a más de 100.000 personas hablando. De acuerdo con lo escrito por los investigadores en su estudio, el algoritmo utilizó dichos datos, Speech2Face para desarrollar asociaciones entre líneas vocales y ciertos rasgos físicos del rostro humano. Más tarde, la IA pasó a realizar retratos de diversas personas utilizando solo sus voces como referencia.

2019 06 12 IA hace retratos 1 — Fotos y retratos realizados por la IA. Bastante cerca, ¿vedad? / © LiveScience

Los resultados de la investigación se subieron a la red el día 23 de mayo, en la prepublicación arXiv. Sin embargo, dichos datos aún no han sido contrastados por otros científicos trabajando en el mismo campo.

Pero, ¿qué tan preciso es el algoritmo? Podemos decir que, (afortunadamente), la IA todavía no puede identificar individuos solo basándose en muestras de sus voces. Más bien, la red neural identifica rasgos asociados a ciertos factores, tales como género, edad y etnia, pero dichos rasgos son compartidos por una cantidad considerable de personas. Por lo tanto, las imágenes generadas son más un "promedio" que retratos individuales precisos.

Fallo de reconocimiento facial: un adolescente demanda a Apple tras un falso arresto

Dicho esto, Speech2Face ha generado retratos de una exactitud asombrosa, pero también ha mostrado ciertas debilidades al confrontarse con varaciones de idioma y/o pronunciación. Por ejemplo: la IA realizó dos retratos totalmente diferentes de la misma persona, al haberla escuchado hablando chino e inglés. De todas maneras, en general, el talento del algoritmo para retratar al ser humano es mucho mayor que para retratar gatos, como podéis ver en la imagen a continuación.

2019 06 12 IA hace retratos 2 — Los gatos han salido menos favorecidos... / © LiveScience

¿Qué os parece? ¿Os gusta que un algoritmo sepa cómo somos a partir de nuestras voces? ¿O sería mejor poder conservar el "anonimato del audio"? Podéis contarnos vuestra opinión en los comentarios debajo.

Fuente: LiveScience