Un sistema de IA dibuja rostros a partir de voces
Alguna vez, todos hemos escuchando la voz de una persona desconocida, y realizado un retrato imaginario de dicha persona en nuestras mentes, con más o menos éxito. Ahora, un algoritmo hace el mismo experimento. Pero, ¿qué tal lo hace? Encuentra la respuesta en este artículo.
- San Francisco veta el reconocimiento facial por primera vez en EE.UU.
El algoritmo en cuestión se llama Speech2Face. Un grupo de científicos entrenó a la red neural utilizando millones de videos localizados en la red, en los que se puede escuchar a más de 100.000 personas hablando. De acuerdo con lo escrito por los investigadores en su estudio, el algoritmo utilizó dichos datos, Speech2Face para desarrollar asociaciones entre líneas vocales y ciertos rasgos físicos del rostro humano. Más tarde, la IA pasó a realizar retratos de diversas personas utilizando solo sus voces como referencia.
Los resultados de la investigación se subieron a la red el día 23 de mayo, en la prepublicación arXiv. Sin embargo, dichos datos aún no han sido contrastados por otros científicos trabajando en el mismo campo.
Pero, ¿qué tan preciso es el algoritmo? Podemos decir que, (afortunadamente), la IA todavía no puede identificar individuos solo basándose en muestras de sus voces. Más bien, la red neural identifica rasgos asociados a ciertos factores, tales como género, edad y etnia, pero dichos rasgos son compartidos por una cantidad considerable de personas. Por lo tanto, las imágenes generadas son más un "promedio" que retratos individuales precisos.
- Fallo de reconocimiento facial: un adolescente demanda a Apple tras un falso arresto
Dicho esto, Speech2Face ha generado retratos de una exactitud asombrosa, pero también ha mostrado ciertas debilidades al confrontarse con varaciones de idioma y/o pronunciación. Por ejemplo: la IA realizó dos retratos totalmente diferentes de la misma persona, al haberla escuchado hablando chino e inglés. De todas maneras, en general, el talento del algoritmo para retratar al ser humano es mucho mayor que para retratar gatos, como podéis ver en la imagen a continuación.
¿Qué os parece? ¿Os gusta que un algoritmo sepa cómo somos a partir de nuestras voces? ¿O sería mejor poder conservar el "anonimato del audio"? Podéis contarnos vuestra opinión en los comentarios debajo.
Fuente: LiveScience
Contenido editorial recomendado
Con su consentimiento, aquí se cargan contenidos externos.
Al hacer clic en el botón anterior, acepta que se le muestren contenidos externos. En el proceso pueden transmitirse datos personales a terceros proveedores. Encontrará más información al respecto en nuestro Política de privacidad.