Auriculares con IA permiten seleccionar a quién escuchar en medio de una multitud con solo mirar una vez

Arturo IA mayo 26, 2024

0 0 2 minutos de lectura

Auriculares con IA permiten seleccionar a quien escuchar en medio

Investigadores desarrollan auriculares con IA que permiten aislarse ante el ruido enfocándose en un único hablante

La cancelación de ruido en auriculares se ha mejorado significativamente en los últimos años gracias a la implementación de micrófonos que capturan y anulan la mayoría de los sonidos externos con distintas frecuencias. Sin embargo, estos dispositivos aún no lograban diferenciar e identificar aquellos sonidos que sí podrían ser de nuestro interés, hasta ahora.

La inteligencia artificial brinda la solución

Un equipo de investigadores de la Universidad de Washington ha logrado crear un sistema de inteligencia artificial que permite al usuario «inscribir» a una persona que está hablando, simplemente mirándola. Este innovador sistema, llamado Target Speech Hearing (TSH), cancela todos los demás sonidos del entorno y reproduce solamente la voz en tiempo real del hablante registrado. Además, funciona incluso cuando el usuario se desplaza en un ambiente ruidoso y deja de mirar al emisor del sonido.

Los investigadores presentaron sus descubrimientos en la Conferencia ACM CHI sobre factores humanos en sistemas informáticos. Aunque el dispositivo no está disponible comercialmente, el código utilizado está accesible al público para inspirar futuros desarrollos.

¿Cómo funciona el Target Speech Hearing?

El sistema TSH desarrollado por el equipo de Shyam Gollakota requiere que el usuario utilice auriculares que cuenten con micrófonos incorporados y dirigir la cabeza hacia la persona que habla durante 3 a 5 segundos. En ese intervalo, las ondas sonoras de la voz del orador deben ser captadas por ambos micrófonos. Después, esa información es enviada a un ordenador donde el software de aprendizaje automático aprende los patrones vocales del hablante deseado.

Una vez registrado el patrón, el sistema se encarga de capturar y reproducir la voz del hablante para el usuario, incluso si ambos están en movimiento. La precisión del sistema mejora a medida que el hablante registra más ondas sonoras de su interlocutor.

Resultados prometedores en pruebas

El equipo de investigación probó su tecnología en 21 sujetos, quienes evaluaron la claridad de la voz de la persona registrada en casi el doble en comparación con el audio sin filtrar en promedio. Aunque el sistema TSH actualmente solo puede captar a un hablante a la vez y bajo ciertas circunstancias, los investigadores ya están trabajando en ampliar sus aplicaciones a otros tipos de dispositivos y abordar sus limitaciones.