ep dimitri kanevsky cientifico de google
Dimitri Kanevsky, científico de GoogleEUROPA PRESS

MADRID, 12 (Portaltic/EP)

Google ha explicado este jueves en un evento en Madrid cómo aplica la Inteligencia Artificial (IA) y el 'machine learning' en sus aplicaciones para mejorar la accesibilidad para personas con discapacidad.

Durante un evento en la sede de Google en Madrid, la compañía ha mostrado una serie de aplicaciones que ayudan a personas con discapacidad del habla o con alguna discapacidad visual en su día a día.

Dimitri Kanevsky, un científico de Google, ha hablado sobre el proyecto Euphonia, que tiene como objetivo mejorar el reconocimiento de voz en sus productos, centrándose en entrenar los dispositivos para que comprendan mejor a las personas que tienen dificultades a la hora de hablar debido a afecciones neurológicas como parálisis cerebral, esclerosis múltiple o lesiones cerebrales traumáticas.

Una de las aplicaciones que ha mostrado es Live Transcribe (Transcripción Instantánea, en español), una herramienta que utiliza el sistema de reconocimiento de voz de Google para transcribir de forma simultánea en la pantalla del dispositivo del usuario aquello que le están diciendo las personas de su alrededor.

Live Transcribe permite elegir entre 70 idiomas y dialectos distintos, pero esta herramienta ha sido entrenada con una pronunciación estándar.

Por ello, Kanevsky ha explicado que para personas con discapacidad del habla se encuentra la herramienta Euphonia, a la que los usuarios deben entrenar mediante la grabación de audios.

En el caso de Kanevsky, que tiene sordera desde la infancia, entrenó a Euphonia con 25 horas de grabación. "Fue un proceso lento. Primero grabé unas pocas horas y el sistema entendía tan solo frases básicas", ha afirmado el científico de Google.

"Después empecé a entrenar a Euphonia con mis discursos y cuando añadí más descubrí que comenzaba a comprender frases aleatorias. Tras 25 horas de grabación empezó a entenderme muy bien", ha detallado.

Parrotron es otro proyecto específico para personas con discapacidad del habla. Mientras Euphonia convierte el audio en texto, Parrotron está entrenado para convertir un audio no estándar en estándar, es decir, convierte palabras y frases entrecortadas o que no se han pronunciado correctamente en audio comprensible.

Además, Kanevsky ha explicado el funcionamiento de Live Caption, una aplicación que agrega subtítulos de forma automática a vídeos, 'podcasts' e incluso mensajes de audio. Mientras Live Transcribe transcribe el audio del micrófono de los dispositivos, esta 'app' transcribe el audio generado por otra aplicación.

Por el momento, esta aplicación está únicamente disponible en dispositivos Pixel 4, aunque el científico de Google ha afirmado que estará pronto disponible para Pixel 3.

Para personas con discapacidad visual, Google cuenta con la aplicación Lookout que gracias a la IA y al reconocimiento de imágenes ayuda a aquellos con problemas de visión a descubrir, a través de su dispositivo, lo que tienen alrededor.

Esta herramienta utiliza la cámara de los dispositivos móviles y reconoce objetos, personas y textos utilizando 'machine learning'. Después dirá lo que ha reconocido añadiendo además en qué posición se encuentra.

El deportista paralímpico Enhamed Enhamed, que cuenta con nueve medallas olímpicas y 38 mundiales, ha asegurado en el evento de Google que el avance de las tecnologías ha sido una "transformación radical", ya que ha hecho que pueda navegar sabiendo dónde está y qué tiene alrededor a pesar de su ceguera.

"A pesar de que los ciegos podamos oír y podamos hablar, teníamos una falta de comunicación en muchos aspectos porque no podías leer la prensa hasta que han llegado los teléfonos con voces incorporadas, los mensajes no funcionaban... Ahora poder encontrar imágenes que puedes leer ha sido un cambio radical", ha recalcado.

contador