Las investigaciones de CESyA para la mejora del subtitulado en directo son presentadas como tesis doctoral

  • El investigador de CESyA, don José Manuel Masiello, ha sido investido doctor por la Universidad Carlos III de Madrid con la investigación ‘Subtitulado simplificado para personas con discapacidad’.
  • El estudio aporta soluciones tecnológicas para la mejora de la sincronización y de la puntuación gramatical del subtitulado automático de programas en directo.
José Manuel Masiello con traje gris y ante un atril durante la presentación de la tesis.

Madrid, 15 de abril de 2024. El investigador del Centro Español del Subtitulado y la Audiodescripción (CESyA), José Manuel Masiello, ha presentado ante el tribunal de la Universidad Carlos III de Madrid (UC3M) una tesis doctoral que aborda el subtitulado para personas con discapacidad de programas en directo y que ha sido dirigida por las catedráticas del departamento de Informática de UC3M, Belén Ruiz y Paloma Martínez.

La investigación tiene por objetivo contribuir a la mejora de la calidad de los subtítulos de programas emitidos en streaming para favorecer su acceso a las personas sordas o con discapacidad auditiva. Para ello, el estudio se ha centrado en la incorporación de tecnología que permita la sincronización y la restauración de los signos de puntuación gramatical de manera automática.

Con respecto a la sincronización, dicha tecnología se basa en el desarrollo de un nuevo algoritmo que determina la mejor alineación posible del texto de los subtítulos y del flujo de palabras, y que ha sido creado a partir de otros algoritmos en programación dinámica, como los de Needleman-Wunsch, empleado para realizar alineamientos globales de dos secuencias, o el de Smith-Waterman, que posibilita el alineamiento local de secuencias biológicas.

En cuanto a la restauración de los signos de puntuación, se ha seleccionado una estrategia basada en redes neuronales orientadas a resolver una tarea de clasificación de palabras, asignando un signo de puntuación o su ausencia a cada una de las palabras del subtítulo.

De este modo, la investigación pretende aportar a la automatización del subtitulado una precisa y correcta puntuación gramatical a partir del empleo de dos arquitecturas: una basada en una red neuronal recurrente bidireccional (BiRNN); y otra denominada como arquitectura Transformer (BERT), que parte de otros modelos y tareas que utilizan como corpus los fondos de la Biblioteca Nacional de España.

Experimentación

La investigación del ahora doctor Masiello también ha definido cinco escenarios diferentes para llevar a cabo pruebas experimentales con respecto a la sincronización del subtítulo. En base a ello, se han obtenido resultados con elevados porcentajes de éxito en distintos tipos de programas en directo: en los escenarios de tipo informativo se han sincronizado con un margen de un segundo frente a la sincronización manual el 90% de los subtítulos; el 84% en magazín; el 78,7% en deportes; y el 66% en entretenimiento.

Por su parte, la experimentación dedicada a la puntuación gramatical ha consistido en el entrenamiento de los modelos a partir de un primer corpus basado en las transcripciones al castellano de las sesiones del Parlamento Europeo, de un segundo formado por las transcripciones en castellano del Parlamento Vasco y de otros dos derivados de los anteriores con el añadido de un fichero de preguntas y respuestas basado en el corpus SQuAD – Stanford Question Answering Database (Datos de Respuesta a Pregunta de Stanford).

Aplicación práctica

Según se indica en la investigación, “las personas sordas o con discapacidad auditiva presentan dificultades de accesibilidad a la comunicación dentro de la sociedad”, encontrándose con una serie de “barreras que impiden también su acceso a la información audiovisual, lo cual amplía igualmente el riesgo de exclusión social”.

Además, se expone que “uno de los principales medios para acceder a la información y a la comunicación en general siguen siendo las producciones que se distribuyen mediante canales de televisión” y que “actualmente el subtitulado es la solución más utilizada para facilitar la comprensión de contenidos audiovisuales por parte de las personas sordas puesto que el 97,6% de la comunidad lo emplean”, según los datos consultados del Instituto Nacional de Estadística (INE).

El investigador

José Manuel Masiello es licenciado en Ciencias Físicas por la Universidad de Valencia. Desde el año 2017 es profesor asociado de UC3M en el departamento de Informática y colabora como investigador en CESyA.

Anteriormente, desarrolló su carrera en corporaciones como Indra, donde llevó a cabo proyectos de diseño y desarrollo software en el ámbito de Defensa, así como en Telefónica, donde trabajó en las áreas de arquitecturas de integración de sistemas, gestión de emergencias, finanzas, call center, tecnologías del habla, internet de las cosas (IoT) y smart cities.

Para más información:

www.uc3m.es

www.cesya.es

Ir al contenido