Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas

Mendoza López, Fredy Alejandro

Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas

dc.contributor.advisor	Martínez Carrillo, Fabio
dc.contributor.author	Mendoza López, Fredy Alejandro
dc.contributor.evaluator	Camacho Velasco, Ariolfo
dc.contributor.evaluator	Guayacan Chaparro, Luis Carlos
dc.date.accessioned	2022-09-11T13:57:41Z
dc.date.available	2022-09-11T13:57:41Z
dc.date.created	2022-09-07
dc.date.issued	2022-09-07
dc.description.abstract	La ausencia de una comunicación efectiva con la población sorda representa la principal brecha social en esta comunidad. Además, la lengua de señas, que constituye la principal herramienta de comunicación de los sordos, es ágrafa, es decir, no existe una representación escrita. En consecuencia, uno de los principales retos actuales es la traducción automática entre la representación espaciotemporal de los signos y el lenguaje de texto natural. En el estado de arte, enfoques recientes se basan en arquitecturas codificador-decodificador, donde las estrategias más relevantes integran módulos de atención para mejorar las correspondencias no lineales, sin embargo, siguen estando limitadas por la información redundante de las secuencias de video. Además, muchas de estas aproximaciones requieren complejos esquemas de entrenamiento y arquitectura para lograr predicciones razonables, debido a la ausencia de proyecciones de texto intermedias. Las glosas son proyecciones escritas nativas de un símbolo semántico, expresado a partir de un conjunto de señas, que pueden ser clave como representación intermedia para lograr traducciones coherentes. Este trabajo introduce una arquitectura transformer multitarea que incluye una representación de aprendizaje de glosas para lograr una traducción más adecuada. El enfoque propuesto incluye una representación de movimiento densa que exalta los gestos e incluye información cinemática, un componente clave en la lengua de señas. A partir de esta representación es posible evitar información de fondo y explotar la geometría de las señas, además, incluye representaciones espaciotemporales que facilitan el alineamiento entre los gestos y las glosas como representación textual intermedia. El enfoque propuesto supera las estrategias evaluadas en el estado del arte en el conjunto de datos CoL-SLTD, logrando un BLEU-4 de 72,64% en la división 1 y un BLEU-4 de 14,64% en la división 2. Además, la estrategia fue validada en el conjunto de datos RWTH-PHOENIX-Weather 2014 T, logrando un notable BLEU-4 de 11,58%.
dc.description.abstractenglish	The absence of an effective communication with deaf population represents the main social gap with this community. Furthermore, the sign language, the main deaf communication tool, is unlettered, i.e., there is not a written representation. In consequence, a main challenge today is the automatic translation among spatiotemporal sign representation and natural text language. In the state-of-the-art, recent approaches are based on encoder-decoder architectures, where the most relevant strategies integrate attention modules to enhance non-linear correspondences, however, they are still limited by the redundant background information of the video-sequences. Besides, much of these approximations requires complex training and architectural schemes to achieve reasonable predictions, because the absence intermediate text projections. The glosses are native written projections of a semantic symbol, expressed from a set of signs, that might be key as intermediate representation to achieve coherent translations. This work introduces a multitask transformer architecture that includes a gloss learning representation to achieve a more suitable translation. The proposed approach includes a dense motion representation that enhance gestures and includes kinematic information, a key component in sign language. From this representation it is possible to avoid a background information and exploit the geometry of the signs, in adittion, it includes spatiotemporal representations that facilitate the alignment between gestures and glosses as an intermediate textual representation. The proposed approach outperforms the state-of-the-art evaluated on the CoL-SLTD dataset, achieving a BLEU-4 of$72,64% in split 1, and a BLEU-4 of 14,64% in split 2. Furthermore, the strategy was validated on the RWTH-PHOENIX-Weather 2014 T dataset, achieving a remarkable BLEU-4 of 11,58%.
dc.description.degreelevel	Pregrado
dc.description.degreename	Ingeniero de Sistemas
dc.format.mimetype	application/pdf
dc.identifier.instname	Universidad Industrial de Santander
dc.identifier.reponame	Universidad Industrial de Santander
dc.identifier.repourl	https://noesis.uis.edu.co
dc.identifier.uri	https://noesis.uis.edu.co/handle/20.500.14071/11324
dc.language.iso	spa
dc.publisher	Universidad Industrial de Santander
dc.publisher.faculty	Facultad de Ingeníerias Fisicomecánicas
dc.publisher.program	Ingeniería de Sistemas
dc.publisher.school	Escuela de Ingeniería de Sistemas e Informática
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.license	Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Traducción continua de lengua de señas
dc.subject	Representación cinemática
dc.subject	Glosas
dc.subject	Análisis de video
dc.subject	Transformer
dc.subject	Representaciones de aprendizaje profundo
dc.subject.keyword	Continuous sign language translation
dc.subject.keyword	Kinematic representation
dc.subject.keyword	Glosses
dc.subject.keyword	Video analysis
dc.subject.keyword	Transformer
dc.subject.keyword	Deep learning representations
dc.title	Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
dc.title.english	Automatic and continuous sign language translation using an intermediate representation based on glosses
dc.type.coar	http://purl.org/coar/resource_type/c_7a1f
dc.type.hasversion	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.local	Tesis/Trabajo de grado - Monografía - Pregrado
dspace.entity.type