Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
dc.contributor.advisor | Martínez Carrillo, Fabio | |
dc.contributor.author | Mendoza López, Fredy Alejandro | |
dc.contributor.evaluator | Camacho Velasco, Ariolfo | |
dc.contributor.evaluator | Guayacan Chaparro, Luis Carlos | |
dc.date.accessioned | 2022-09-11T13:57:41Z | |
dc.date.available | 2022-09-11T13:57:41Z | |
dc.date.created | 2022-09-07 | |
dc.date.issued | 2022-09-07 | |
dc.description.abstract | La ausencia de una comunicación efectiva con la población sorda representa la principal brecha social en esta comunidad. Además, la lengua de señas, que constituye la principal herramienta de comunicación de los sordos, es ágrafa, es decir, no existe una representación escrita. En consecuencia, uno de los principales retos actuales es la traducción automática entre la representación espaciotemporal de los signos y el lenguaje de texto natural. En el estado de arte, enfoques recientes se basan en arquitecturas codificador-decodificador, donde las estrategias más relevantes integran módulos de atención para mejorar las correspondencias no lineales, sin embargo, siguen estando limitadas por la información redundante de las secuencias de video. Además, muchas de estas aproximaciones requieren complejos esquemas de entrenamiento y arquitectura para lograr predicciones razonables, debido a la ausencia de proyecciones de texto intermedias. Las glosas son proyecciones escritas nativas de un símbolo semántico, expresado a partir de un conjunto de señas, que pueden ser clave como representación intermedia para lograr traducciones coherentes. Este trabajo introduce una arquitectura transformer multitarea que incluye una representación de aprendizaje de glosas para lograr una traducción más adecuada. El enfoque propuesto incluye una representación de movimiento densa que exalta los gestos e incluye información cinemática, un componente clave en la lengua de señas. A partir de esta representación es posible evitar información de fondo y explotar la geometría de las señas, además, incluye representaciones espaciotemporales que facilitan el alineamiento entre los gestos y las glosas como representación textual intermedia. El enfoque propuesto supera las estrategias evaluadas en el estado del arte en el conjunto de datos CoL-SLTD, logrando un BLEU-4 de 72,64% en la división 1 y un BLEU-4 de 14,64% en la división 2. Además, la estrategia fue validada en el conjunto de datos RWTH-PHOENIX-Weather 2014 T, logrando un notable BLEU-4 de 11,58%. | |
dc.description.abstractenglish | The absence of an effective communication with deaf population represents the main social gap with this community. Furthermore, the sign language, the main deaf communication tool, is unlettered, i.e., there is not a written representation. In consequence, a main challenge today is the automatic translation among spatiotemporal sign representation and natural text language. In the state-of-the-art, recent approaches are based on encoder-decoder architectures, where the most relevant strategies integrate attention modules to enhance non-linear correspondences, however, they are still limited by the redundant background information of the video-sequences. Besides, much of these approximations requires complex training and architectural schemes to achieve reasonable predictions, because the absence intermediate text projections. The glosses are native written projections of a semantic symbol, expressed from a set of signs, that might be key as intermediate representation to achieve coherent translations. This work introduces a multitask transformer architecture that includes a gloss learning representation to achieve a more suitable translation. The proposed approach includes a dense motion representation that enhance gestures and includes kinematic information, a key component in sign language. From this representation it is possible to avoid a background information and exploit the geometry of the signs, in adittion, it includes spatiotemporal representations that facilitate the alignment between gestures and glosses as an intermediate textual representation. The proposed approach outperforms the state-of-the-art evaluated on the CoL-SLTD dataset, achieving a BLEU-4 of$72,64% in split 1, and a BLEU-4 of 14,64% in split 2. Furthermore, the strategy was validated on the RWTH-PHOENIX-Weather 2014 T dataset, achieving a remarkable BLEU-4 of 11,58%. | |
dc.description.degreelevel | Pregrado | |
dc.description.degreename | Ingeniero de Sistemas | |
dc.format.mimetype | application/pdf | |
dc.identifier.instname | Universidad Industrial de Santander | |
dc.identifier.reponame | Universidad Industrial de Santander | |
dc.identifier.repourl | https://noesis.uis.edu.co | |
dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/11324 | |
dc.language.iso | spa | |
dc.publisher | Universidad Industrial de Santander | |
dc.publisher.faculty | Facultad de Ingeníerias Fisicomecánicas | |
dc.publisher.program | Ingeniería de Sistemas | |
dc.publisher.school | Escuela de Ingeniería de Sistemas e Informática | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
dc.rights.license | Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Traducción continua de lengua de señas | |
dc.subject | Representación cinemática | |
dc.subject | Glosas | |
dc.subject | Análisis de video | |
dc.subject | Transformer | |
dc.subject | Representaciones de aprendizaje profundo | |
dc.subject.keyword | Continuous sign language translation | |
dc.subject.keyword | Kinematic representation | |
dc.subject.keyword | Glosses | |
dc.subject.keyword | Video analysis | |
dc.subject.keyword | Transformer | |
dc.subject.keyword | Deep learning representations | |
dc.title | Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas | |
dc.title.english | Automatic and continuous sign language translation using an intermediate representation based on glosses | |
dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
dc.type.hasversion | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
dc.type.local | Tesis/Trabajo de grado - Monografía - Pregrado | |
dspace.entity.type |
Files
Original bundle
1 - 3 of 3
No Thumbnail Available
- Name:
- Carta de autorización.pdf
- Size:
- 125.87 KB
- Format:
- Adobe Portable Document Format
No Thumbnail Available
- Name:
- Nota de proyecto.pdf
- Size:
- 148.96 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 2.18 KB
- Format:
- Item-specific license agreed to upon submission
- Description: