Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas

dc.contributor.advisorMartínez Carrillo, Fabio
dc.contributor.authorMendoza López, Fredy Alejandro
dc.contributor.evaluatorCamacho Velasco, Ariolfo
dc.contributor.evaluatorGuayacan Chaparro, Luis Carlos
dc.date.accessioned2022-09-11T13:57:41Z
dc.date.available2022-09-11T13:57:41Z
dc.date.created2022-09-07
dc.date.issued2022-09-07
dc.description.abstractLa ausencia de una comunicación efectiva con la población sorda representa la principal brecha social en esta comunidad. Además, la lengua de señas, que constituye la principal herramienta de comunicación de los sordos, es ágrafa, es decir, no existe una representación escrita. En consecuencia, uno de los principales retos actuales es la traducción automática entre la representación espaciotemporal de los signos y el lenguaje de texto natural. En el estado de arte, enfoques recientes se basan en arquitecturas codificador-decodificador, donde las estrategias más relevantes integran módulos de atención para mejorar las correspondencias no lineales, sin embargo, siguen estando limitadas por la información redundante de las secuencias de video. Además, muchas de estas aproximaciones requieren complejos esquemas de entrenamiento y arquitectura para lograr predicciones razonables, debido a la ausencia de proyecciones de texto intermedias. Las glosas son proyecciones escritas nativas de un símbolo semántico, expresado a partir de un conjunto de señas, que pueden ser clave como representación intermedia para lograr traducciones coherentes. Este trabajo introduce una arquitectura transformer multitarea que incluye una representación de aprendizaje de glosas para lograr una traducción más adecuada. El enfoque propuesto incluye una representación de movimiento densa que exalta los gestos e incluye información cinemática, un componente clave en la lengua de señas. A partir de esta representación es posible evitar información de fondo y explotar la geometría de las señas, además, incluye representaciones espaciotemporales que facilitan el alineamiento entre los gestos y las glosas como representación textual intermedia. El enfoque propuesto supera las estrategias evaluadas en el estado del arte en el conjunto de datos CoL-SLTD, logrando un BLEU-4 de 72,64% en la división 1 y un BLEU-4 de 14,64% en la división 2. Además, la estrategia fue validada en el conjunto de datos RWTH-PHOENIX-Weather 2014 T, logrando un notable BLEU-4 de 11,58%.
dc.description.abstractenglishThe absence of an effective communication with deaf population represents the main social gap with this community. Furthermore, the sign language, the main deaf communication tool, is unlettered, i.e., there is not a written representation. In consequence, a main challenge today is the automatic translation among spatiotemporal sign representation and natural text language. In the state-of-the-art, recent approaches are based on encoder-decoder architectures, where the most relevant strategies integrate attention modules to enhance non-linear correspondences, however, they are still limited by the redundant background information of the video-sequences. Besides, much of these approximations requires complex training and architectural schemes to achieve reasonable predictions, because the absence intermediate text projections. The glosses are native written projections of a semantic symbol, expressed from a set of signs, that might be key as intermediate representation to achieve coherent translations. This work introduces a multitask transformer architecture that includes a gloss learning representation to achieve a more suitable translation. The proposed approach includes a dense motion representation that enhance gestures and includes kinematic information, a key component in sign language. From this representation it is possible to avoid a background information and exploit the geometry of the signs, in adittion, it includes spatiotemporal representations that facilitate the alignment between gestures and glosses as an intermediate textual representation. The proposed approach outperforms the state-of-the-art evaluated on the CoL-SLTD dataset, achieving a BLEU-4 of$72,64% in split 1, and a BLEU-4 of 14,64% in split 2. Furthermore, the strategy was validated on the RWTH-PHOENIX-Weather 2014 T dataset, achieving a remarkable BLEU-4 of 11,58%.
dc.description.degreelevelPregrado
dc.description.degreenameIngeniero de Sistemas
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/11324
dc.language.isospa
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ingeníerias Fisicomecánicas
dc.publisher.programIngeniería de Sistemas
dc.publisher.schoolEscuela de Ingeniería de Sistemas e Informática
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAttribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectTraducción continua de lengua de señas
dc.subjectRepresentación cinemática
dc.subjectGlosas
dc.subjectAnálisis de video
dc.subjectTransformer
dc.subjectRepresentaciones de aprendizaje profundo
dc.subject.keywordContinuous sign language translation
dc.subject.keywordKinematic representation
dc.subject.keywordGlosses
dc.subject.keywordVideo analysis
dc.subject.keywordTransformer
dc.subject.keywordDeep learning representations
dc.titleTraducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
dc.title.englishAutomatic and continuous sign language translation using an intermediate representation based on glosses
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.hasversionhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.localTesis/Trabajo de grado - Monografía - Pregrado
dspace.entity.type
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
Documento.pdf
Size:
6.05 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Carta de autorización.pdf
Size:
125.87 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Nota de proyecto.pdf
Size:
148.96 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.18 KB
Format:
Item-specific license agreed to upon submission
Description: