MODELO DE LENGUAJE NATURAL PARA LA TRANSCRIPCIÓN ANONIMIZADA DE GRABACIONES DE AUDIO DEL ESPAÑOL DE COLOMBIA

Parra Ariza, Andrea Juliana

Publicación:
MODELO DE LENGUAJE NATURAL PARA LA TRANSCRIPCIÓN ANONIMIZADA DE GRABACIONES DE AUDIO DEL ESPAÑOL DE COLOMBIA

dc.contributor.advisor	Rueda Chacón, Hoover Fabián
dc.contributor.author	Parra Ariza, Andrea Juliana
dc.contributor.evaluator	Galvis Carreño, Laura Viviana
dc.contributor.evaluator	Moreno Tarazona, Alejandra
dc.date.accessioned	2025-11-18T16:10:17Z
dc.date.available	2025-11-18T16:10:17Z
dc.date.created	2025
dc.date.issued	2021
dc.description.abstract	El habla, una de las habilidades humanas más esenciales, ha motivado el desarrollo de sistemas de Reconocimiento Automático del Habla (ASR, del inglés Automatic Speech Recognition) capaces de convertir el habla en texto escrito. Desde los primeros sistemas de los años 50 hasta modelos modernos basados en Redes Neuronales Profundas, como Whisper, los avances han permitido transcripciones multilingües y precisas, así como la integración de tareas de Procesamiento de Lenguaje Natural (NLP) como Reconocimiento de Entidades (NER, del inglés Named Entity Recognition) y diarización de hablantes. Sin embargo, estos modelos requieren grandes volúmenes de datos, lo que limita su desempeño en idiomas o variantes con recursos limitados, como el español de Colombia, que presenta acentos y regionalismos poco representados en conjuntos de entrenamiento. Así mismo, el uso de datos reales suele incluir información sensible, como nombres o identificaciones, que dificulta la recopilación e intercambio de estos corpus. En este sentido, contar con un sistema ASR que incorpore mecanismos de anonimización permitiría proteger la privacidad de los hablantes y facilitaría la recolección y distribución de conjuntos de datos. Este trabajo propone desarrollar un modelo de transcripción anonimizada para el español colombiano, incorporando tareas de NLP y marcas de tiempo, con el objetivo de cerrar la brecha entre los modelos existentes y este dialecto, garantizando un desempeño robusto incluso en entornos con datos escasos, con modelos que alcanzan un 7,60 % de error de transcripción a nivel de palabra (Word Error Rate), un F1-score de 60,81 % para NER exacto y un F1-score de 76,10 % en censura.
dc.description.abstractenglish	Speech, one of the most essential human abilities, has driven the development of Automatic Speech Recognition (ASR) systems capable of converting spoken language into written text. From the first systems in the 1950s to modern models based on Deep Neural Networks like Whisper, these advances have enabled accurate multilingual transcriptions as well as the integration of Natural Language Processing (NLP) tasks like Named Entity Recognition (NER) and speaker diarization. However, these models require large amounts of data, which limits their performance in languages or variants with scarce resources, such as the Colombian Spanish, which exhibits accents and regionalisms underrepresented in training datasets. Likewise, the use of real-world data often includes sensitive information, such as names or IDs, which makes the collection and sharing of these corpora difficult. In this regard, having an ASR that incorporates anonymization mechanisms will protect the privacy of speakers and facilitate the collection and distribution of data sets. This work proposes the development of an anonymized transcription model for Colombian Spanish, incorporating NLP tasks and timestamped annotations, aiming to bridge the gap between existing models and this dialect, ensuring robust performance even in low-resource settings, with models achieving a 7,60 % transcription word error rate (WER), an F1-score of 60,81 % for exact NER and an F1-score of 76,10 % for censoring.
dc.description.cvlac	scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002365843
dc.description.degreelevel	Pregrado
dc.description.degreename	Ingeniero de Sistemas
dc.format.mimetype	application/pdf
dc.identifier.instname	Universidad Industrial de Santander
dc.identifier.reponame	Universidad Industrial de Santander
dc.identifier.repourl	https://noesis.uis.edu.co
dc.identifier.uri	https://noesis.uis.edu.co/handle/20.500.14071/46513
dc.language.iso	spa
dc.publisher	Universidad Industrial de Santander
dc.publisher.faculty	Facultad de Ingeníerias Fisicomecánicas
dc.publisher.program	Ingeniería de Sistemas
dc.publisher.school	Escuela de Ingeniería de Sistemas e Informática
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.subject	Reconocimiento de Entidades Nombradas
dc.subject	Anonimización
dc.subject	Transcripción.
dc.subject	Reconocimiento Automático del Habla
dc.subject	Transformers
dc.subject.keyword	Transformers
dc.subject.keyword	Named Entity Recognition
dc.subject.keyword	Anonymize
dc.subject.keyword	Automatic Speech Recognition
dc.subject.keyword	Transcription
dc.title	MODELO DE LENGUAJE NATURAL PARA LA TRANSCRIPCIÓN ANONIMIZADA DE GRABACIONES DE AUDIO DEL ESPAÑOL DE COLOMBIA
dc.title.english	NATURAL LANGUAGE MODEL FOR THE ANONYMIZED TRANSCRIPTION OF AUDIO RECORDINGS OF COLOMBIAN SPANISH
dc.type.coar	http://purl.org/coar/resource_type/c_7a1f
dc.type.hasversion	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.local	Tesis/Trabajo de grado - Monografía - Pregrado
dspace.entity.type	Publication