Publicación: MODELO DE LENGUAJE NATURAL PARA LA TRANSCRIPCIÓN ANONIMIZADA DE GRABACIONES DE AUDIO DEL ESPAÑOL DE COLOMBIA
| dc.contributor.advisor | Rueda Chacón, Hoover Fabián | |
| dc.contributor.author | Parra Ariza, Andrea Juliana | |
| dc.contributor.evaluator | Galvis Carreño, Laura Viviana | |
| dc.contributor.evaluator | Moreno Tarazona, Alejandra | |
| dc.date.accessioned | 2025-11-18T16:10:17Z | |
| dc.date.available | 2025-11-18T16:10:17Z | |
| dc.date.created | 2025 | |
| dc.date.issued | 2021 | |
| dc.description.abstract | El habla, una de las habilidades humanas más esenciales, ha motivado el desarrollo de sistemas de Reconocimiento Automático del Habla (ASR, del inglés Automatic Speech Recognition) capaces de convertir el habla en texto escrito. Desde los primeros sistemas de los años 50 hasta modelos modernos basados en Redes Neuronales Profundas, como Whisper, los avances han permitido transcripciones multilingües y precisas, así como la integración de tareas de Procesamiento de Lenguaje Natural (NLP) como Reconocimiento de Entidades (NER, del inglés Named Entity Recognition) y diarización de hablantes. Sin embargo, estos modelos requieren grandes volúmenes de datos, lo que limita su desempeño en idiomas o variantes con recursos limitados, como el español de Colombia, que presenta acentos y regionalismos poco representados en conjuntos de entrenamiento. Así mismo, el uso de datos reales suele incluir información sensible, como nombres o identificaciones, que dificulta la recopilación e intercambio de estos corpus. En este sentido, contar con un sistema ASR que incorpore mecanismos de anonimización permitiría proteger la privacidad de los hablantes y facilitaría la recolección y distribución de conjuntos de datos. Este trabajo propone desarrollar un modelo de transcripción anonimizada para el español colombiano, incorporando tareas de NLP y marcas de tiempo, con el objetivo de cerrar la brecha entre los modelos existentes y este dialecto, garantizando un desempeño robusto incluso en entornos con datos escasos, con modelos que alcanzan un 7,60 % de error de transcripción a nivel de palabra (Word Error Rate), un F1-score de 60,81 % para NER exacto y un F1-score de 76,10 % en censura. | |
| dc.description.abstractenglish | Speech, one of the most essential human abilities, has driven the development of Automatic Speech Recognition (ASR) systems capable of converting spoken language into written text. From the first systems in the 1950s to modern models based on Deep Neural Networks like Whisper, these advances have enabled accurate multilingual transcriptions as well as the integration of Natural Language Processing (NLP) tasks like Named Entity Recognition (NER) and speaker diarization. However, these models require large amounts of data, which limits their performance in languages or variants with scarce resources, such as the Colombian Spanish, which exhibits accents and regionalisms underrepresented in training datasets. Likewise, the use of real-world data often includes sensitive information, such as names or IDs, which makes the collection and sharing of these corpora difficult. In this regard, having an ASR that incorporates anonymization mechanisms will protect the privacy of speakers and facilitate the collection and distribution of data sets. This work proposes the development of an anonymized transcription model for Colombian Spanish, incorporating NLP tasks and timestamped annotations, aiming to bridge the gap between existing models and this dialect, ensuring robust performance even in low-resource settings, with models achieving a 7,60 % transcription word error rate (WER), an F1-score of 60,81 % for exact NER and an F1-score of 76,10 % for censoring. | |
| dc.description.cvlac | scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002365843 | |
| dc.description.degreelevel | Pregrado | |
| dc.description.degreename | Ingeniero de Sistemas | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.instname | Universidad Industrial de Santander | |
| dc.identifier.reponame | Universidad Industrial de Santander | |
| dc.identifier.repourl | https://noesis.uis.edu.co | |
| dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/46513 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Industrial de Santander | |
| dc.publisher.faculty | Facultad de Ingeníerias Fisicomecánicas | |
| dc.publisher.program | Ingeniería de Sistemas | |
| dc.publisher.school | Escuela de Ingeniería de Sistemas e Informática | |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
| dc.subject | Reconocimiento de Entidades Nombradas | |
| dc.subject | Anonimización | |
| dc.subject | Transcripción. | |
| dc.subject | Reconocimiento Automático del Habla | |
| dc.subject | Transformers | |
| dc.subject.keyword | Transformers | |
| dc.subject.keyword | Named Entity Recognition | |
| dc.subject.keyword | Anonymize | |
| dc.subject.keyword | Automatic Speech Recognition | |
| dc.subject.keyword | Transcription | |
| dc.title | MODELO DE LENGUAJE NATURAL PARA LA TRANSCRIPCIÓN ANONIMIZADA DE GRABACIONES DE AUDIO DEL ESPAÑOL DE COLOMBIA | |
| dc.title.english | NATURAL LANGUAGE MODEL FOR THE ANONYMIZED TRANSCRIPTION OF AUDIO RECORDINGS OF COLOMBIAN SPANISH | |
| dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
| dc.type.hasversion | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
| dc.type.local | Tesis/Trabajo de grado - Monografía - Pregrado | |
| dspace.entity.type | Publication |
Archivos
Bloque original
1 - 3 de 3
Cargando...
- Nombre:
- Carta de autorización.pdf
- Tamaño:
- 42.71 KB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- Nota de proyecto.pdf
- Tamaño:
- 64.11 KB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- Documento.pdf
- Tamaño:
- 12.42 MB
- Formato:
- Adobe Portable Document Format
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 2.17 KB
- Formato:
- Item-specific license agreed to upon submission
- Descripción:
