Logotipo del repositorio

Publicación:
MODELO DE LENGUAJE NATURAL PARA LA TRANSCRIPCIÓN ANONIMIZADA DE GRABACIONES DE AUDIO DEL ESPAÑOL DE COLOMBIA

dc.contributor.advisorRueda Chacón, Hoover Fabián
dc.contributor.authorParra Ariza, Andrea Juliana
dc.contributor.evaluatorGalvis Carreño, Laura Viviana
dc.contributor.evaluatorMoreno Tarazona, Alejandra
dc.date.accessioned2025-11-18T16:10:17Z
dc.date.available2025-11-18T16:10:17Z
dc.date.created2025
dc.date.issued2021
dc.description.abstractEl habla, una de las habilidades humanas más esenciales, ha motivado el desarrollo de sistemas de Reconocimiento Automático del Habla (ASR, del inglés Automatic Speech Recognition) capaces de convertir el habla en texto escrito. Desde los primeros sistemas de los años 50 hasta modelos modernos basados en Redes Neuronales Profundas, como Whisper, los avances han permitido transcripciones multilingües y precisas, así como la integración de tareas de Procesamiento de Lenguaje Natural (NLP) como Reconocimiento de Entidades (NER, del inglés Named Entity Recognition) y diarización de hablantes. Sin embargo, estos modelos requieren grandes volúmenes de datos, lo que limita su desempeño en idiomas o variantes con recursos limitados, como el español de Colombia, que presenta acentos y regionalismos poco representados en conjuntos de entrenamiento. Así mismo, el uso de datos reales suele incluir información sensible, como nombres o identificaciones, que dificulta la recopilación e intercambio de estos corpus. En este sentido, contar con un sistema ASR que incorpore mecanismos de anonimización permitiría proteger la privacidad de los hablantes y facilitaría la recolección y distribución de conjuntos de datos. Este trabajo propone desarrollar un modelo de transcripción anonimizada para el español colombiano, incorporando tareas de NLP y marcas de tiempo, con el objetivo de cerrar la brecha entre los modelos existentes y este dialecto, garantizando un desempeño robusto incluso en entornos con datos escasos, con modelos que alcanzan un 7,60 % de error de transcripción a nivel de palabra (Word Error Rate), un F1-score de 60,81 % para NER exacto y un F1-score de 76,10 % en censura.
dc.description.abstractenglishSpeech, one of the most essential human abilities, has driven the development of Automatic Speech Recognition (ASR) systems capable of converting spoken language into written text. From the first systems in the 1950s to modern models based on Deep Neural Networks like Whisper, these advances have enabled accurate multilingual transcriptions as well as the integration of Natural Language Processing (NLP) tasks like Named Entity Recognition (NER) and speaker diarization. However, these models require large amounts of data, which limits their performance in languages or variants with scarce resources, such as the Colombian Spanish, which exhibits accents and regionalisms underrepresented in training datasets. Likewise, the use of real-world data often includes sensitive information, such as names or IDs, which makes the collection and sharing of these corpora difficult. In this regard, having an ASR that incorporates anonymization mechanisms will protect the privacy of speakers and facilitate the collection and distribution of data sets. This work proposes the development of an anonymized transcription model for Colombian Spanish, incorporating NLP tasks and timestamped annotations, aiming to bridge the gap between existing models and this dialect, ensuring robust performance even in low-resource settings, with models achieving a 7,60 % transcription word error rate (WER), an F1-score of 60,81 % for exact NER and an F1-score of 76,10 % for censoring.
dc.description.cvlacscienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002365843
dc.description.degreelevelPregrado
dc.description.degreenameIngeniero de Sistemas
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/46513
dc.language.isospa
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ingeníerias Fisicomecánicas
dc.publisher.programIngeniería de Sistemas
dc.publisher.schoolEscuela de Ingeniería de Sistemas e Informática
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.subjectReconocimiento de Entidades Nombradas
dc.subjectAnonimización
dc.subjectTranscripción.
dc.subjectReconocimiento Automático del Habla
dc.subjectTransformers
dc.subject.keywordTransformers
dc.subject.keywordNamed Entity Recognition
dc.subject.keywordAnonymize
dc.subject.keywordAutomatic Speech Recognition
dc.subject.keywordTranscription
dc.titleMODELO DE LENGUAJE NATURAL PARA LA TRANSCRIPCIÓN ANONIMIZADA DE GRABACIONES DE AUDIO DEL ESPAÑOL DE COLOMBIA
dc.title.englishNATURAL LANGUAGE MODEL FOR THE ANONYMIZED TRANSCRIPTION OF AUDIO RECORDINGS OF COLOMBIAN SPANISH
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.hasversionhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.localTesis/Trabajo de grado - Monografía - Pregrado
dspace.entity.typePublication

Archivos

Bloque original

Mostrando 1 - 3 de 3
Cargando...
Miniatura
Nombre:
Carta de autorización.pdf
Tamaño:
42.71 KB
Formato:
Adobe Portable Document Format
Cargando...
Miniatura
Nombre:
Nota de proyecto.pdf
Tamaño:
64.11 KB
Formato:
Adobe Portable Document Format
Cargando...
Miniatura
Nombre:
Documento.pdf
Tamaño:
12.42 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
2.17 KB
Formato:
Item-specific license agreed to upon submission
Descripción:

VIGILADA MINEDUCACIÓN

Ordenanza No. 83 de 1.944 (junio 22)

Carácter académico: Universidad

Notificaciones judiciales: notjudiciales@uis.edu.co 

.

Código SNIES: 1204   Nit: 890.201.213-4

Línea Anticorrupción:  +57 (601) 562 9300 EXT: 3633

Línea transparente: +57 (607) 630 3031