Publicación: MODELO DE LENGUAJE NATURAL PARA LA TRANSCRIPCIÓN ANONIMIZADA DE GRABACIONES DE AUDIO DEL ESPAÑOL DE COLOMBIA
Portada
Citas bibliográficas
Gestores Bibliográficos
Código QR
Autor/a
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen
El habla, una de las habilidades humanas más esenciales, ha motivado el desarrollo de sistemas de Reconocimiento Automático del Habla (ASR, del inglés Automatic Speech Recognition) capaces de convertir el habla en texto escrito. Desde los primeros sistemas de los años 50 hasta modelos modernos basados en Redes Neuronales Profundas, como Whisper, los avances han permitido transcripciones multilingües y precisas, así como la integración de tareas de Procesamiento de Lenguaje Natural (NLP) como Reconocimiento de Entidades (NER, del inglés Named Entity Recognition) y diarización de hablantes. Sin embargo, estos modelos requieren grandes volúmenes de datos, lo que limita su desempeño en idiomas o variantes con recursos limitados, como el español de Colombia, que presenta acentos y regionalismos poco representados en conjuntos de entrenamiento. Así mismo, el uso de datos reales suele incluir información sensible, como nombres o identificaciones, que dificulta la recopilación e intercambio de estos corpus. En este sentido, contar con un sistema ASR que incorpore mecanismos de anonimización permitiría proteger la privacidad de los hablantes y facilitaría la recolección y distribución de conjuntos de datos. Este trabajo propone desarrollar un modelo de transcripción anonimizada para el español colombiano, incorporando tareas de NLP y marcas de tiempo, con el objetivo de cerrar la brecha entre los modelos existentes y este dialecto, garantizando un desempeño robusto incluso en entornos con datos escasos, con modelos que alcanzan un 7,60 % de error de transcripción a nivel de palabra (Word Error Rate), un F1-score de 60,81 % para NER exacto y un F1-score de 76,10 % en censura.

PDF
FLIP 
