Enfoque de aprendizaje de distancias para la detección de cambios de micrófono en archivos de audio

Abstract
En el presente trabajo se lleva a cabo la implementación y evaluación de dos algoritmos para la detección de cambios o inconsistencias de micrófono en grabaciones de audio para aplicaciones forenses mediante un enfoque basado en el aprendizaje de distancias. El primer algoritmo consiste en el cálculo de la Distancia de Mahalanobis mediante los métodos LMNN (Large Margin Nearest Neighbor), NCA (Neighbourhood Components Analysis) e ITML (Information Theoretic Metric Learning) a partir de vectores de información espectral extraídos de ventanas de audio. Estos vectores se obtienen del cálculo de los MFCC (Coeficientes Cepstrales en las Frecuencias de Mel), omitiendo el último paso que consiste en la aplicación de la DCT (Transformada de Coseno Discreta) y, utilizando un banco de 128 filtros en la escala mel con límites entre 0 y 8000 Hz. Por otro lado, el segundo algoritmo consiste en hallar la Divergencia de Jensen-Shannon mayor entre los conjuntos de filtros número 1 a 6 y, 99 a 128 del banco de filtros en escala mel mencionado. Para la evaluación de estos algoritmos se utiliza la base de datos AVSpoof, creada por Ergünay et al. El análisis de los resultados tanto individuales como en conjunto obtenidos tras la implementación de estos dos algoritmos se realiza mediante tres diferentes tipos de clasificadores: SVM (máquinas de vectores de soporte), ANN (redes neuronales artificiales) y k-NN (k vecinos más cercanos).
Description
Keywords
Alteración de audio, Aprendizaje de métricas de distancia, Distancia de Mahalanobis, LMNN, NCA, ITML, Divergencia de Jensen-Shannon, Coeficientes cepstrales en las frecuencias de mel
Citation