Enfoque de aprendizaje de distancias para la detección de cambios de micrófono en archivos de audio

dc.contributor.advisorSepúlveda Sepúlveda, Franklin Alexander
dc.contributor.authorCalderón Ardila, Elkin Fabian
dc.contributor.evaluatorBarrero Pérez, Jaime Guillermo
dc.contributor.evaluatorPertuz Arroyo, Said David
dc.date.accessioned2023-08-11T13:30:33Z
dc.date.available2023-08-11T13:30:33Z
dc.date.created2023-08-10
dc.date.embargoEnd2025-08-09
dc.date.issued2023-08-10
dc.description.abstractEn el presente trabajo se lleva a cabo la implementación y evaluación de dos algoritmos para la detección de cambios o inconsistencias de micrófono en grabaciones de audio para aplicaciones forenses mediante un enfoque basado en el aprendizaje de distancias. El primer algoritmo consiste en el cálculo de la Distancia de Mahalanobis mediante los métodos LMNN (Large Margin Nearest Neighbor), NCA (Neighbourhood Components Analysis) e ITML (Information Theoretic Metric Learning) a partir de vectores de información espectral extraídos de ventanas de audio. Estos vectores se obtienen del cálculo de los MFCC (Coeficientes Cepstrales en las Frecuencias de Mel), omitiendo el último paso que consiste en la aplicación de la DCT (Transformada de Coseno Discreta) y, utilizando un banco de 128 filtros en la escala mel con límites entre 0 y 8000 Hz. Por otro lado, el segundo algoritmo consiste en hallar la Divergencia de Jensen-Shannon mayor entre los conjuntos de filtros número 1 a 6 y, 99 a 128 del banco de filtros en escala mel mencionado. Para la evaluación de estos algoritmos se utiliza la base de datos AVSpoof, creada por Ergünay et al. El análisis de los resultados tanto individuales como en conjunto obtenidos tras la implementación de estos dos algoritmos se realiza mediante tres diferentes tipos de clasificadores: SVM (máquinas de vectores de soporte), ANN (redes neuronales artificiales) y k-NN (k vecinos más cercanos).
dc.description.abstractenglishIn this project, a metric learning-based approach is used to implement and evaluate two algorithms for detecting inconsistencies regarding the microphone in audio recordings, which is intended for forensic applications. The first algorithm consists of calculating the Mahalanobis Distance using three methods: LMNN (Large Margin Nearest Neighbor), NCA (Neighbourhood Components Analysis), and ITML (Information Theoretic Metric Learning). This calculation is carried out from spectral information vectors extracted from audio windows; these vectors are obtained by computing the MFCC (Mel Frequency Cepstral Coefficients), excluding the final step involving the implementation of the DCT (Discrete Cosine Transform) and applying a 128 filters bank on the mel scale. The frequency limits of this filters bank are 0 and 8000 Hz. On the other hand, the second algorithm consists of finding the greatest Jensen-Shannon Divergence between the sets of filters number 1 to 6 and 99 to 128 of the mel scale filters bank previously mentioned. The evaluation of these algorithms is performed using the database AVSpoof, which was created by Ergünay et al. The analysis of results, both individual and overall, obtained after the algorithms implementation is done using three different classifiers: SVM (Support Vector Machines), ANN (Artificial neural network) and k-NN (k-Nearest Neighbors).
dc.description.degreelevelPregrado
dc.description.degreenameIngeniero Electrónico
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/14783
dc.language.isospa
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ingeníerias Fisicomecánicas
dc.publisher.programIngeniería Electrónica
dc.publisher.schoolEscuela de Ingenierías Eléctrica, Electrónica y Telecomunicaciones
dc.rightsinfo:eu-repo/semantics/embargoedAccess
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAttribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAlteración de audio
dc.subjectAprendizaje de métricas de distancia
dc.subjectDistancia de Mahalanobis
dc.subjectLMNN
dc.subjectNCA
dc.subjectITML
dc.subjectDivergencia de Jensen-Shannon
dc.subjectCoeficientes cepstrales en las frecuencias de mel
dc.subject.keywordAudio splicing
dc.subject.keywordDistance metric learning
dc.subject.keywordMahalanobis Distance
dc.subject.keywordLMNN
dc.subject.keywordNCA
dc.subject.keywordITML
dc.subject.keywordJensen-Shannon Divergence
dc.subject.keywordMel Frequency Cepstral Coefficients
dc.titleEnfoque de aprendizaje de distancias para la detección de cambios de micrófono en archivos de audio
dc.title.englishDistance learning approach for microphone splicing detection in audio files
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.hasversionhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.localTesis/Trabajo de grado - Monografía - Pregrado
Files
Original bundle
Now showing 1 - 4 of 4
No Thumbnail Available
Name:
Documento.pdf
Size:
1.54 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Carta de autorización.pdf
Size:
178.58 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Nota de proyecto.pdf
Size:
155.44 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Carta de confidencialidad.pdf
Size:
108.14 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.18 KB
Format:
Item-specific license agreed to upon submission
Description: