Enfoque de aprendizaje de distancias para la detección de cambios de micrófono en archivos de audio
dc.contributor.advisor | Sepúlveda Sepúlveda, Franklin Alexander | |
dc.contributor.author | Calderón Ardila, Elkin Fabian | |
dc.contributor.evaluator | Barrero Pérez, Jaime Guillermo | |
dc.contributor.evaluator | Pertuz Arroyo, Said David | |
dc.date.accessioned | 2023-08-11T13:30:33Z | |
dc.date.available | 2023-08-11T13:30:33Z | |
dc.date.created | 2023-08-10 | |
dc.date.embargoEnd | 2025-08-09 | |
dc.date.issued | 2023-08-10 | |
dc.description.abstract | En el presente trabajo se lleva a cabo la implementación y evaluación de dos algoritmos para la detección de cambios o inconsistencias de micrófono en grabaciones de audio para aplicaciones forenses mediante un enfoque basado en el aprendizaje de distancias. El primer algoritmo consiste en el cálculo de la Distancia de Mahalanobis mediante los métodos LMNN (Large Margin Nearest Neighbor), NCA (Neighbourhood Components Analysis) e ITML (Information Theoretic Metric Learning) a partir de vectores de información espectral extraídos de ventanas de audio. Estos vectores se obtienen del cálculo de los MFCC (Coeficientes Cepstrales en las Frecuencias de Mel), omitiendo el último paso que consiste en la aplicación de la DCT (Transformada de Coseno Discreta) y, utilizando un banco de 128 filtros en la escala mel con límites entre 0 y 8000 Hz. Por otro lado, el segundo algoritmo consiste en hallar la Divergencia de Jensen-Shannon mayor entre los conjuntos de filtros número 1 a 6 y, 99 a 128 del banco de filtros en escala mel mencionado. Para la evaluación de estos algoritmos se utiliza la base de datos AVSpoof, creada por Ergünay et al. El análisis de los resultados tanto individuales como en conjunto obtenidos tras la implementación de estos dos algoritmos se realiza mediante tres diferentes tipos de clasificadores: SVM (máquinas de vectores de soporte), ANN (redes neuronales artificiales) y k-NN (k vecinos más cercanos). | |
dc.description.abstractenglish | In this project, a metric learning-based approach is used to implement and evaluate two algorithms for detecting inconsistencies regarding the microphone in audio recordings, which is intended for forensic applications. The first algorithm consists of calculating the Mahalanobis Distance using three methods: LMNN (Large Margin Nearest Neighbor), NCA (Neighbourhood Components Analysis), and ITML (Information Theoretic Metric Learning). This calculation is carried out from spectral information vectors extracted from audio windows; these vectors are obtained by computing the MFCC (Mel Frequency Cepstral Coefficients), excluding the final step involving the implementation of the DCT (Discrete Cosine Transform) and applying a 128 filters bank on the mel scale. The frequency limits of this filters bank are 0 and 8000 Hz. On the other hand, the second algorithm consists of finding the greatest Jensen-Shannon Divergence between the sets of filters number 1 to 6 and 99 to 128 of the mel scale filters bank previously mentioned. The evaluation of these algorithms is performed using the database AVSpoof, which was created by Ergünay et al. The analysis of results, both individual and overall, obtained after the algorithms implementation is done using three different classifiers: SVM (Support Vector Machines), ANN (Artificial neural network) and k-NN (k-Nearest Neighbors). | |
dc.description.degreelevel | Pregrado | |
dc.description.degreename | Ingeniero Electrónico | |
dc.format.mimetype | application/pdf | |
dc.identifier.instname | Universidad Industrial de Santander | |
dc.identifier.reponame | Universidad Industrial de Santander | |
dc.identifier.repourl | https://noesis.uis.edu.co | |
dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/14783 | |
dc.language.iso | spa | |
dc.publisher | Universidad Industrial de Santander | |
dc.publisher.faculty | Facultad de Ingeníerias Fisicomecánicas | |
dc.publisher.program | Ingeniería Electrónica | |
dc.publisher.school | Escuela de Ingenierías Eléctrica, Electrónica y Telecomunicaciones | |
dc.rights | info:eu-repo/semantics/embargoedAccess | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
dc.rights.license | Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Alteración de audio | |
dc.subject | Aprendizaje de métricas de distancia | |
dc.subject | Distancia de Mahalanobis | |
dc.subject | LMNN | |
dc.subject | NCA | |
dc.subject | ITML | |
dc.subject | Divergencia de Jensen-Shannon | |
dc.subject | Coeficientes cepstrales en las frecuencias de mel | |
dc.subject.keyword | Audio splicing | |
dc.subject.keyword | Distance metric learning | |
dc.subject.keyword | Mahalanobis Distance | |
dc.subject.keyword | LMNN | |
dc.subject.keyword | NCA | |
dc.subject.keyword | ITML | |
dc.subject.keyword | Jensen-Shannon Divergence | |
dc.subject.keyword | Mel Frequency Cepstral Coefficients | |
dc.title | Enfoque de aprendizaje de distancias para la detección de cambios de micrófono en archivos de audio | |
dc.title.english | Distance learning approach for microphone splicing detection in audio files | |
dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
dc.type.hasversion | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
dc.type.local | Tesis/Trabajo de grado - Monografía - Pregrado |
Files
Original bundle
1 - 4 of 4
No Thumbnail Available
- Name:
- Carta de autorización.pdf
- Size:
- 178.58 KB
- Format:
- Adobe Portable Document Format
No Thumbnail Available
- Name:
- Nota de proyecto.pdf
- Size:
- 155.44 KB
- Format:
- Adobe Portable Document Format
No Thumbnail Available
- Name:
- Carta de confidencialidad.pdf
- Size:
- 108.14 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 2.18 KB
- Format:
- Item-specific license agreed to upon submission
- Description: