Feasibility to Use Clustering Methods to Improve the Contrastive Learning Methods in the Detection of Atrial Fibrillation

dc.contributor.advisorFajardo Ariza, Carlos Augusto
dc.contributor.authorNavarro Luna, Alejandro
dc.contributor.evaluatorPertuz Arroyo, Said David
dc.contributor.evaluatorSánchez Quiroga, Karen Yaneth
dc.date.accessioned2023-11-27T16:17:00Z
dc.date.available2023-11-27T16:17:00Z
dc.date.created2023-11-07
dc.date.embargoEnd2028-11-01
dc.date.issued2023-11-07
dc.description.abstractLos avances recientes en el campo del aprendizaje profundo, una rama de la inteligencia artificial, han abierto nuevas puertas en la detección precisa de arritmias cardíacas. Las arritmias son trastornos en la frecuencia cardíaca o el ritmo cardíaco que pueden tener graves implicaciones para la salud, como la posibilidad de ataques cardíacos o accidentes cerebrovasculares. Detectar estas irregularidades de manera temprana es esencial para un diagnóstico y tratamiento efectivos. Sin embargo, un desafío crucial en este contexto es la disponibilidad de datos etiquetados, es decir, electrocardiogramas (ECG) que estén marcados específicamente para identificar arritmias. Obtener estas etiquetas es un proceso costoso y laborioso, ya que requiere la revisión manual de expertos médicos. Además, en muchas situaciones, puede haber una falta significativa de datos etiquetados, lo que limita la capacidad de entrenar modelos de aprendizaje profundo de manera efectiva. Para abordar este problema, se han desarrollado enfoques que se basan en técnicas no supervisadas y auto-supervisadas. Estos métodos aprovechan datos no etiquetados para mejorar el rendimiento de los modelos. Uno de los desarrollos más recientes y prometedores en este ámbito es el aprendizaje contrastivo. El aprendizaje contrastivo se emplea comúnmente como una etapa de pre-entrenamiento en la construcción de modelos de aprendizaje profundo para una variedad de tareas, incluida la detección de arritmias cardíacas. Sin embargo, en escenarios donde los datos etiquetados son escasos, se requiere una estrategia adicional para mejorar la eficacia del pre-entrenamiento contrastivo. En este estudio, proponemos una solución innovadora que implica agregar una etapa de agrupamiento de datos antes de aplicar el aprendizaje contrastivo. Esta etapa de agrupamiento tiene como objetivo seleccionar cuidadosamente un conjunto de señales de ECG no etiquetadas que refuercen la fase de pre-entrenamiento, lo que es especialmente beneficioso en situaciones donde la disponibilidad de datos etiquetados es limitada. Para evaluar la efectividad de nuestro enfoque, lo aplicamos al conjunto de datos Icentia11k, el conjunto de datos ECG de acceso público más extenso. Utilizamos métricas estándar en el campo de la detección de arritmias, como la puntuación F1 y el área bajo la curva (AUC), para comparar los resultados obtenidos con diferentes métodos de selección de datos, diversas cantidades de datos etiquetados y no etiquetados, y diferentes tamaños de modelos neuronales convolucionales. Nuestros resultados indican que nuestra metodología supera significativamente la estrategia base que utiliza únicamente el aprendizaje contrastivo. Concretamente, en el caso de un modelo entrenado solo con 5,000 datos etiquetados, nuestro enfoque logra una mejora notable, aumentando la puntuación F1 media en 4.9 puntos en promedio en las 10 iteraciones, y mejorando la métrica AUC en 0.4 puntos.
dc.description.abstractenglishRecent advances in the field of deep learning, a branch of artificial intelligence, have opened new doors in the accurate detection of cardiac arrhythmias. Arrhythmias are disturbances in heart rate or heart rhythm that can have serious health implications, such as the possibility of heart attacks or strokes. Detecting these irregularities early is essential for effective diagnosis and treatment. However, a crucial challenge in this context is the availability of labeled data, i.e., electrocardiograms (ECGs) that are specifically tagged to identify arrhythmias. Obtaining these labels is a costly and laborious process, as it requires manual review by medical experts. Furthermore, in many situations, there can be a significant lack of labeled data, limiting the ability to train deep learning models effectively. To address this problem, approaches have been developed that rely on unsupervised and self-supervised techniques. These methods leverage unlabeled data to improve model performance. One of the most recent and promising developments in this area is contrastive learning. Contrastive learning is commonly employed as a pre-training stage in building deep learning models for a variety of tasks, including cardiac arrhythmia detection. However, in scenarios where labeled data is sparse, an additional strategy is required to improve the effectiveness of contrastive pre-training. In this study, we propose an innovative solution that involves adding a data clustering stage before applying contrastive learning. This clustering stage aims to carefully select a set of unlabeled ECG signals that reinforce the pre-training phase, which is especially beneficial in situations where the availability of labeled data is limited. To evaluate the effectiveness of our approach, we applied it to the Icentia11k dataset, the largest publicly available ECG dataset. We used standard metrics in the field of arrhythmia detection, such as F1 score and area under the curve (AUC), to compare the results obtained with different data selection methods, various amounts of labeled and unlabeled data, and different sizes of convolutional neural networks. Our results indicate that our methodology significantly outperforms the baseline strategy using only contrastive learning. Specifically, for a model trained with only 5,000 labeled data, our approach achieves a marked improvement, increasing the 10-fold F1 score average by 4.9 points, and improving the AUC metric by 0.4 points.
dc.description.cvlachttps://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002108352
dc.description.degreelevelMaestría
dc.description.degreenameMagíster en Ingeniería de Telecomunicaciones 
dc.description.orcidhttps://orcid.org/0000-0002-1801-4190
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/15548
dc.language.isoeng
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ingeníerias Fisicomecánicas
dc.publisher.programMaestría en Ingeniería de Telecomunicaciones
dc.publisher.schoolEscuela de Ingenierías Eléctrica, Electrónica y Telecomunicaciones
dc.rightsinfo:eu-repo/semantics/embargoedAccess
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_f1cf
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAtribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO)
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAprendizaje Profundo
dc.subjectAprendizaje Contrastivo
dc.subjectAprendizaje Auto-supervisado
dc.subjectClustering
dc.subjectArritmias Cardíacas
dc.subjectElectrocardiogramas
dc.subject.keywordDeep Learning
dc.subject.keywordContrastive Learning
dc.subject.keywordSelf-supervised Learning
dc.subject.keywordClustering
dc.subject.keywordCardiac Arrhythmias
dc.subject.keywordElectrocardiograms
dc.titleFeasibility to Use Clustering Methods to Improve the Contrastive Learning Methods in the Detection of Atrial Fibrillation
dc.title.englishFeasibility to Use Clustering Methods to Improve the Contrastive Learning Methods in the Detection of Atrial Fibrillation
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.hasversionhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.localTesis/Trabajo de grado - Monografía - Maestría
Files
Original bundle
Now showing 1 - 4 of 4
No Thumbnail Available
Name:
Documento.pdf
Size:
1.79 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Carta de confidencialidad.pdf
Size:
201.98 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Carta de autorización.pdf
Size:
33.59 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Nota de proyecto.pdf
Size:
433.69 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.18 KB
Format:
Item-specific license agreed to upon submission
Description: