Feasibility to Use Clustering Methods to Improve the Contrastive Learning Methods in the Detection of Atrial Fibrillation

Navarro Luna, Alejandro

Publicación:
Feasibility to Use Clustering Methods to Improve the Contrastive Learning Methods in the Detection of Atrial Fibrillation

dc.contributor.advisor	Fajardo Ariza, Carlos Augusto
dc.contributor.author	Navarro Luna, Alejandro
dc.contributor.evaluator	Pertuz Arroyo, Said David
dc.contributor.evaluator	Sánchez Quiroga, Karen Yaneth
dc.date.accessioned	2023-11-27T16:17:00Z
dc.date.available	2023-11-27T16:17:00Z
dc.date.created	2023-11-07
dc.date.embargoEnd	2028-11-01
dc.date.issued	2023-11-07
dc.description.abstract	Los avances recientes en el campo del aprendizaje profundo, una rama de la inteligencia artificial, han abierto nuevas puertas en la detección precisa de arritmias cardíacas. Las arritmias son trastornos en la frecuencia cardíaca o el ritmo cardíaco que pueden tener graves implicaciones para la salud, como la posibilidad de ataques cardíacos o accidentes cerebrovasculares. Detectar estas irregularidades de manera temprana es esencial para un diagnóstico y tratamiento efectivos. Sin embargo, un desafío crucial en este contexto es la disponibilidad de datos etiquetados, es decir, electrocardiogramas (ECG) que estén marcados específicamente para identificar arritmias. Obtener estas etiquetas es un proceso costoso y laborioso, ya que requiere la revisión manual de expertos médicos. Además, en muchas situaciones, puede haber una falta significativa de datos etiquetados, lo que limita la capacidad de entrenar modelos de aprendizaje profundo de manera efectiva. Para abordar este problema, se han desarrollado enfoques que se basan en técnicas no supervisadas y auto-supervisadas. Estos métodos aprovechan datos no etiquetados para mejorar el rendimiento de los modelos. Uno de los desarrollos más recientes y prometedores en este ámbito es el aprendizaje contrastivo. El aprendizaje contrastivo se emplea comúnmente como una etapa de pre-entrenamiento en la construcción de modelos de aprendizaje profundo para una variedad de tareas, incluida la detección de arritmias cardíacas. Sin embargo, en escenarios donde los datos etiquetados son escasos, se requiere una estrategia adicional para mejorar la eficacia del pre-entrenamiento contrastivo. En este estudio, proponemos una solución innovadora que implica agregar una etapa de agrupamiento de datos antes de aplicar el aprendizaje contrastivo. Esta etapa de agrupamiento tiene como objetivo seleccionar cuidadosamente un conjunto de señales de ECG no etiquetadas que refuercen la fase de pre-entrenamiento, lo que es especialmente beneficioso en situaciones donde la disponibilidad de datos etiquetados es limitada. Para evaluar la efectividad de nuestro enfoque, lo aplicamos al conjunto de datos Icentia11k, el conjunto de datos ECG de acceso público más extenso. Utilizamos métricas estándar en el campo de la detección de arritmias, como la puntuación F1 y el área bajo la curva (AUC), para comparar los resultados obtenidos con diferentes métodos de selección de datos, diversas cantidades de datos etiquetados y no etiquetados, y diferentes tamaños de modelos neuronales convolucionales. Nuestros resultados indican que nuestra metodología supera significativamente la estrategia base que utiliza únicamente el aprendizaje contrastivo. Concretamente, en el caso de un modelo entrenado solo con 5,000 datos etiquetados, nuestro enfoque logra una mejora notable, aumentando la puntuación F1 media en 4.9 puntos en promedio en las 10 iteraciones, y mejorando la métrica AUC en 0.4 puntos.
dc.description.abstractenglish	Recent advances in the field of deep learning, a branch of artificial intelligence, have opened new doors in the accurate detection of cardiac arrhythmias. Arrhythmias are disturbances in heart rate or heart rhythm that can have serious health implications, such as the possibility of heart attacks or strokes. Detecting these irregularities early is essential for effective diagnosis and treatment. However, a crucial challenge in this context is the availability of labeled data, i.e., electrocardiograms (ECGs) that are specifically tagged to identify arrhythmias. Obtaining these labels is a costly and laborious process, as it requires manual review by medical experts. Furthermore, in many situations, there can be a significant lack of labeled data, limiting the ability to train deep learning models effectively. To address this problem, approaches have been developed that rely on unsupervised and self-supervised techniques. These methods leverage unlabeled data to improve model performance. One of the most recent and promising developments in this area is contrastive learning. Contrastive learning is commonly employed as a pre-training stage in building deep learning models for a variety of tasks, including cardiac arrhythmia detection. However, in scenarios where labeled data is sparse, an additional strategy is required to improve the effectiveness of contrastive pre-training. In this study, we propose an innovative solution that involves adding a data clustering stage before applying contrastive learning. This clustering stage aims to carefully select a set of unlabeled ECG signals that reinforce the pre-training phase, which is especially beneficial in situations where the availability of labeled data is limited. To evaluate the effectiveness of our approach, we applied it to the Icentia11k dataset, the largest publicly available ECG dataset. We used standard metrics in the field of arrhythmia detection, such as F1 score and area under the curve (AUC), to compare the results obtained with different data selection methods, various amounts of labeled and unlabeled data, and different sizes of convolutional neural networks. Our results indicate that our methodology significantly outperforms the baseline strategy using only contrastive learning. Specifically, for a model trained with only 5,000 labeled data, our approach achieves a marked improvement, increasing the 10-fold F1 score average by 4.9 points, and improving the AUC metric by 0.4 points.
dc.description.cvlac	https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002108352
dc.description.degreelevel	Maestría
dc.description.degreename	Magíster en Ingeniería de Telecomunicaciones
dc.description.orcid	https://orcid.org/0000-0002-1801-4190
dc.format.mimetype	application/pdf
dc.identifier.instname	Universidad Industrial de Santander
dc.identifier.reponame	Universidad Industrial de Santander
dc.identifier.repourl	https://noesis.uis.edu.co
dc.identifier.uri	https://noesis.uis.edu.co/handle/20.500.14071/15548
dc.language.iso	eng
dc.publisher	Universidad Industrial de Santander
dc.publisher.faculty	Facultad de Ingeníerias Fisicomecánicas
dc.publisher.program	Maestría en Ingeniería de Telecomunicaciones
dc.publisher.school	Escuela de Ingenierías Eléctrica, Electrónica y Telecomunicaciones
dc.rights	info:eu-repo/semantics/embargoedAccess
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_f1cf
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.license	Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO)
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Aprendizaje Profundo
dc.subject	Aprendizaje Contrastivo
dc.subject	Aprendizaje Auto-supervisado
dc.subject	Clustering
dc.subject	Arritmias Cardíacas
dc.subject	Electrocardiogramas
dc.subject.keyword	Deep Learning
dc.subject.keyword	Contrastive Learning
dc.subject.keyword	Self-supervised Learning
dc.subject.keyword	Clustering
dc.subject.keyword	Cardiac Arrhythmias
dc.subject.keyword	Electrocardiograms
dc.title	Feasibility to Use Clustering Methods to Improve the Contrastive Learning Methods in the Detection of Atrial Fibrillation
dc.title.english	Feasibility to Use Clustering Methods to Improve the Contrastive Learning Methods in the Detection of Atrial Fibrillation
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.hasversion	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.local	Tesis/Trabajo de grado - Monografía - Maestría
dspace.entity.type	Publication