Feasibility to Use Clustering Methods to Improve the Contrastive Learning Methods in the Detection of Atrial Fibrillation

Abstract
Los avances recientes en el campo del aprendizaje profundo, una rama de la inteligencia artificial, han abierto nuevas puertas en la detección precisa de arritmias cardíacas. Las arritmias son trastornos en la frecuencia cardíaca o el ritmo cardíaco que pueden tener graves implicaciones para la salud, como la posibilidad de ataques cardíacos o accidentes cerebrovasculares. Detectar estas irregularidades de manera temprana es esencial para un diagnóstico y tratamiento efectivos. Sin embargo, un desafío crucial en este contexto es la disponibilidad de datos etiquetados, es decir, electrocardiogramas (ECG) que estén marcados específicamente para identificar arritmias. Obtener estas etiquetas es un proceso costoso y laborioso, ya que requiere la revisión manual de expertos médicos. Además, en muchas situaciones, puede haber una falta significativa de datos etiquetados, lo que limita la capacidad de entrenar modelos de aprendizaje profundo de manera efectiva. Para abordar este problema, se han desarrollado enfoques que se basan en técnicas no supervisadas y auto-supervisadas. Estos métodos aprovechan datos no etiquetados para mejorar el rendimiento de los modelos. Uno de los desarrollos más recientes y prometedores en este ámbito es el aprendizaje contrastivo. El aprendizaje contrastivo se emplea comúnmente como una etapa de pre-entrenamiento en la construcción de modelos de aprendizaje profundo para una variedad de tareas, incluida la detección de arritmias cardíacas. Sin embargo, en escenarios donde los datos etiquetados son escasos, se requiere una estrategia adicional para mejorar la eficacia del pre-entrenamiento contrastivo. En este estudio, proponemos una solución innovadora que implica agregar una etapa de agrupamiento de datos antes de aplicar el aprendizaje contrastivo. Esta etapa de agrupamiento tiene como objetivo seleccionar cuidadosamente un conjunto de señales de ECG no etiquetadas que refuercen la fase de pre-entrenamiento, lo que es especialmente beneficioso en situaciones donde la disponibilidad de datos etiquetados es limitada. Para evaluar la efectividad de nuestro enfoque, lo aplicamos al conjunto de datos Icentia11k, el conjunto de datos ECG de acceso público más extenso. Utilizamos métricas estándar en el campo de la detección de arritmias, como la puntuación F1 y el área bajo la curva (AUC), para comparar los resultados obtenidos con diferentes métodos de selección de datos, diversas cantidades de datos etiquetados y no etiquetados, y diferentes tamaños de modelos neuronales convolucionales. Nuestros resultados indican que nuestra metodología supera significativamente la estrategia base que utiliza únicamente el aprendizaje contrastivo. Concretamente, en el caso de un modelo entrenado solo con 5,000 datos etiquetados, nuestro enfoque logra una mejora notable, aumentando la puntuación F1 media en 4.9 puntos en promedio en las 10 iteraciones, y mejorando la métrica AUC en 0.4 puntos.
Description
Keywords
Aprendizaje Profundo, Aprendizaje Contrastivo, Aprendizaje Auto-supervisado, Clustering, Arritmias Cardíacas, Electrocardiogramas
Citation