Desafíos en la clasificación de patologías médicas en personas mayores: revisión del impacto de los datasets desbalanceados en Machine Learning
DOI:
https://doi.org/10.26507/paper.4709Palabras clave:
Datos desbalanceados, Aprendizaje automático, Modelos de clasificación, Salud de adultos mayores, Diagnóstico médico asistido por IAResumen
El desarrollo de modelos de Machine Learning (ML) para el diagnóstico y monitoreo de patologías médicas en personas mayores enfrenta múltiples desafíos, siendo uno de los más críticos el problema de los datasets desbalanceados. En estos casos, la escasez de datos correspondientes a enfermedades menos frecuentes afecta la capacidad de los algoritmos para aprender patrones representativos, lo que puede derivar en modelos con sesgo hacia la clase mayoritaria y una alta tasa de falsos negativos en condiciones críticas.
El objetivo de este trabajo es revisar el impacto del desbalance de clases en la clasificación de patologías médicas en adultos mayores y analizar críticamente las estrategias actuales para mitigar este problema. Se comparan enfoques tradicionales como el sobremuestreo (SMOTE, ADASYN), el submuestreo y métodos híbridos (SMOTE-ENN, SMOTE-Tomek Links), así como técnicas avanzadas de Deep Learning y generación de datos sintéticos. Además, se identifican métricas de evaluación más adecuadas para medir el rendimiento en escenarios desbalanceados, tales como AUC-PR, F1-score y Balanced Accuracy.
La metodología adoptada se basa en una revisión sistemática de literatura bajo el modelo PRISMA, recopilando estudios relevantes de bases de datos científicas de alto impacto (PubMed, Scopus, IEEE Xplore). En este proceso, se establecieron algunos criterios de inclusión y exclusión para seleccionar investigaciones que aborden específicamente el problema del desbalance de clases en aplicaciones médicas orientadas a la población de personas mayores.
Los resultados preliminares sugieren que, aunque el sobremuestreo mejora la representación de la clase minoritaria, introduce el riesgo de sobreajuste y ruido en los datos. El submuestreo, por su parte, puede comprometer la información de la clase mayoritaria, reduciendo la capacidad predictiva global del modelo. Las técnicas híbridas por su parte, acorde a lo revisado se muestran como una opción viable y mejor que las anteriores, debido a que combinan lo mejor de los enfoques vistos y optimizan la distribución de clases dentro del conjunto de datos, aunque requieren una calibración precisa y una evaluación cuidadosa en cada aplicación específica. Modelos de Deep Learning, como Redes Generativas Adversarias (GANs) y autoencoders, han sido explorados para la generación de datos sintéticos, mostrando potencial en la creación de muestras más realistas, pero con limitaciones en interpretabilidad y altos costos computacionales.
Acorde a lo anterior, si bien el enfoque híbrido evidencia ventajas relevantes, aún no se ha identificado una solución definitiva que elimine por completo los efectos adversos del desbalance de datos en modelos de IA aplicados a la salud. El problema sigue abierto y representa un campo de interés activo en la comunidad científica, particularmente en el ámbito de la investigación doctoral, donde se continúan explorando nuevas metodologías para mejorar la equidad y confiabilidad de los modelos predictivos en entornos clínicos. Por lo anterior, es necesario seguir avanzando en el desarrollo de técnicas más robustas que permitan mejorar la detección de patologías subrepresentadas en personas mayores, garantizando diagnósticos más precisos y efectivos en la práctica médica y cuidado de estas.
Citas
Tarekegn, A. N., Michalak, K., Costa, G., Ricceri, F., & Giacobini, M. (2020). Predictive Modeling for Frailty Conditions in Elderly People. JMIR Medical Informatics, 8(6), e16678. https://doi.org/10.2196/16678
Haixiang, G., Yijing, L., Shang, J., Mingyun, G., Yuanyue, H., & Bing, G. (2017). Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications, 73, 220–239. https://doi.org/10.1016/j.eswa.2016.12.035
Charte, F., Rivera, A. J., del Jesus, M. J., & Herrera, F. (2019). Dealing with difficult minority labels in imbalanced multilabel data sets. Neurocomputing, 326–340. https://doi.org/10.1016/j.neucom.2016.08.158
Xiao, C., Choi, E., & Sun, J. (2018). Opportunities and challenges in developing deep learning models using electronic health records data: A systematic review. Journal of the American Medical Informatics Association, 25(10), 1419–1428.
Yang, G., Wang, G., Wan, L., Wang, X., & He, Y. (2025). Utilizing SMOTE-TomekLink and machine learning to construct a predictive model for elderly medical and daily care services demand. Scientific Reports, 15, 8446. https://doi.org/10.1038/s41598-025-92722-1
Lee, J., Lee, S., Street, W. N., & Polgreen, L. A. (2022). Machine learning approaches to predict the 1-year-after-initial-AMI survival of elderly patients. BMC Medical Informatics and Decision Making, 22, 115. https://doi.org/10.1186/s12911-022-01854-1
Page, M. J., McKenzie, J. E., Bossuyt, P. M., Boutron, I., Hoffmann, T. C., Mulrow, C. D., ... & Moher, D. (2021). Declaración PRISMA 2020: una guía actualizada para la publi-cación de revisiones sistemáticas. Revista Española de Cardiología, 74(9), 790–799. https://doi.org/10.1016/j.recesp.2021.06.016
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Syn-thetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321–357. https://doi.org/10.1613/jair.953
He, H., Bai, Y., Garcia, E. A., & Li, S. (2008). ADASYN: Adaptive Synthetic Sampling Approach for Imbalanced Learning. In 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence) (pp. 1322–1328). IEEE. https://doi.org/10.1109/IJCNN.2008.4633969
Douzas, G., & Bação, F. (2018). Effective data generation for imbalanced learning us-ing conditional generative adversarial networks. Expert Systems with Applications, 91, 464–471. https://doi.org/10.1016/j.eswa.2017.09.030
Saito, T., & Rehmsmeier, M. (2015). The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets. PLOS ONE, 10(3), e0118432. https://doi.org/10.1371/journal.pone.0118432
Cómo citar
Descargas
Descargas
Publicado
Evento
Sección
Licencia
Derechos de autor 2025 Asociación Colombiana de Facultades de Ingeniería - ACOFI

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
| Estadísticas de artículo | |
|---|---|
| Vistas de resúmenes | |
| Vistas de PDF | |
| Descargas de PDF | |
| Vistas de HTML | |
| Otras vistas | |



