Un cadre de prédiction des maladies liées au mode de vie basé sur l'imputation des valeurs manquantes et la méthode d'empilement d'ensembles

Doctorant
Directeur(s)
Co-responsable(s)
Responsable externe
Dr ZHANG Haiqing, Chengdu University of Information Technology
Date de début
mars 2021
Domaine d'application
Industriel
Institution locale
Université Lumière Lyon2
Soutenance
Jeudi 16 mars 2023

Résumé :

Les pays industrialisés sont arrivés à la conclusion que de nombreuses maladies chroniques non transmissibles sont causées par des facteurs liés au mode de vie après avoir réalisé de nombreuses études épidémiologiques sur ces conditions, et peuvent être appelées maladies liées au mode de vie (MRD). L'obésité, l'hypertension artérielle, les maladies coronariennes et autres maladies cardiovasculaires, les accidents vasculaires cérébraux et autres maladies cérébrovasculaires, le diabète et plusieurs tumeurs malignes font partie de ces maladies. Toutes ces conditions constituent une menace majeure pour la vie et la santé des personnes et sont difficiles à traiter avec la technologie médicale actuelle. Dans ce contexte, la prévention des maladies liées au mode de vie est extrêmement importante. La prévention des maladies facilite la détection précoce pour améliorer les chances de résultats positifs pour la santé. Par conséquent, cette étude vise à proposer un cadre de prédiction des maladies liées au mode de vie basé sur l’imputation des valeurs manquantes et l’ensemble la méthode ensembliste. Plus précisément, l'application des technologies de l'information dans le domaine médical produit une grande quantité de données médicales. Cependant, à cause de certaines situations de la collecte de données, comme le retrait précoce et le refus des participants, il y a beaucoup de valeurs manquantes dans les données médicales. Nous avons proposé une méthode d'imputation basée sur la technologie de suréchantillonnage SMOTE-NC et la méthode ALWRF pour les données déséquilibrées et de type mixte, appelée SncALWRFI. Pendant ce temps, l'optimisation bayésienne et la validation croisée sont utilisées pour rechercher les paramètres optimaux. Dans l'imputation des valeurs manquantes, le SncALWRFI présente une meilleure précision d'imputation et réalise une efficacité d'imputation élevée pour l'ensemble des bases de données publiques avec des caractéristiques de déséquilibre et de type mixe. Étant donné que les performances de prédiction peuvent être facilement impactées par la présence de bruit dans les données, nous devons rechercher une bonne stratégie pour améliorer cette situation. Le bruit peut provenir de vrais patients et il ne peut être supprimé directement.Les approches d'ensemble sont un excellent moyen de réduire la variation, le biais et le bruit. Par conséquent, afin d'augmenter les performances de prédiction des maladies liées au mode de vie, nous utilisons la technologie d'approche ensembliste dans notre étude pour confronter au bruit des données. Plus précisément, afin de maximiser simultanément la diversité et la précision des modèles d'ensemble, nous avons proposé un algorithme multi-objectif de sélection itérative de modèles (MoItMS). Les données ont été obtenues à partir de l'enquête nationale sur la santé et la nutrition de 2007 à 2018. Notre étude a utilisé un ensemble de données déséquilibrées de 11 341 personnes avec (67,16 %) personnes non hypertendues et (32,84\%) patients hypertendus. Les résultats indiquent une sensibilité de 51,41 %, une spécificité de 70,48 %, une précision de 76,62 % et une AUC mesurée à 0,84, ce qui a surpassé 12 modèles individuels et d'ensemble. Ce modèle peut être mis en œuvre dans des applications pour aider les programmes de santé publique à identifier les patients présentant un risque élevé de développer une hypertension.

Mots clés :  Maladies liées au mode de vie, Prédiction, Apprentissage automatique, Valeurs manquantes, Ensemble d'empilement