АЛГОРИТМИ ІМПУТУВАННЯ ПРОПУСКІВ У ДАНИХ НА ОСНОВІ ЕНТРОПІЇ

Автор(и)

  • Zemlianyi O.
  • Baibuz O.

DOI:

https://doi.org/10.34185/1562-9945-6-155-2024-12

Ключові слова:

імпутування даних, пропуски у даних, умовна ентропія, теорія інформації, алгоритми обробки даних, мінімізація невизначеності, класифікація, якісні та кількісні ознаки, ітераційний метод, ентропійний підхід, машинне навчання, обробка відсутніх даних, взаємна інформація, інженерія програмного забезпечення, інтелектуальний аналіз даних, діаграма діяльності.

Анотація

Пропонується два алгоритми імпутування пропусків у даних (неітераційний та ітераційний) в задачах класифікації, оснований на мінімізації умовної ентропії. Роз-глядається рішення для кількісних та якісних ознак, у випадку кількісних – для дискре-тних та неперервних. Для аналізу алгоритмів пропонується три типи тестів. Перший тест працює з повним датасетом, в який штучно вносяться пропуски, проводиться імпутування різними методами, порівняння алгоритмів відбувається за середньо-квадратичною похибкою та часом виконання алгоритмів. Другий тип тесту порівнює умовну ентропію до та після імпутування для різних методів. Третій тип тесту пов’язаний із задачею класифікації, коли моделі бінарної класифікації навчають на да-тасетах з імпутованими різними методами даними, та порівнюють точність класи-фікації на тестових вибірках. Розглядаються два відомих датасети про спостере-ження стосовно ішемічної хвороби серця.

Посилання

Roderick J. A. Little, Donald B. Rubin. Statistical Analysis with Missing Data, 3rd Edition. -Wiley, 2019. - 464 p. ISBN: 978-0-470-52679-8

Земляний О.Д., Байбуз О.Г. Методи імпутування пропусків у даних про ішемічну хворобу серця // Системні технології. Регіональний міжвузівський збірник наукових праць. - Випуск 2(151). – Дніпро, 2024. – С.33 – 49. DOI: https://doi.org/10.34185/1562-9945-2-151-2024-04

Yoon, J., Jordon, J., & Schaar, M.V. (2018). GAIN: Missing Data Imputation using Generative Adver-sarial Nets. ArXiv, abs/1806.02920. DOI: https://doi.org/10.48550/arXiv.1806.02920

Gondara, L., & Wang, K. (2017). Multiple Imputation Using Deep Denoising Autoencoders. ArXiv, abs/1705.02737. DOI: https://doi.org/10.48550/arXiv.1705.02737

Stekhoven, D. J., & Bühlmann, P. (2012). MissForest — non-parametric missing value imputation for mixed-type data. Bioinformatics, 28(1), 112-118. DOI: https://doi.org/10.1093/bioinformatics/btr597

Rusdah, D.A., Murfi, H. XGBoost in handling missing values for life insurance risk prediction. SN Appl. Sci. 2, 1336 (2020). DOI: https://doi.org/10.1007/s42452-020-3128-y

Deng, Y., & Lumley, T. (2023). Multiple Imputation Through XGBoost. Journal of Computational and Graphical Statistics, 33(2), 352–363. DOI: https://doi.org/10.1080/10618600.2023.2252501

Delavallade, Thomas & Dang, Thanh. (2007). Using Entropy to Impute Missing Data in a Classification Task. Proceedings of the IEEE International Conference on Fuzzy Systems, FUZZ-IEEE'07, London, UK. 1 - 6. DOI: 10.1109/FUZZY.2007.4295430

Janosi, Andras, Steinbrunn, William, Pfisterer, Matthias, and Detrano, Robert. (1988). Heart Disease. UCI Machine Learning Repository. https://doi.org/10.24432/C52P4X

UCI Heart Disease Data. Heart Disease Data Set from UCI data repository. – [Електронний ресурс]. – Режим доступу: https://www.kaggle.com/datasets/redwankarimsony/heart-disease-data

Framingham Heart Study-Cohort (FHS-Cohort). – [Електронний ресурс]. – Режим доступу: https://biolincc.nhlbi.nih.gov/studies/framcohort/

Framingham heart study dataset. – [Електронний ресурс]. – Режим доступу: https://www.kaggle.com/datasets/aasheesh200/framingham-heart-study-dataset

N. V. Chawla, K. W. Bowyer, L. O.Hall, W. P. Kegelmeyer, “SMOTE: synthetic minority over-sampling technique,” Journal of artificial intelligence research, 321-357, 2002

Imputation of missing values in scikit-learn. – [Електронний ресурс]. – Режим доступу: https://scikit-learn.org/stable/modules/impute.html#impute

Земляний О.Д., Байбуз О.Г. Порівняння багатопроцесорної та багатопоточної реалізацій ентро-пійного підходу для імпутування пропусків у даних на мові програмування Python // Виклики та проблеми сучасної науки [Електронний ресурс]: зб. наук. пр. – Дніпро : [б.в.], 2024. – Т. 2.

– С. 300 – 304. – Режим доступу: https://cims.fti.dp.ua/j/article/view/131/159

Завантаження

Опубліковано

2025-02-02