АЛГОРИТМИ ІМПУТУВАННЯ ПРОПУСКІВ У ДАНИХ НА ОСНОВІ ЕНТРОПІЇ
DOI:
https://doi.org/10.34185/1562-9945-6-155-2024-12Ключові слова:
імпутування даних, пропуски у даних, умовна ентропія, теорія інформації, алгоритми обробки даних, мінімізація невизначеності, класифікація, якісні та кількісні ознаки, ітераційний метод, ентропійний підхід, машинне навчання, обробка відсутніх даних, взаємна інформація, інженерія програмного забезпечення, інтелектуальний аналіз даних, діаграма діяльності.Анотація
Пропонується два алгоритми імпутування пропусків у даних (неітераційний та ітераційний) в задачах класифікації, оснований на мінімізації умовної ентропії. Роз-глядається рішення для кількісних та якісних ознак, у випадку кількісних – для дискре-тних та неперервних. Для аналізу алгоритмів пропонується три типи тестів. Перший тест працює з повним датасетом, в який штучно вносяться пропуски, проводиться імпутування різними методами, порівняння алгоритмів відбувається за середньо-квадратичною похибкою та часом виконання алгоритмів. Другий тип тесту порівнює умовну ентропію до та після імпутування для різних методів. Третій тип тесту пов’язаний із задачею класифікації, коли моделі бінарної класифікації навчають на да-тасетах з імпутованими різними методами даними, та порівнюють точність класи-фікації на тестових вибірках. Розглядаються два відомих датасети про спостере-ження стосовно ішемічної хвороби серця.
Посилання
Roderick J. A. Little, Donald B. Rubin. Statistical Analysis with Missing Data, 3rd Edition. -Wiley, 2019. - 464 p. ISBN: 978-0-470-52679-8
Земляний О.Д., Байбуз О.Г. Методи імпутування пропусків у даних про ішемічну хворобу серця // Системні технології. Регіональний міжвузівський збірник наукових праць. - Випуск 2(151). – Дніпро, 2024. – С.33 – 49. DOI: https://doi.org/10.34185/1562-9945-2-151-2024-04
Yoon, J., Jordon, J., & Schaar, M.V. (2018). GAIN: Missing Data Imputation using Generative Adver-sarial Nets. ArXiv, abs/1806.02920. DOI: https://doi.org/10.48550/arXiv.1806.02920
Gondara, L., & Wang, K. (2017). Multiple Imputation Using Deep Denoising Autoencoders. ArXiv, abs/1705.02737. DOI: https://doi.org/10.48550/arXiv.1705.02737
Stekhoven, D. J., & Bühlmann, P. (2012). MissForest — non-parametric missing value imputation for mixed-type data. Bioinformatics, 28(1), 112-118. DOI: https://doi.org/10.1093/bioinformatics/btr597
Rusdah, D.A., Murfi, H. XGBoost in handling missing values for life insurance risk prediction. SN Appl. Sci. 2, 1336 (2020). DOI: https://doi.org/10.1007/s42452-020-3128-y
Deng, Y., & Lumley, T. (2023). Multiple Imputation Through XGBoost. Journal of Computational and Graphical Statistics, 33(2), 352–363. DOI: https://doi.org/10.1080/10618600.2023.2252501
Delavallade, Thomas & Dang, Thanh. (2007). Using Entropy to Impute Missing Data in a Classification Task. Proceedings of the IEEE International Conference on Fuzzy Systems, FUZZ-IEEE'07, London, UK. 1 - 6. DOI: 10.1109/FUZZY.2007.4295430
Janosi, Andras, Steinbrunn, William, Pfisterer, Matthias, and Detrano, Robert. (1988). Heart Disease. UCI Machine Learning Repository. https://doi.org/10.24432/C52P4X
UCI Heart Disease Data. Heart Disease Data Set from UCI data repository. – [Електронний ресурс]. – Режим доступу: https://www.kaggle.com/datasets/redwankarimsony/heart-disease-data
Framingham Heart Study-Cohort (FHS-Cohort). – [Електронний ресурс]. – Режим доступу: https://biolincc.nhlbi.nih.gov/studies/framcohort/
Framingham heart study dataset. – [Електронний ресурс]. – Режим доступу: https://www.kaggle.com/datasets/aasheesh200/framingham-heart-study-dataset
N. V. Chawla, K. W. Bowyer, L. O.Hall, W. P. Kegelmeyer, “SMOTE: synthetic minority over-sampling technique,” Journal of artificial intelligence research, 321-357, 2002
Imputation of missing values in scikit-learn. – [Електронний ресурс]. – Режим доступу: https://scikit-learn.org/stable/modules/impute.html#impute
Земляний О.Д., Байбуз О.Г. Порівняння багатопроцесорної та багатопоточної реалізацій ентро-пійного підходу для імпутування пропусків у даних на мові програмування Python // Виклики та проблеми сучасної науки [Електронний ресурс]: зб. наук. пр. – Дніпро : [б.в.], 2024. – Т. 2.
– С. 300 – 304. – Режим доступу: https://cims.fti.dp.ua/j/article/view/131/159
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Системні технології

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.