Methods for imputing missing data on coronary heart disease

Zemlianyi O.; Baibuz O.

doi:10.34185/1562-9945-2-151-2024-04

Автор(и)

Zemlianyi O.
Baibuz O.

DOI:

https://doi.org/10.34185/1562-9945-2-151-2024-04

Ключові слова:

data imputation, iterative multiple data imputation, mixed data processing, regression, binary classification, transformation of qualitative features into quantitative ones, python.

Анотація

Пропонуються декілька модифікацій алгоритмів ітеративного множинного імпутування пропусків у змішаних даних, що представлені кількісними і якісними озна-ками. Серед кількісних є і неперервні, і дискретні. Серед якісних є порядкові та бінарні. Для аналізу підходів використовується два типи тестів. В першому тесті датасет з відомими даними штучно заповнюється пропусками у випадкових позиціях, проводить-ся імпутування різними методами, оцінюється середньо-квадратична похибка та час виконання алгоритмів. В другому тесті навчають моделі бінарної класифікації на да-тасетах, з імпутацією пропусків різними методами, та порівнюють точність класифікації на тестовій вибірці. Для перетворення якісних ознак на кількісні запропоновано власні алгоритми, які працюють з пропущеними даними та дозволяють виконувати зворотне перетворення знов до якісних ознак. Розглядаються два відомих датасети про спостереження стосовно ішемічної хвороби серця.

Посилання

Janosi, Andras, Steinbrunn, William, Pfisterer, Matthias, and Detrano, Robert. (1988). Heart Disease. UCI Machine Learning Repository. https://doi.org/10.24432/C52P4X.

UCI Heart Disease Data. Heart Disease Data Set from UCI data repository. – [Елек-тронний ресурс]. – Режим доступу:

https://www.kaggle.com/datasets/redwankarimsony/heart-disease-data

Framingham Heart Study-Cohort (FHS-Cohort). – [Електронний ресурс]. – Ре-жим доступу: https://biolincc.nhlbi.nih.gov/studies/framcohort/

Framingham heart study dataset. – [Електронний ресурс]. – Режим доступу: https://www.kaggle.com/datasets/aasheesh200/framingham-heart-study-dataset

Roderick J. A. Little, Donald B. Rubin. Statistical Analysis with Missing Data, 3rd Edition. -Wiley, 2019. - 464 p. ISBN: 978-0-470-52679-8.

Sefidian A. M., Daneshpour N. Estimating missing data using novel correlation maximization based methods // Applied Soft Computing. Volume 91. 2020. 106249. DOI: 10.1016/j.asoc.2020.106249

A.Barrios, G. Trincado, René Garreaud. Alternative approaches for estimating missing climate data: application to monthly precipitation records in South-Central Chile // Forest Ecosystems. 2018. 5(1). Pp. 1-10. DOI 10.1186/s40663-018-0147-x

Kamakura W.A., Wedel M. Factor Analysis and Missing Data

// Journal of Marketing Research. 2000. Vol. 37. No. 4: Nov. Р. 490–498.

van Buuren, S. and Groothuis-Oudshoorn, K. 2011. mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software. 45, 3 (Dec. 2011), 1–67. DOI:https://doi.org/10.18637/jss.v045.i03.

A complete guide on how to handle missing data with IterativeImputer in Py-thon. – Learning AI, 2023. – Режим доступу: https://justlearnai.com/a-complete-guide-on-how-to-handle-missing-data-with-iterativeimputer-in-python-6b224cf0896c

Imputation of missing values in scikit-learn 1.4.1. – [Електронний ресурс]. – Режим доступу: https://scikit-learn.org/stable/ modules/impute.html

NoNa: Missing Data Imputation Algorithm. – Medium, 2023. – [Електронний ресурс]. – Режим доступу: https://medium.com/@abdualimov/nona-missing-data-imputation-algorithm-d6ff92f70ab8

nona: Python gap filling toolkit. [Електронний ресурс]. – Режим доступу: https://pypi.org/project/nona/

Земляний О.Д., Ізмайлова М.К., Антоненко С.В. Методи поповнення пропу-сків даних гідрологічного моніторингу // Актуальні проблеми автоматизації та інформаційних технологій: Зб. наук. пр. / наук. ред. О.Г. Байбуз. – Дніпро, 2020. – Т. 24. – С. 3 – 15

Feature Encoding. – Medium, 2023. – [Електронний ресурс]. – Режим досту-пу: https://medium.com/@denizgunay/feature-encoding-f099a6c1abe8

sklearn.preprocessing.LabelEncoder– [Електронний ресурс]. – Режим доступу: https://scikit-learn.org/stable/modules/generated/sklearn. preprocessing.LabelEncoder.html

N.V. Chawla, K.W. Bowyer, L. O.Hall, W.P. Kegelmeyer, “SMOTE: synthetic mi-nority over-sampling technique,” Journal of artificial intelligence research, 321-357, 2002.