ІДЕНТИФІКАЦІЯ ТА ОБРОБКА АНОМАЛІЙ ДАНИХ В ЗАДАЧАХ МАШИННОГО НАВЧАННЯ
DOI:
https://doi.org/10.34185/1991-7848.itmm.2021.01.029Ключові слова:
Data anomalies, tests, preliminary data processing, machine learning tasks, data setsАнотація
На етапі підготовки даних до моделювання в процедурах машинного навчання, при формуванні початкової вибірки виникають проблеми наявності частини даних, які відрізняються від загальної вибірки та знаходяться на статистично далекій відстані. Такі дані називаються аномаліями або викидами. Аномалії або викиди – це дані, які суттєво відрізняються від інших спостережень [1]. Вони можуть відповідати реальним відхиленням, але можуть бути і просто помилками. Викиди з'являються у вибірках даних з різних причин. Вони можуть бути наслідками: помилок в даних (неточності вимірювання, округлення, невірного запису і т.п.); наявності шумових об'єктів (невірно класифікованих об'єктів); наявності об'єктів «інших» вибірок (наприклад, показання датчика, який вийшов з ладу). У якості справжніх викидів визначимо викиди «в широкому сенсі», тобто дані з набору, які спотворюють границі класу / кластеру. Викиди бувають не тільки в табличних (структурованих) даних, вони можуть бути в графах, часових рядах і т.д.
Посилання
Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey //ACM computing surveys (CSUR). – 2009. – Т. 41
Chandola V., Banerjee A., Kumar V. Anomaly detection for discrete sequences: A survey //IEEE Transactions on Knowledge and Data Engineering. – 2012. – Т. 24. – №5. –
С. 823-839
Aggarwal C. C., Sathe S. Outlier Ensembles: An Introduction. – Springer, 2017.