ІДЕНТИФІКАЦІЯ ТА ОБРОБКА АНОМАЛІЙ ДАНИХ В ЗАДАЧАХ МАШИННОГО НАВЧАННЯ

Автор(и)

  • Iryna Kalinina
  • Oleksandr Gozhyj

DOI:

https://doi.org/10.34185/1991-7848.itmm.2021.01.029

Ключові слова:

Data anomalies, tests, preliminary data processing, machine learning tasks, data sets

Анотація

На етапі підготовки даних до моделювання в процедурах машинного навчання, при формуванні початкової вибірки виникають проблеми наявності частини даних, які відрізняються від загальної вибірки та знаходяться на статистично далекій відстані. Такі дані називаються аномаліями або викидами. Аномалії або викиди – це дані, які суттєво відрізняються від інших спостережень [1]. Вони можуть відповідати реальним відхиленням, але можуть бути і просто помилками. Викиди з'являються у вибірках даних з різних причин. Вони можуть бути наслідками: помилок в даних (неточності вимірювання, округлення, невірного запису і т.п.); наявності шумових об'єктів (невірно класифікованих об'єктів); наявності об'єктів «інших» вибірок (наприклад, показання датчика, який вийшов з ладу). У якості справжніх викидів визначимо викиди «в широкому сенсі», тобто дані з набору, які спотворюють границі класу / кластеру. Викиди бувають не тільки в табличних (структурованих) даних, вони можуть бути в графах, часових рядах і т.д.

Посилання

Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey //ACM computing surveys (CSUR). – 2009. – Т. 41

Chandola V., Banerjee A., Kumar V. Anomaly detection for discrete sequences: A survey //IEEE Transactions on Knowledge and Data Engineering. – 2012. – Т. 24. – №5. –

С. 823-839

Aggarwal C. C., Sathe S. Outlier Ensembles: An Introduction. – Springer, 2017.

Завантаження

Опубліковано

2021-04-10

Номер

Розділ

Статті