IDENTIFICATION AND PROCESSING OF DATA ANOMALIES  IN MACHINE LEARNING TASKS

Iryna Kalinina; Oleksandr Gozhyj

doi:10.34185/1991-7848.itmm.2021.01.029

Автор(и)

Iryna Kalinina
Oleksandr Gozhyj

DOI:

https://doi.org/10.34185/1991-7848.itmm.2021.01.029

Ключові слова:

Data anomalies, tests, preliminary data processing, machine learning tasks, data sets

Анотація

На етапі підготовки даних до моделювання в процедурах машинного навчання, при формуванні початкової вибірки виникають проблеми наявності частини даних, які відрізняються від загальної вибірки та знаходяться на статистично далекій відстані. Такі дані називаються аномаліями або викидами. Аномалії або викиди – це дані, які суттєво відрізняються від інших спостережень [1]. Вони можуть відповідати реальним відхиленням, але можуть бути і просто помилками. Викиди з'являються у вибірках даних з різних причин. Вони можуть бути наслідками: помилок в даних (неточності вимірювання, округлення, невірного запису і т.п.); наявності шумових об'єктів (невірно класифікованих об'єктів); наявності об'єктів «інших» вибірок (наприклад, показання датчика, який вийшов з ладу). У якості справжніх викидів визначимо викиди «в широкому сенсі», тобто дані з набору, які спотворюють границі класу / кластеру. Викиди бувають не тільки в табличних (структурованих) даних, вони можуть бути в графах, часових рядах і т.д.

Посилання

Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey //ACM computing surveys (CSUR). – 2009. – Т. 41

Chandola V., Banerjee A., Kumar V. Anomaly detection for discrete sequences: A survey //IEEE Transactions on Knowledge and Data Engineering. – 2012. – Т. 24. – №5. –

С. 823-839

Aggarwal C. C., Sathe S. Outlier Ensembles: An Introduction. – Springer, 2017.

ІДЕНТИФІКАЦІЯ ТА ОБРОБКА АНОМАЛІЙ ДАНИХ В ЗАДАЧАХ МАШИННОГО НАВЧАННЯ

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

Завантаження

Опубліковано

Номер

Розділ

Мова

ouci

crossref

scholar

worldcat

issn

languages

Перегляд

© 2026 Інформаційні технології в металургії та машинобудуванні. Всі права захищено.