МЕТОДОЛОГІЯ ПІДГОТОВКИ ДАТАСЕТУ ДЛЯ НАВЧАННЯ МОДЕЛЕЙ ВИЯВЛЕННЯ ШАХРАЙСТВА В ЕЛЕКТРОННІЙ КОМЕРЦІЇ

Автор(и)

DOI:

https://doi.org/10.34185/1991-7848.itmm.2026.01.084

Ключові слова:

датасет, машинне навчання, транзакція, електронна комерція, LightGBM, автоенкодер, IP Insights

Анотація

У дослідженні розглянуто проблему підготовки тренувальних даних для систем виявлення шахрайства в транзакціях електронної комерції на основі методів машинного навчання. За результатами аналізу існуючих відкритих джерел обґрунтовано необхідність створення спеціалізованого набору даних. Запропоновано автоматизований конвеєр об’єднання трьох відкритих наборів даних з платформи Kaggle (IEEE-CIS, Sparkov, Fraudulent E-Commerce) зі збереженням реальних міток шахрайства та збагаченням записів синтетичними атрибутами, адаптованими до специфіки українського платіжного ринку. Опрацьовано методи рівномірної нормалізації часових міток, генерації автентифікаційних даних та розбиття на платіжні системи, формування агрегованих профілів клієнтів та пар для навчання моделі IP Insights. Результатом є набір із 500000 транзакцій за 24 місяці з рівнем шахрайства 3,04%, призначений для навчання конвеєра моделей, до яких входять LightGBM, автоенкодер та IP Insights.

Посилання

Joint EBA-ECB report on payment fraud. 2025. URL: https://www.eba.europa.eu/publications-and-media/press-releases/joint-eba-ecb-report-payment-fraud-strong-authentication-remains-effective-fraudsters-are-adapting

Visa Payments & Fraud Report. 2025. URL: https://www.visaacceptance.com/content/dam/documents/campaign/fraud-report/global-fraud-report-2025.pdf

Ostrovska K., Nosov V. Machine learning methods for antifraud systems. Системні технології. 2025. Т. 5, вип. 160. С. 156–163. URL: https://doi.org/10.34185/1562-9945-5-160-2025-16

IEEE-CIS Fraud Detection. 2019. URL: https://www.kaggle.com/competitions/ieee-fraud-detection/overview

Credit Card Transactions Fraud Detection Dataset. 2020. URL: https://www.kaggle.com/datasets/kartik2112/fraud-detection

Fraudulent E-Commerce Transactions. 2024. URL: https://www.kaggle.com/datasets/shriyashjagtap/fraudulent-e-commerce-transactions.

Anti-Money Laundering Datasets. 2021. URL: https://github.com/IBM/AMLSim

Credit Card Fraud Detection. 2018. URL: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

EMV 3D-Secure. 2025. URL: https://www.emvco.com/emv-technologies/3-d-secure/

Завантаження

Опубліковано

2026-04-26

Номер

Розділ

Тези