АВТОМАТИЗОВАНИЙ КОНВЕЄР ФОРМУВАННЯ ДАТАСЕТУ ДЛЯ НАВЧАННЯ МОДЕЛЕЙ ВИЯВЛЕННЯ ШАХРАЙСТВА
DOI:
https://doi.org/10.34185/1562-9945-3-164-2026-03Ключові слова:
датасет, машинне навчання, транзакція, електронна комерція, LightGBM, автоенкодер, IP Insights, синтетичні даніАнотація
У дослідженні розглянуто проблему підготовки тренувальних даних для систем виявлення шахрайства в транзакціях електронної комерції на основі методів машинного навчання. За результатами аналізу існуючих відкритих джерел обґрунтовано необхідність створення спеціалізованого набору даних. Запропоновано автоматизований конвеєр об’єднання трьох відкритих наборів даних з платформи Kaggle (IEEE-CIS, Credit Card Transactions Fraud Detection Dataset, Fraudulent E-Commerce) зі збереженням реальних міток шахрайства та збагаченням записів синтетичними атрибутами, адаптованими до специфіки українського платіжного ринку. Опрацьовано методи рівномірної нормалізації часових міток, генерації автентифікаційних даних та розбиття на платіжні системи, формування агрегованих профілів клієнтів та пар для навчання моделі IP Insights. Результатом є набір із 500000 транзакцій за 24 місяці з рівнем шахрайства 3.04%, призначений для навчання конвеєра моделей, до яких входять LightGBM, автоенкодер та IP Insights.
Посилання
European Banking Authority & European Central Bank. (2025). Joint EBA-ECB report on payment fraud. https://www.eba.europa.eu/publications-and-media/press-releases/joint-eba-ecb-report-payment-fraud-strong-authentication-remains-effective-fraudsters-are-adapting
Visa Acceptance Solutions & Merchant Risk Council. (2025). 2025 Global eCommerce Payments & Fraud Report. https://www.visaacceptance.com/content/dam/documents/campaign/fraud-report/global-fraud-report-2025.pdf
Ostrovska, K., & Nosov, V. (2025). Machine learning methods for antifraud systems. Sys-tem technologies, 5(160), 156–163. https://doi.org/10.34185/1562-9945-5-160-2025-16
Grover, P., Xu, J., Tittelfitz, J., Cheng, A., Li, Z., Zablocki, J., Liu, J., & Zhou, H. (2022). Fraud Dataset Benchmark and Applications. Amazon Science. https://doi.org/10.48550/arXiv.2208.14417
Pushkarenko, Y., & Zaslavskyi, V. (2024). Synthetic Data Generation for Fraud Detection Using Diffusion Models. Information Systems and Innovative Technologies in Professional Activity (ISIJ), 55(2), 185–198. https://doi.org/10.11610/isij.5534
IEEE-CIS Fraud Detection. (2019). Kaggle. https://www.kaggle.com/competitions/ieee-fraud-detection/overview
Credit Card Transactions Fraud Detection Dataset. (2020). Kaggle. https://www.kaggle.com/datasets/kartik2112/fraud-detection
Sparkov Data Generation. GitHub. https://github.com/namebrandon/Sparkov_Data_Generation
Fraudulent E-Commerce Transactions. (2024). Kaggle. https://www.kaggle.com/datasets/shriyashjagtap/fraudulent-e-commerce-transactions
Anti-Money Laundering Datasets (IBM AMLSim). (2021). GitHub.
Credit Card Fraud Detection Dataset. (2018). Machine Learning Group, Université Libre de Bruxelles. Kaggle. https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
EMVCo. (2025). EMV 3-D Secure Protocol and Core Functions Specification v2.2.0. https://www.emvco.com/emv-technologies/3-d-secure/
Visa vyperedyla Mastercard za kilkistiu kartok v obihu v Ukraini [Visa overtook Master-card by number of cards in circulation in Ukraine]. (2025). Forbes Ukraine. https://forbes.ua/news/visa-viperedila-mastercard-za-kilkistyu-kartok-v-obigu-v-ukraini-27052025-30063 [in Ukrainian].
StatCounter. (2024). Mobile Operating System Market Share Ukraine. https://gs.statcounter.com/os-market-share/mobile/ukraine
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Системні технології

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.









