ПИТАННЯ ВИЗНАЧЕННЯ МІНІМАЛЬНО ДОСТАТНЬОГО ОБСЯГУ НАВЧАЛЬНОЇ ВИБІРКИ ДЛЯ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ

Автор(и)

DOI:

https://doi.org/10.34185/1991-7848.itmm.2026.01.079

Ключові слова:

машинне навчання, крива навчання, мінімальний обсяг вибірки, степенева апроксимація, гауссівський процес, сортування руд, крос-валідація, HistGradientBoosting, Neural Scaling Laws, екстраполяція

Анотація

Тези доповіді присвячено задачі емпіричного визначення мінімально достатнього обсягу навчальної вибірки для регресійних моделей машинного навчання у системах сенсорного сортування руд. Запропоновано методику на основі ієрархії підходів: крива навчання – параметрична степенева екстраполяція – GP-based learning-type curve. Дослідження виконано на реальному наборі сенсорних даних (699 спостережень). Як основну модель обрано HistGradientBoostingRegressor (R² = 0,93, 10-fold GroupKFold крос-валідація). Параметрична екстраполяція дозволила отримати точкові оцінки мінімального обсягу вибірки для заданого порогу похибки. GP-based підхід забезпечив ймовірнісні оцінки з урахуванням невизначеності. Сформульовано практичні рекомендації щодо достатнього обсягу вибірки для досягнення цільового рівня точності.

Посилання

Kiselov, B. H., & Senko, A. O. (2026). Vplyv adytyvnykh stokhastychnykh zburenʹ na nyzhniu mezhu uzahalniuvalʹnoi pokhybky modelei rehresii v sensornykh systemakh. Komp'iuterni intelektualni systemy ta merezhi: materialy XIX Vseukrainskoi naukovo-praktychnoi WEB-konferentsii. Kryvyi Rih. P. 96–101. [in Ukrainian].

Ke, G. et al. (2017). LightGBM: A highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems, 30, 3146–3154.

Viering, T., & Loog, M. (2023). The shape of learning curves: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(12), 15050–15067. https://doi.org/10.1109/TPAMI.2021.3085003

Snell, K. I. E. et al. (2024). Sample size requirements for training clinical prediction models using participant-level meta-analysis. Statistics in Medicine, 43(15), 2945–2975. https://doi.org/10.1002/sim.10121

Figueroa, R. L., Zeng-Treitler, Q., Kandula, S., & Ngo, L. H. (2012). Predicting sample size required for classification performance. BMC Medical Informatics and Decision Making, 12, Article 8. https://doi.org/10.1186/1472-6947-12-8

Kaplan, J. et al. (2020). Scaling laws for neural language models. arXiv. https://doi.org/10.48550/arXiv.2001.08361

Domingos, P. (2012). A few useful things to know about machine learning. Communications of the ACM, 55(10), 78–87. https://doi.org/10.1145/2347736.2347755

Завантаження

Опубліковано

2026-04-26

Номер

Розділ

Тези