СТАТИСТИЧНИЙ АНАЛІЗ ТЕКСТУ ТА ДОСЛІДЖЕННЯ ДИНАМІКИ ТОЧНОСТІ КЛАСИФІКАЦІЇ

Автор(и)

  • K.Iu. Ostrovska
  • T.M. Fenenko
  • O.O. Hlushchenko

DOI:

https://doi.org/10.34185/1562-9945-5-142-2022-06

Ключові слова:

машинне навчання, статистичний аналіз текста, визначення авторства, аналіз даних, обробка природного мови

Анотація

Робота присвячена статистичному аналізу тексту та дослідженню динаміки точ-ності класифікації. У роботі проводиться відбір статистичних ознак тексту, кла-сифікація текстів, що належать різним авторам, та дослідження динаміки точно-сті класифікації в залежності від довжини текстових фрагментів. Для вирішення поставленого завдання використовувалися: методи обробки природної мови; ста-тистичні характеристики текстів; методи машинного навчання; методи знижен-ня розмірності для можливості візуалізації. На основі отриманої динаміки зміни то-чності класифікації в залежності від довжин текстових фрагментів було зроблено відповідні висновки щодо оптимальної довжини текстів, що використовуються для навчання та тестування моделей. Завдання вирішувалося у програмному середо-вищі Jupyter Notebook дистрибутива Anaconda, який дозволяє одразу встановити Python та необхідні бібліотеки

Посилання

Polynska H.A. Informatsiini systemy marketynhu. Kyiv : YuRAIT, 2016. 324 s.

Mylnikov K. Statystychni metody intelektualnoho analizu danykh. Ukraina, 2021. 240 s.

Shytykov V.K., Mastytskyi S.Э. Statystychnyi analiz ta vizualizatsiia danykh za dopomohoiu R. Yzdatelstvo «DMK Press», 2015. 496s.

T.Hastie, R.Tibshirani, J.Friedman. The Elements of Statistical Learning. Data Mining, Inference, and Prediction. 2nd Edition. - Springer, 2013.

Shytykov V.K., Mastytskyi S.Э. Klassyfykatsyia, rehressyia y druhye alhorytmі Data Mining s yspolzovanyem R. 2017.

Python dlia analyza danniakh:

https://mipt-stats.gitlab.io/courses/python/09_seaborn.html

Опубліковано

2022-10-28