СТАТИСТИЧНИЙ АНАЛІЗ ТЕКСТУ ТА ДОСЛІДЖЕННЯ ДИНАМІКИ ТОЧНОСТІ КЛАСИФІКАЦІЇ
DOI:
https://doi.org/10.34185/1562-9945-5-142-2022-06Ключові слова:
машинне навчання, статистичний аналіз текста, визначення авторства, аналіз даних, обробка природного мовиАнотація
Робота присвячена статистичному аналізу тексту та дослідженню динаміки точ-ності класифікації. У роботі проводиться відбір статистичних ознак тексту, кла-сифікація текстів, що належать різним авторам, та дослідження динаміки точно-сті класифікації в залежності від довжини текстових фрагментів. Для вирішення поставленого завдання використовувалися: методи обробки природної мови; ста-тистичні характеристики текстів; методи машинного навчання; методи знижен-ня розмірності для можливості візуалізації. На основі отриманої динаміки зміни то-чності класифікації в залежності від довжин текстових фрагментів було зроблено відповідні висновки щодо оптимальної довжини текстів, що використовуються для навчання та тестування моделей. Завдання вирішувалося у програмному середо-вищі Jupyter Notebook дистрибутива Anaconda, який дозволяє одразу встановити Python та необхідні бібліотеки
Посилання
Polynska H.A. Informatsiini systemy marketynhu. Kyiv : YuRAIT, 2016. 324 s.
Mylnikov K. Statystychni metody intelektualnoho analizu danykh. Ukraina, 2021. 240 s.
Shytykov V.K., Mastytskyi S.Э. Statystychnyi analiz ta vizualizatsiia danykh za dopomohoiu R. Yzdatelstvo «DMK Press», 2015. 496s.
T.Hastie, R.Tibshirani, J.Friedman. The Elements of Statistical Learning. Data Mining, Inference, and Prediction. 2nd Edition. - Springer, 2013.
Shytykov V.K., Mastytskyi S.Э. Klassyfykatsyia, rehressyia y druhye alhorytmі Data Mining s yspolzovanyem R. 2017.
Python dlia analyza danniakh:
Опубліковано
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.