Розробка автоматизованої системи кластеризації текстових документів
DOI:
https://doi.org/10.34185/1562-9945-1-138-2022-10Ключові слова:
кластеризація, інтелектуальний аналіз тексту, TF-IDF, HDBSCAN, токенізація, лемматизація, стоп-слова, PYTHONАнотація
Групування текстів у групи схожих за змістом є частим завданням у різних об-ластях людської діяльності. Кластеризація текстових документів використовується для автоматичної категоризації текстових документів, фільтрації листів на елект-ронну пошту, групування веб-сторінок у пошукових системах і так далі. Автоматиза-ція даного процесу дозволяє істотно скоротити час, що відводиться на цю задачу. Існують методи, що є специфічними для кластеризації саме текстових докумен-тів: кластеризація відносних частот слів у документах (TF-IDF), кластеризація за до-помогою суфіксних дерев, тематичне моделювання, підхід Scatter-Gather. У цих мето-дах застосовуються сучасні алгоритми кластеризації, такі як алгоритм k-середніх, BIRCH, DBSCAN, HDBSCAN, STING. Метою дослідження є розробка автоматизованої системи кластеризації текс-тових документів для групування текстових файлів за їх змістом. Проведений аналіз методів кластеризації текстових документів дозволив обрати кластеризацію відносних частот слів у документах (підхід TF-IDF), який має можли-вість застосування різних алгоритмів кластерного аналізу для досягнення бажаних результатів, у тому числі алгоритмів, що працюють при невідомій початковій кілько-сті кластерів. Центральної ідеєю цього підходу є групування документів за темами, які визначаються найбільш уживаними словами у конкретному документі відносно усієї колекції документів. Процес кластеризації текстових документів відбувається у на-ступній послідовності: попередня обробка текстів, формування матриці TF-IDF, за-стосування алгоритму кластеризації. У якості алгоритму кластеризації обрано алго-ритм HDBSCAN, що працює при невідомій кількості кластерів. Для розробки автоматизованої системи використовується мова програмування Python, для якої створено безліч ефективних бібліотек для інтелектуального аналізу даних та обробки природних мов. В роботі досліджено питання кластеризації текстових документів, розроблено програму для групування текстових файлів у папки за їх змістом на основі підходу TF-IDF.
Посилання
Jiawei Han, Micheline Kamber, Jian Pei. Data Mining: Concepts and Techniques 3rd Edition. Morgan Kaufmann, 2011, 744 pages.
Prafulla Bafna, Dhanya Pramod, Anagha Vaidya. Document clustering: TF-IDF approach. ICEEOT, 2016, p.61-66.
L. McInnes, J. Healy, S. Astels. hdbscan: Hierarchical density based clustering. Journal of Open Source Software, 2(11), 2017, p.205-206.
Опубліковано
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.