Review of methods for semantic text classification

Pavliuk Dmytro; Baibuz Oleh

doi:10.34185/1562-9945-5-154-2024-13

Автор(и)

Pavliuk Dmytro
Baibuz Oleh

DOI:

https://doi.org/10.34185/1562-9945-5-154-2024-13

Ключові слова:

Класифікація тексту, Наївний Байєс, Логістична регресія, Метод опорних векторів (SVM), Штучні нейронні мережі (АНМ), Згорткові нейронні мережі (ЗНМ), Рекурентні нейронні мережі (РНМ), Трансформери, Аналіз тональності, обробка природної мови).

Анотація

У статті проведено аналіз методів класифікації тексту, таких як наївний байєс, логістична регресія, метод опорних векторів (SVM) з акцентом на сучасні методи глибокого навчання, включаючи штучні нейронні мережі (ANN), згорткові нейронні мережі (CNN), рекурентні нейронні мережі (RNN) та трансформери. Для оцінки використовується датасет відгуків про фільми IMDB. Дослідження порівнює ефективність цих методів у кла-сифікації тексту за тональністю, враховуючи точність та обчислювальні ресурси. Мета роботи - визначити найкращий підхід для автоматизованої класифікації тексту та надати рекомендації для подальших досліджень.

Посилання

Source Code for the Article. URL: https://github.com/w3t4nu5/NLP-Article

IMDB Dataset of 50K Movie Reviews.

URL: https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

HuggingFace: Transformers. URL: https://huggingface.co/docs/transformers/index

Stopwords [NLP, Python]. URL: https://medium.com/@yashj302/stopwords-nlp-python-4aa57dc492af

Pavliuk, D. I., Baibuz, O. H., and Honcharova, Y. S. "Text Preparation for Natural Language Processing." 'XIX International Scientific and Practical Conference “Creative Business Manage-ment and Implementation of New Ideas”', 14-17 May 2024, Tallinn, Estonia, pp. 223-225.

Feature extraction. URL: https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction

Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vec-tor Space. 2013. URL: https://arxiv.org/pdf/1301.3781

MultinomialNB.

URL: https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html

Support Vector Machines. URL: https://scikit-learn.org/stable/modules/svm.html

LogisticRegression. URL: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

Elastic Net Regression —Combined Features of L1 and L2 regularization. URL: https://medium.com/@abhishekjainindore24/elastic-net-regression-combined-features-of-l1-and-l2-regularization-6181a660c3a5

Google Code: word2vec. URL: https://code.google.com/archive/p/word2vec/

Natural Language Processing in TensorFlow. URL: https://www.coursera.org/learn/natural-language-processing-tensorflow/home/week/1