ПОРІВНЯЛЬНИЙ АНАЛІЗ ЛЕКСИЧНОГО ТА СЕМАНТИЧНОГО ПОШУКУ У БАГАТОМОВНИХ ВЕБСЕРВІСАХ АГРЕГАЦІЇ МЕДІАКОНТЕНТУ
DOI:
https://doi.org/10.34185/1991-7848.itmm.2026.01.094Ключові слова:
вебсервіс, пошукова оптимізація, семантичний пошук, Elasticsearch, векторна база даних, BGE-M3, багатомовний пошук, BM25, QdrantАнотація
У роботі представлено результати порівняльного аналізу двох підходів до організації пошуку у вебсервісах агрегації багатомовного медіаконтенту: лексичного пошуку на основі алгоритму BM25 (Elasticsearch) та семантичного пошуку на основі щільних векторних вкладень моделі BGE-M3 (Qdrant). Розроблено платформу MediaAggregator, яка індексує 70 000 новинних статей сімома мовами та надає уніфікований програмний інтерфейс (REST API) для порівняння якості пошуку, латентності та обсягу відповіді. Експерименти проведено локально на процесорі AMD Ryzen 9 8945HS із 32 ГБ оперативної пам'яті з використанням ONNX Runtime для інференсу моделі вкладень на CPU. Результати демонструють, що лексичний пошук забезпечує в середньому у 2,7 рази нижчу латентність, тоді як семантичний пошук забезпечує крос-лінгвістичне знаходження релевантного контенту незалежно від мови запиту, що є критичним для оптимізації мультимовних вебсервісів.
Посилання
Mitra B., Craswell N. An Introduction to Neural Information Retrieval. Foundations and Trends in Information Retrieval. 2018. Vol. 13, No. 1. P. 1–126. DOI: 10.1561/1500000061.
Chen J., Xiao S., Zhang P. et al. M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation. arXiv preprint arXiv:2402.03216. 2024. DOI: 10.48550/arXiv.2402.03216.
Karpukhin V., Oguz B., Min S. et al. Dense Passage Retrieval for Open-Domain Question Answering. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020. P. 6769–6781.
ONNX Runtime: cross-platform, high performance ML inferencing and training accelerator. URL: https://onnxruntime.ai/ (дата звернення: 05.04.2026).
Elasticsearch: The Official Distributed Search & Analytics Engine. URL: https://www.elastic.co/elasticsearch (дата звернення: 05.04.2026).
Qdrant – Vector Search Engine. URL: https://qdrant.tech/ (дата звернення: 05.04.2026).
Kamphuis C., de Vries A. P., Boytsov L., Lin J. Which BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants. Proceedings of the 42nd European Conference on Information Retrieval (ECIR). 2020. P. 28–34. DOI: 10.1007/978-3-030-45442-5_4.
Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP-IJCNLP). 2019. P. 3982–3992.






