КОНСТРУЮВАННЯ ЗАПИТІВ ДЛЯ КЛАСИФІКАЦІЇ ЗЕМНОГО ПОКРИВУ БЕЗ НАВЧАЛЬНИХ ПРИКЛАДІВ ЗА ДОПОМОГОЮ МУЛЬТИМОДАЛЬНИХ МОВНИХ МОДЕЛЕЙ НА ЗНИМКАХ SENTINEL-2

О.Г. Гончаров; І.М. Удовик; Вік.В.  Гнатушенко

doi:10.34185/1562-9945-4-165-2026-13

Автор(и)

О.Г. Гончаров https://orcid.org/0009-0002-4349-4859
І.М. Удовик https://orcid.org/0000-0002-5190-841X
Вік.В. Гнатушенко https://orcid.org/0000-0001-5304-4144

DOI:

https://doi.org/10.34185/1562-9945-4-165-2026-13

Ключові слова:

prompt іженерінг, класифікація без навчання, VLM, модель, зображення, дистанційне зондування, Sentinel-2

Анотація

Класифікація земного покриву за супутниковими знімками є важливим завданням екологічного моніторингу, містобудівного планування та агрономії. Мультимодальні мовні моделі (VLM) дозволяють виконувати цю задачу без розмічених тренувальних даних, проте під час їх застосування виявлено системну проблему - хибну класифікацію за кольором сегментаційної маски (color leakage), коли модель ухвалює рішення не за вмістом зображення, а за довільним кольором маски. Метою роботи є розробка протоколу конструювання запитів для усунення цього явища та порівняння двох стратегій обробки супутникових знімків (багатокластерної та однокластерної). Запропоновано протокол із чотирьох інваріантів (TCI першим, сіра маска, заборона кольорових описів, фіксований JSON-формат) та зіставлено Варіант A (багатокластерний) і Варіант Б (однокластерний) на зображеннях Sentinel-2, що дозволило усунути хибну класифікацію за кольором маски та призвело до підвищення частки відповідей у коректному JSON-форматі (FCR) з ≈ 60 % до 97 %. Варіант Б досягає mIoU ≈ 13,2 %, що на 6,1 відсоткового пункту перевищує Варіант A; найкраща комбінація (UNet-encoder + GPT-4.1, Варіант Б) досягає 46,2 % mIoU.

Посилання

Heipke, C., & Rottensteiner, F. (2020). Deep learning for geometric and semantic tasks in photogrammetry and remote sensing. ISPRS Journal of Photogrammetry and Remote Sensing, 166, 28–30. https://doi.org/10.1080/10095020.2020.1718003

Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention (MICCAI 2015) (Vol. 9351, pp. 234–241). https://doi.org/10.1007/978-3-319-24574-4_28

Hnatushenko, V., & Honcharov, O. (2024). Land cover mapping with Sentinel-2 imagery using deep learning semantic segmentation models. In Proceedings of the 11th International Scientific Conference "Information Technology and Implementation" (IT&I-2024) (CEUR Workshop Proceedings, Vol. 3909, pp. 1–18). https://ceur-ws.org/Vol-3909/Paper_1.pdf

Achiam, J., Adler, S., Agarwal, S., et al. (2023). GPT-4 technical report. arXiv preprint. https://doi.org/10.48550/arXiv.2303.08774

Comanici, G., Bieber, E., Schaekermann, M., et al. (2025). Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities. arXiv preprint. https://doi.org/10.48550/arXiv.2507.06261

Mall, U., Phoo, C. P., Liu, M. K., Vondrick, C., Hariharan, B., & Bala, K. (2024). Remote sensing vision-language foundation models without annotations via ground remote alignment. In International Conference on Learning Representations (ICLR 2024). https://doi.org/10.48550/arXiv.2312.06960

Li, X., Wen, C., Hu, Y., & Zhou, N. (2023). RS-CLIP: Zero-shot remote sensing scene classification via contrastive vision-language supervision. International Journal of Applied Earth Observation and Geoinformation, 124, 103497. https://doi.org/10.1016/j.jag.2023.103497

Hnatushenko, V., Honcharov, O., & Heipke, C. (2026). Zero-shot land-cover recognition via unsupervised classification and VLM inference on Sentinel-2 imagery. In Proceedings of the 46th Annual Conference of the DGPF, Darmstadt. Publikationen der DGPF, Band 34.

Yao, K., Xu, N., Yang, R., et al. (2025). Falcon: A remote sensing vision-language foundation model (technical report). arXiv preprint. https://doi.org/10.48550/arXiv.2503.11070

Sosa, J., Rukhovich, D., Kacem, A., & Aouada, D. (2026). Enabling training-free text-based remote sensing segmentation. arXiv preprint. https://doi.org/10.48550/arXiv.2602.17799

Liu, Y., Zhang, J., Wang, D., et al. (2026). Seeing clearly without training: Mitigating hallucinations in multimodal LLMs for remote sensing. arXiv preprint. https://doi.org/10.48550/arXiv.2603.02754

Romera-Paredes, B., & Torr, P. (2015). An embarrassingly simple approach to zero-shot learning. In Proceedings of the 32nd International Conference on Machine Learning (Vol. 37, pp. 2152–2161). PMLR. https://proceedings.mlr.press/v37/romera-paredes15.html

Saha, O., Van Horn, G., & Maji, S. (2024). Improved zero-shot classification by adapting VLMs with text descriptions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2024) (pp. 17542–17552). https://doi.org/10.48550/arXiv.2401.02460

Barzilai, A., Gigi, Y., Helmy, A., et al. (2025). A recipe for improving remote sensing VLM zero-shot generalization. In International Conference on Learning Representations (ICLR 2025). https://doi.org/10.48550/arXiv.2503.08722

White, J., Fu, Q., Hays, S., et al. (2023). A prompt pattern catalog to enhance prompt engineering with ChatGPT. arXiv preprint. https://doi.org/10.48550/arXiv.2302.11382

Wei, J., Wang, X., Schuurmans, D., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems (Vol. 35). https://doi.org/10.48550/arXiv.2201.11903

Hnatushenko, V., Kundenko, P., Tsaryk, V., & Dmytriieva, I. (2025). Comparative analysis of activation functions in U-Net for binary water segmentation using Sentinel-2 imagery. In Proceedings of CoLInS-2025 (CEUR Workshop Proceedings, Vol. 3983, Paper 11). https://ceur-ws.org/Vol-3983/paper11.pdf

Hnatushenko, V., Zhurba, A., Zimoglyad, A., & Ostrovska, K. (2025). Research on environmental changes based on fractal characteristics of satellite images. In Proceedings of MoDaST 2025 (CEUR Workshop Proceedings, Vol. 4005, pp. 62–71). https://ceur-ws.org/Vol-4005/paper5.pdf

Zanaga, D., Van De Kerchove, R., Daems, D., et al. (2022). ESA WorldCover 10m 2021 v200. Zenodo. https://doi.org/10.5281/zenodo.7254221

Alayrac, J. B., Donahue, J., Luc, P., et al. (2022). Flamingo: A visual language model for few-shot learning. Advances in Neural Information Processing Systems, 35, 23716–23736. https://doi.org/10.48550/arXiv.2204.14198

Geirhos, R., Jacobsen, J. H., Michaelis, C., et al. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence, 2, 665–673. https://doi.org/10.1038/s42256-020-00257-z

КОНСТРУЮВАННЯ ЗАПИТІВ ДЛЯ КЛАСИФІКАЦІЇ ЗЕМНОГО ПОКРИВУ БЕЗ НАВЧАЛЬНИХ ПРИКЛАДІВ ЗА ДОПОМОГОЮ МУЛЬТИМОДАЛЬНИХ МОВНИХ МОДЕЛЕЙ НА ЗНИМКАХ SENTINEL-2

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

Завантаження

Опубліковано

Номер

Розділ

Ліцензія

Мова

ouci

scholar

worldcat

ISSN

vernadskiy

copernicus

ulrichs_web

ukrainika

DNTB

Останні публікації

мови

© 2026 Системні технології. Всі права захищено.