КОНСТРУЮВАННЯ ЗАПИТІВ ДЛЯ КЛАСИФІКАЦІЇ ЗЕМНОГО ПОКРИВУ БЕЗ НАВЧАЛЬНИХ ПРИКЛАДІВ ЗА ДОПОМОГОЮ МУЛЬТИМОДАЛЬНИХ МОВНИХ МОДЕЛЕЙ НА ЗНИМКАХ SENTINEL-2
DOI:
https://doi.org/10.34185/1562-9945-4-165-2026-13Ключові слова:
prompt іженерінг, класифікація без навчання, VLM, модель, зображення, дистанційне зондування, Sentinel-2Анотація
Класифікація земного покриву за супутниковими знімками є важливим завданням екологічного моніторингу, містобудівного планування та агрономії. Мультимодальні мовні моделі (VLM) дозволяють виконувати цю задачу без розмічених тренувальних даних, проте під час їх застосування виявлено системну проблему - хибну класифікацію за кольором сегментаційної маски (color leakage), коли модель ухвалює рішення не за вмістом зображення, а за довільним кольором маски. Метою роботи є розробка протоколу конструювання запитів для усунення цього явища та порівняння двох стратегій обробки супутникових знімків (багатокластерної та однокластерної). Запропоновано протокол із чотирьох інваріантів (TCI першим, сіра маска, заборона кольорових описів, фіксований JSON-формат) та зіставлено Варіант A (багатокластерний) і Варіант Б (однокластерний) на зображеннях Sentinel-2, що дозволило усунути хибну класифікацію за кольором маски та призвело до підвищення частки відповідей у коректному JSON-форматі (FCR) з ≈ 60 % до 97 %. Варіант Б досягає mIoU ≈ 13,2 %, що на 6,1 відсоткового пункту перевищує Варіант A; найкраща комбінація (UNet-encoder + GPT-4.1, Варіант Б) досягає 46,2 % mIoU.
Посилання
Heipke, C., & Rottensteiner, F. (2020). Deep learning for geometric and semantic tasks in photogrammetry and remote sensing. ISPRS Journal of Photogrammetry and Remote Sensing, 166, 28–30. https://doi.org/10.1080/10095020.2020.1718003
Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention (MICCAI 2015) (Vol. 9351, pp. 234–241). https://doi.org/10.1007/978-3-319-24574-4_28
Hnatushenko, V., & Honcharov, O. (2024). Land cover mapping with Sentinel-2 imagery using deep learning semantic segmentation models. In Proceedings of the 11th International Scientific Conference "Information Technology and Implementation" (IT&I-2024) (CEUR Workshop Proceedings, Vol. 3909, pp. 1–18). https://ceur-ws.org/Vol-3909/Paper_1.pdf
Achiam, J., Adler, S., Agarwal, S., et al. (2023). GPT-4 technical report. arXiv preprint. https://doi.org/10.48550/arXiv.2303.08774
Comanici, G., Bieber, E., Schaekermann, M., et al. (2025). Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities. arXiv preprint. https://doi.org/10.48550/arXiv.2507.06261
Mall, U., Phoo, C. P., Liu, M. K., Vondrick, C., Hariharan, B., & Bala, K. (2024). Remote sensing vision-language foundation models without annotations via ground remote alignment. In International Conference on Learning Representations (ICLR 2024). https://doi.org/10.48550/arXiv.2312.06960
Li, X., Wen, C., Hu, Y., & Zhou, N. (2023). RS-CLIP: Zero-shot remote sensing scene classification via contrastive vision-language supervision. International Journal of Applied Earth Observation and Geoinformation, 124, 103497. https://doi.org/10.1016/j.jag.2023.103497
Hnatushenko, V., Honcharov, O., & Heipke, C. (2026). Zero-shot land-cover recognition via unsupervised classification and VLM inference on Sentinel-2 imagery. In Proceedings of the 46th Annual Conference of the DGPF, Darmstadt. Publikationen der DGPF, Band 34.
Yao, K., Xu, N., Yang, R., et al. (2025). Falcon: A remote sensing vision-language foundation model (technical report). arXiv preprint. https://doi.org/10.48550/arXiv.2503.11070
Sosa, J., Rukhovich, D., Kacem, A., & Aouada, D. (2026). Enabling training-free text-based remote sensing segmentation. arXiv preprint. https://doi.org/10.48550/arXiv.2602.17799
Liu, Y., Zhang, J., Wang, D., et al. (2026). Seeing clearly without training: Mitigating hallucinations in multimodal LLMs for remote sensing. arXiv preprint. https://doi.org/10.48550/arXiv.2603.02754
Romera-Paredes, B., & Torr, P. (2015). An embarrassingly simple approach to zero-shot learning. In Proceedings of the 32nd International Conference on Machine Learning (Vol. 37, pp. 2152–2161). PMLR. https://proceedings.mlr.press/v37/romera-paredes15.html
Saha, O., Van Horn, G., & Maji, S. (2024). Improved zero-shot classification by adapting VLMs with text descriptions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2024) (pp. 17542–17552). https://doi.org/10.48550/arXiv.2401.02460
Barzilai, A., Gigi, Y., Helmy, A., et al. (2025). A recipe for improving remote sensing VLM zero-shot generalization. In International Conference on Learning Representations (ICLR 2025). https://doi.org/10.48550/arXiv.2503.08722
White, J., Fu, Q., Hays, S., et al. (2023). A prompt pattern catalog to enhance prompt engineering with ChatGPT. arXiv preprint. https://doi.org/10.48550/arXiv.2302.11382
Wei, J., Wang, X., Schuurmans, D., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems (Vol. 35). https://doi.org/10.48550/arXiv.2201.11903
Hnatushenko, V., Kundenko, P., Tsaryk, V., & Dmytriieva, I. (2025). Comparative analysis of activation functions in U-Net for binary water segmentation using Sentinel-2 imagery. In Proceedings of CoLInS-2025 (CEUR Workshop Proceedings, Vol. 3983, Paper 11). https://ceur-ws.org/Vol-3983/paper11.pdf
Hnatushenko, V., Zhurba, A., Zimoglyad, A., & Ostrovska, K. (2025). Research on environmental changes based on fractal characteristics of satellite images. In Proceedings of MoDaST 2025 (CEUR Workshop Proceedings, Vol. 4005, pp. 62–71). https://ceur-ws.org/Vol-4005/paper5.pdf
Zanaga, D., Van De Kerchove, R., Daems, D., et al. (2022). ESA WorldCover 10m 2021 v200. Zenodo. https://doi.org/10.5281/zenodo.7254221
Alayrac, J. B., Donahue, J., Luc, P., et al. (2022). Flamingo: A visual language model for few-shot learning. Advances in Neural Information Processing Systems, 35, 23716–23736. https://doi.org/10.48550/arXiv.2204.14198
Geirhos, R., Jacobsen, J. H., Michaelis, C., et al. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence, 2, 665–673. https://doi.org/10.1038/s42256-020-00257-z
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Системні технології

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.









