МЕТОД ПОБУДОВИ КРИЗОВО-КОНТЕКСТНОГО ДАТАСЕТУ ДЛЯ ВЕРИФІКАЦІЇ ADAPTIVE IRM

Автор(и)

DOI:

https://doi.org/10.34185/1991-7848.2026.01.21

Ключові слова:

кризово-контекстний датасет, великі мовні моделі, прихована контекстна адаптація, Adaptive IRM, question generation, crisis informatics, HumAID, генерація запитань, валідація датасетів

Анотація

Ця робота присвячена не експериментальному підтвердженню ефективності Adaptive IRM, а побудові спеціалізованого кризово-контекстного датасету, який робить таку перевірку можливою в коректній постановці. У статті запропоновано метод перетворення кризових повідомлень із HumAID у пари виду «абстрактний запит – кризово-залежна відповідь», де питання навмисно очищується від прямих маркерів лиха, а правильна інтерпретація потребує відновлення прихованого контексту події. Такий дизайн відрізняється від переважних у crisis informatics задач tweet-level classification, informativeness detection, humanitarian categorization і multimodal crisis annotation, для яких призначені HumAID, CrisisBench, AIDR, TREC-IS і CrisisMMD [1, 2, 3, 4, 5, 6]. У результаті роботи сформовано датасет обсягом 41 152 записи за п'ятьма категоріями кризових подій; під час генерації питань використовувалася схема primary generation -> retry generation -> fallback, причому fallback було задіяно у 1 432 випадках, що становить 3.48% корпусу. Як наступний етап пропонуються формалізована ручна валідація, автоматична retrieval-style перевірка семантичної узгодженості, event-disjoint split на рівні подій HumAID, реалізація Adaptive IRM і порівняння LLM-baseline, LLM+Adaptive IRM, RAG і PEFT-baselines із розширеним набором автоматичних і ручних
метрик [7, 8, 9, 10, 11, 12, 13, 14, 15].

Посилання

Reuter C., Hughes A. L., Kaufhold M.-A. Social media in crisis management: An evaluation and analysis of crisis informatics research. International Journal of Human–Computer Interaction. 2018. Vol. 34, No. 4. P. 280–294. DOI: 10.1080/10447318.2018.1427832.

Alam F., Qazi U., Imran M., Ofli F. HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep Learning Benchmarks. Proceedings of the International AAAI Conference on Web and Social Media. 2021. Vol. 15, No. 1. P. 933–942. DOI: 10.1609/icwsm.v15i1.18116.

Alam F., Sajjad H., Imran M., Ofli F. CrisisBench: Benchmarking Crisis-related Social Media Datasets for Humanitarian Information Processing. Proceedings of the International AAAI Conference on Web and Social Media. 2021. Vol. 15, No. 1. P. 923–932. DOI: 10.1609/icwsm.v15i1.18115.

Imran M., Castillo C., Lucas J., Meier P., Vieweg S. AIDR: Artificial Intelligence for Disaster Response. WWW '14 Companion: Proceedings of the 23rd International Conference on World Wide Web. New York : ACM, 2014. P. 159–162. DOI: 10.1145/2567948.2577034.

McCreadie R., Buntain C., Soboroff I. TREC Incident Streams: Finding Actionable Information on Social Media. Proceedings of the 16th International Conference on Information Systems for Crisis Response and Management (ISCRAM 2019). Valencia, Spain : ISCRAM Association, 2019. P. 691–705.

Alam F., Ofli F., Imran M. CrisisMMD: Multimodal Twitter Datasets from Natural Disasters. Proceedings of the International AAAI Conference on Web and Social Media. 2018. Vol. 12, No. 1. DOI: 10.1609/icwsm.v12i1.14983.

Lei Z., Dong Y., Li W., Ding R., Wang Q. R., Li J. Harnessing Large Language Models for Disaster Management: A Survey. Findings of the Association for Computational Linguistics: ACL 2025. Vienna, Austria : Association for Computational Linguistics, 2025. P. 14528–14551. DOI: 10.18653/v1/2025.findings-acl.750.

Lewis P., Perez E., Piktus A., Petroni F., Karpukhin V., Goyal N., Küttler H., Lewis M., Yih W.-t., Rocktäschel T., Riedel S., Kiela D. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems. 2020. Vol. 33. P. 9459–9474. DOI: 10.5555/3495724.3496517.

Han Z., Gao C., Liu J., Zhang J., Zhang S. Q. Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey. Transactions on Machine Learning Research. 2024. URL: https://openreview.net/forum?id=lIsCS8b6zj (дата звернення: 29.04.2026).

Afzal A., Chalumattu R., Matthes F., Mascarell L. AdaptEval: Evaluating Large Language Models on Domain Adaptation for Text Summarization. Proceedings of the 1st Workshop on Customizable NLP: Progress and Challenges in Customizing NLP for a Domain, Application, Group, or Individual (CustomNLP4U). Miami, Florida, USA : Association for Computational Linguistics, 2024. P. 76–85. DOI: 10.18653/v1/2024.customnlp4u-1.8.

Fu W., Wei B., Hu J., Cai Z., Liu J. QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. Miami, Florida, USA : Association for Computational Linguistics, 2024. P. 11783–11803. DOI: 10.18653/v1/2024.emnlp-main.658.

Zhang T., Kishore V., Wu F., Weinberger K. Q., Artzi Y. BERTScore: Evaluating Text Generation with BERT. arXiv preprint arXiv:1904.09675. 2019. DOI: 10.48550/arXiv.1904.09675.

Sellam T., Das D., Parikh A. P. BLEURT: Learning Robust Metrics for Text Generation. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online : Association for Computational Linguistics, 2020. P. 7881–7892. DOI: 10.18653/v1/2020.acl-main.704.

Wang Z., Funakoshi K., Okumura M. Automatic Answerability Evaluation for Question Generation. arXiv preprint arXiv:2309.12546. 2023. DOI: 10.48550/arXiv.2309.12546.

Mohammadshahi A., Scialom T., Yazdani M., Yanki P., Fan A., Henderson J., Saeidi M. RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question. Findings of the Association for Computational Linguistics: ACL 2023. Toronto, Canada : Association for Computational Linguistics, 2023. P. 6845–6867. DOI: 10.18653/v1/2023.findings-acl.428.

Houlsby N., Giurgiu A., Jastrzebski S., Morrone B., de Laroussilhe Q., Gesmundo A., Attariyan M., Gelly S. Parameter-Efficient Transfer Learning for NLP. Proceedings of the 36th International Conference on Machine Learning. 2019. Vol. 97. P. 2790–2799. URL: https://proceedings.mlr.press/v97/houlsby19a.html (дата звернення: 29.04.2026).

Li X. L., Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Online : Association for Computational Linguistics, 2021. P. 4582–4597. DOI: 10.18653/v1/2021.acl-long.353.

Hu E. J., Shen Y., Wallis P., Allen-Zhu Z., Li Y., Wang S., Wang L., Chen W. LoRA: Low-Rank Adaptation of Large Language Models. Proceedings of the International Conference on Learning Representations. 2022. URL: https://openreview.net/forum?id=nZeVKeeFYf9 (дата звернення: 29.04.2026).

Liu H., Tam D., Muqeeth M., Mohta J., Huang T., Bansal M., Raffel C. Few-Shot Parameter-Efficient Fine-Tuning Is Better and Cheaper than In-Context Learning. Advances in Neural Information Processing Systems. 2022. Vol. 35. P. 1950–1965. URL: https://proceedings.neurips.cc/paper_files/paper/2022/hash/0cde695b83bd186c1fd456302888454c-Abstract-Conference.html (дата звернення: 29.04.2026).

Guo S., Liao L., Li C., Chua T.-S. A Survey on Neural Question Generation: Methods, Applications, and Prospects. Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence. 2024. P. 8038–8047. DOI: 10.24963/ijcai.2024/889.

Nguyen B., Yu M., Huang Y., Jiang M. Reference-based Metrics Disprove Themselves in Question Generation. Findings of the Association for Computational Linguistics: EMNLP 2024. Miami, Florida, USA : Association for Computational Linguistics, 2024. P. 13651–13666. DOI: 10.18653/v1/2024.findings-emnlp.798.

Завантаження

Опубліковано

2026-04-30