КОНТЕКСТНО ЗАЛЕЖНА АДАПТАЦІЯ ВІДПОВІДЕЙ ГЕНЕРАТИВНИХ LLM

Автор(и)

  • M.O. Berezuk
  • A.I. Guda

DOI:

https://doi.org/10.34185/1991-7848.itmm.2025.01.089

Ключові слова:

Контекстно залежна генерація, Великі мовні моделі, Адаптивне вирівнювання, Модуляція нейронів, Кризова інформатика, Датасет HumAID, Втручання на рівні шарів, Архітектури трансформера, Адаптація поведінки моделі

Анотація

В умовах кризових ситуацій оперативність реагування набуває вирішального значення. Великі мовні моделі (LLM) здатні генерувати корисні рекомендації, однак їх стандартна поведінка часто не враховує специфічний контекст надзвичайних подій. У цій доповіді пропонується Adaptive Injectable Realignment Model (Adaptive IRM) як підхід для досягнення контекстно залежної генерації відповідей. Adaptive IRM – це невеликий нейронний модуль, який інтегрується у прямий прохід LLM та ін’єктує контекстні сигнали для корекції внутрішніх представлень моделі без зміни її основних ваг. Наша розробка орієнтована на кризовий контекст, з використанням N нейронів (у нашому випадку N = 4), які відповідають за стихійні лиха (землетрус, повінь, пожежу та ураган). Вихідні сигнали Adaptive IRM, які додаються на різних шарах трансформера, модифікує механізми уваги з метою підсилення інформації, релевантної конкретному контексту. У доповіді окреслено архітектуру IRM, описано запропоновані розширення, а також подано план використання датасету HumAID для навчання Adaptive IRM. Експериментальні результати поки відсутні; натомість, обговорено концепцію, мотивацію та перспективи впровадження запропонованої системи.

Посилання

Smith, B., Baker, D., Chase, C., et al. The Mysterious Case of Neuron 1512: Injectable Realignment Architectures Reveal Internal Characteristics of Meta’s Llama 2 Model // arXiv [preprint]. – 2024. – ID: arXiv:2407.03621. – Available at: https://arxiv.org/abs/2407.03621 (Accessed: [date not specified]).

Dathathri, S., et al. Plug and Play Language Models: A Simple Approach to Controlled Text Generation // Proceedings of the 8th International Conference on Learning Representations (ICLR). – 2020.

Alam, F., Qazi, U., Imran, M., Ofli, F. HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep Learning Benchmarks // Proceedings of the ICWSM 2021 Conference. – 2021.

Otal, H. T., Canbaz, M. A. LLM-Assisted Crisis Management: Building Advanced LLM Platforms for Effective Emergency Response and Public Collaboration // arXiv [preprint]. – 2024. – ID: arXiv:2402.10908. – Available at: https://arxiv.org/abs/2402.10908 (Accessed: [date not specified]).

DRAGN Labs. Injectable Alignment Model – README [GitHub Repository, electronic resource]. – 2024. – Available at: https://github.com/DRAGNLabs/InjectableAlignmentModel (Accessed: [date not specified]).

Завантаження

Опубліковано

2025-06-04

Номер

Розділ

Статті