Analysis of emotions using facial expressions and voice features

I.S. Dmytriieva; D.V. Bimalov

doi:10.34185/1562-9945-3-158-2025-03

Автор(и)

I.S. Dmytriieva
D.V. Bimalov

DOI:

https://doi.org/10.34185/1562-9945-3-158-2025-03

Ключові слова:

розпізнавання емоцій, розпізнавання емоцій через звук, розпізнавання емоцій за обличчям, машинне навчання, SVM, комп'ютерний зір, глибоке навчання, CNN.

Анотація

У роботі представлені методи для розпізнавання людських емоцій. Розпізнавання людських емоцій - це галузь штучного інтелекту, що швидко розвивається і має важливе значення для поліпшення взаємодії людини з комп'ютером. Однак більшість сучасних систем розпізнавання емоцій обмежені використанням тільки одного джере-ла даних голосових характеристик, або виразів обличчя, що знижує точність і стій-кість розпізнавання в складних умовах. В цій статті розглядаються методи розпізна-вання емоцій з використанням двох основних каналів - голосового та візуального. У процесі дослідження аналізуються наявні підходи щодо розпізнавання емоцій. Для ана-лізу емоцій розглянуто технології ResNet (для зображень), SER (для звуку). Особливу увагу приділено аналізу й обробці акустичних характеристик, таких як інтонація, гуч-ність, темп мовлення і тривалість пауз, а також використанню методів комп'ютер-ного зору для детекції виразів обличчя, таких як посмішка, затиснуті губи або насуп-лені брови. Це дослідження просуває галузь вивчення емоцій, забезпечуючи краще розу-міння емоційних станів людини.

Посилання

B. Mandal, A. Okeukwu, Y. Theis. Masked face recognition using ResNet-50. (2021), DOI:10.48550/ARXIV.2104.08997

Enguerrand Boitel , Alaa Mohasseb , Ella Haig. MIST: Multimodal emotion recognition using DeBERTa for text, Semi-CNN for speech, ResNet-50 for facial, and 3D-CNN for motion analysis. Expert Systems with Applications Volume 270, 25 April 2025, 126236. DOI: https://doi.org/10.1016/j.eswa.2024.126236

Z. Huang, M. Dong, Q. Mao, Y. Zhan. Speech emotion recognition using CNN. Proceedings of the 22nd ACM international conference on multimedia, Association for Computing Machinery, New York, NY, USA (2014), pp. 801-804, DOI: 10.1145/2647868.2654984

E. Lakomkin, C. Weber, S. Magg, S. Wermter. Reusing neural speech representations for auditory emotion recognition. (2018), DOI: 10.48550/ARXIV.1803.11508