꾸그의 기술: 인공지능

꾸그의 첫 논문 (Contextualized and Aligned Audio-Text Fusion Models for Emotion Recognition)

woody# 2023. 6. 27. 14:52

안녕하세요! 꾸그에서 AI Team Researcher로 활동 중인 Woody입니다. 현재 꾸그가 테크 기업으로 발돋움하기 위해 많은 노력을 하고 있는 데 그 시작점으로서 음성과 텍스트를 활용한 Multi-modal 연구를 간단하게 소개하고자 합니다.

꾸그?

현재 꾸그는 실시간으로 선생님과 아이들이 소통하는 온라인 교육 플랫폼으로 글로랑의 핵심 서비스입니다. "모든 아이 안에는 천재가 숨어있다"라는 비전을 바탕으로 아이들의 숨어있는 천재를 이끌어내는 것이 저희의 목표입니다. 이를 실현시키기 위해, 전형적인 교육 커리큘럼뿐만 아니라 게임 등을 활용한 교육으로 아이들의 다양한 특성을 최대한으로 뽑아낼 수 있는 교육을 제공하고 있으며 현재는 꾸그 수업에 AI를 더하고, 또한 심리학을 바탕으로 한 진로검사에 AI를 활용한 '꾸그 진단'을 통해 아이들의 재능을 수치적으로 드러나게 하는 것을 목표로 하고 있습니다.

 

개요

꾸그는 현재까지 약 2년간 진행된 실시간 교육 플랫폼인 만큼 수업과 관련된 다양한 영상 데이터와 음성 데이터를 확보하였으며 이를 어떻게 활용하여 학생들에게 더욱 고품질의 수업을 제공할 수 있을지에 대한 고민을 하고 있습니다!

 

그 시작점에 있어 가장 간단한 방법으로써 '감정 분석 보조 튜터 AI'를 만들고자 하며, 이를 통해 '수업 중 선생님이 아이들의 감정 상태를 보다 잘 판단하여 아이들을 더욱 잘 캐어할 수 있도록 한다'라는 방향으로 수업의 질을 높이고자 합니다. 마침 Emotion Recognition in Conversation (이하 ERC)에 대한 논문 경진 대회가 ETRI에서 개최하였으며(제2회 ETRI 휴먼이해 인공지능 논문경진대회) 이에 참여함으로써 모델 연구를 진행하였습니다.

 

모델

2026년 대화형 AI 세계 시장 및 글로벌 에듀테크 시장 전망

최근 대화형 AI 세계시장 규모가 굉장히 커지고 있고, 글로벌 에듀테크 시장 역시 빠르게 성장하고 있습니다. 이에 따라서 ERC에 대한 수요도 점점 늘어나고 있고 데이터가 쌓이고 모델이 발전하면서 Uni-modal보다는 Multi-modal 분야로의 연구가 확장되고 있는 추세입니다. 다른 multi-modal 연구들과 마찬가지로 ERC 역시 최근 연구들은 대부분 '두 modality 사이의 정보를 어떻게 효율적이고 성능을 개선할 수 있는 방향으로 합칠 수 있을까?'에 대해 집중적으로 연구되고 있고 그 방식으로서 concatenation 하거나, attention 연산을 활용한 연구들이 많이 배출되고 있습니다.

 

본 연구에서는 '학습 가능한 layer를 통해 음성 임베딩의 길이를 텍스트의 길이로 압축할 경우, latent space 상에서 서로 align 되는 방향으로 학습될 것이다.'라는 가정을 설정한 후에 이를 실험적으로 검증하였습니다.

 

CASE 모델 구조

본 연구에서 위의 가정을 검증하기 위해 2가지 모델 구조를 제안하며 첫 번째인 Compressing 구조는 단순히 오디오 임베딩을 전치시킨 후에 linear layer를 통과시켜 줌으로써 오디오 임베딩의 길이를 텍스트 임베딩의 길이로 압축시켜 줍니다. 두 번째로 Addition 연산의 효과를 확인하기 위해 오디오를 기준으로 한 attention 임베딩을 생성한 후 이를 다시 텍스트 임베딩과 더해주는 Cross Attention 구조를 제안합니다.

 

학습 알고리즘은 다음과 같습니다.

CASE 모델 학습 알고리즘

데이터 및 메트릭

ETRI KEDMY20 Dataset ( 학습 및 테스트 셋으로 분리 )

본 논문 경진 대회에서 제공하는 ERC Dataset의 경우 Neutral Label에 굉장히 치우쳐져 있는 Imbalanced Dataset이었고 이에 대한 적절한 메트릭으로서 Macro-F1 score와 Neutral를 제외한 Micro-F1 score를 사용하였습니다.

 

Imbalanced Dataset에 있어 하나의 Label이 80%가 넘어갈 경우, Weighted-F1 score를 사용하지 않고 80% 이상을 차지하는 Label을 제외한 Micro-F1 score를 사용하는 것이 일반적입니다.

 

실험 결과

실험 결과 (CASE - Compressing, Cross Attention ): 3번의 Random Seed에서의 평균 값.

Compressing을 활용했을 때 모든 Metric에서 가장 좋은 성능을 보였고, 이를 바탕으로 단순히 길이를 압축하는 Layer를 추가한 것이 성능 향상에 유의미한 영향을 끼쳤다는 것을 알 수 있었습니다.

 

또한, Addition 연산을 적용했을 때의 성능이 Concatenation 연산을 적용했을 때의 성능보다 더 좋은 것을 미루어보아, 두 모달리티 사이의 정보가 어느 정도 align 되는 방향으로 학습이 진행되었다고 판단할 수 있었습니다.

 

본 모델의 경우, 가장 간단하게 2개의 Frozen Pre-trained Model 위에 학습 가능한 Classifier Head를 붙인 형태의 모델 구조를 가지고 있는데 단순히 addition 연산을 하기 위한 compressing layer 혹은 cross attention layer만을 삽입함으로써 학습 Parameter의 수는 대폭 줄이면서도 이전 연구에 비해 좋은 성능을 달성할 수 있는 모델 구조를 제안합니다.

 

Future Work

서로 다른 모달리티 사이의 다양한 길이 압축 실험을 통해 compressing layer와 addition 연산을 수행하는 것이 성능 향상에 유의미한 영향을 끼쳤는지 구체적으로 알아보고자 하며, 그렇다면 addition 연산의 성능을 극대화할 수 있는 방법에 대하여 탐구하고자 합니다.

 

또한, 추후 연구로서 실제로 텍스트와 음성이 align이 되었는지 확인할 수 있는 방법에 대하여 탐구해 볼 수 있을 것 같습니다.

 

대회 후기

아주 간단하면서도 효율적인 모델 구조를 발견할 수 있었던 좋은 연구였고 이것 덕분에 학회 논문으로 선정될 수 있었다고 생각합니다. 대회에서 수상한 팀들의 경우 전반적으로 '데이터 처리', '경량화', '수치적 접근' 등으로 다양했고, 단순한 모델 구조에 대한 개선보다는 '흔히 사용하지 않은 방법을 통해서 성능을 개선'한 팀에게 높은 점수를 주었다는 느낌이 강했습니다.

 

또한 작년에도 본 대회와 동일한 대회가 개최되었는데, 작년에 비해 올해 다양하고 창의적인 연구들이 많이 나왔다는 느낌을 받았습니다. 이를 통해 Mutl-modal을 활용한 ERC에 대한 연구가 많은 관심을 받고 있고 발전하고 있다는 것을 다시 한번 느낄 수 있었습니다.

 

꾸그의 현시점

본 연구를 통해 탐구한 모델을 발전시켜 실제로 실시간 교육 서비스에 적용할 예정이며 이를 통해 한 층 더 개선된 꾸그를 만나볼 수 있도록 빠른 시일 내에 적용하고자 합니다.

 

현재 꾸그는 NLP 최신 트렌드는 물론이고, 교육 및 심리 도메인을 중점적으로 AI 연구를 진행 중에 있습니다. '아이들의 재능을 한 층 더 깊게 꺼낼 수 있는 AI란 무엇일까?'라는 질문을 출발로 인공지능 서비스를 개발 중에 있으므로 앞으로 많은 관심 부탁드립니다!

 

Github: https://github.com/Glorang-AI/Emotion-Recognition-in-Conversation

Poster: https://github.com/Glorang-AI/Emotion-Recognition-in-Conversation/blob/main/poster.pdf