AI/정책 댓글 반응 NLP

[4] 포털 댓글 감성 분석_3. 결과 분석

eraser 2020. 4. 26. 05:16
반응형

 감성 분석 모델링은 순환신경망, BERT 모델에서 완료했다. 모델링 흐름도는 다음과 같다.

 

 

인코더를 제외한, 디코더 부분만 나타낸 모델링 결과

 

 

 

 


 

# 모델 성능 비교

 

 

 정확도를 기준으로 모델링 결과를 단순히 비교하면 다음과 같다.

 

 

 

 

 대부분의 자연어 처리 태스크에서 BERT 모델의 정확도가 다른 모델들을 능가하는 것으로 알려져 있는데, 해당 프로젝트에서 모델링을 진행한 결과는 그렇지 않았다. 다만, 프로젝트가 진행될수록 일정 관리에 어려움을 겪어 BERT 모델에서 에폭 수 조정, 파라미터 조정 등 사소한 부분을 시도해보지 못한 것이 많았다는 점을 감안해야 한다.

 

 

 


 

# 모델 예측 차이

 

 정확도 외에, 각 모델이 실제로 어떻게 댓글을 예측했는지 살펴 보았다. 두 모델의 예측 결과가 다르게 나타난 댓글은 총 13만 건 정도였는데, 샘플링을 통해 랜덤으로 추출하여 어떤 차이가 있는지 살펴 보았다. 

 

 

 

 

 팀원들과 논의를 통해 결과를 해석한 바로는, LSTM 모델의 경우 감성어 사전에 등록된 대로 예측 결과가 나오는 느낌이었다. 예컨대 네 번째, 다섯 번째, 여섯 번째 댓글의 경우, 속된 말로 비꼬는(?) 의미의 댓글이어서 부정의 결과가 나오는 것이 더 맞다고 판단되지만, '좋아요', '웃다'의 단어에 해당하는 형태소가 긍정어 사전에 수록되어 있었기 때문에 모델은 긍정으로 예측하였다.

 반면 BERT 모델의 경우 문맥이 반영되는 느낌이었다. 위에서 LSTM이 비꼬는 댓글의 예시로 제시된 것들을 긍정으로 분류한 것과 달리, BERT 모델은 부정으로 분류해 냈다. 그러나 LSTM 모델이 비교적 잘 분류해 냈다고 판단한 첫 번째, 두 번째 댓글의 경우, BERT 모델은 각각 중립부정으로 분류했다. 문맥을 기반으로 판단하기 때문에 아무래도 문장의 길이가 짧거나 판단할 수 있는 근거가 부족하다면 사람이 판단하기에 '적절하게 예측한 결과'와는 다른 결과가 나오는 것이라 판단된다.

 

 물론 사람이 판단하는 것처럼 모델이 판단해낼 수는 없다. 또한, 예측 결과가 다르게 나타난 댓글을 모두 살펴본 것이 아니기 때문에 해석이 완전하지 않을 수 있다. 

 


 

 

 

# 실제 평가 지표와의 비교

 

 

 마지막으로, 팀에서 진행한 감성분석 결과가 실제 다른 지표와 얼마나 일치하는지 여부를 살펴 보았다. '웹 댓글'에서 사람들의 정책에 대한 긍/부정이 나타나는지 확인하고자 하는 작업이었기 때문에, 정답이 없다. 다만 멘토님들의 피드백처럼 예측 결과가 실제 정책의 평가 지표와 비슷하게 가는지를 확인할 필요가 있었다.

 

 

 첫째로, 정부 부처 인식조사, 갤럽 조사 등을 통해 확인한 주52시간 근무제에 대한 여론 조사 지표와 비교했다.

 

 

 

 

 위의 그림에서 여론 조사 결과가 점선, 우리 팀의 감성분석 결과가 실선이었는데, 두 선의 추이가 달랐다. 여론 조사 결과는 긍정이 많았으나, 우리 팀의 조사 결과는 부정이 많았다. 

 

 

 둘째로, 트렌드 분석 사이트에서 주52시간 근무제에 대한 소셜 트렌드 분석을 실시한 결과와 비교했다.

 

 

 

 

 팀에서 구축한 두 모델 중 정확도가 더 높은 것이 LSTM 모델이었기 때문에, LSTM 모델이 예측한 결과를 바탕으로 비교했다. 부정이 대부분이고, 긍정의 퍼센티지가 비슷하다는 것이 눈에 띈다. 둘 다 웹 데이터를 활용해 감성분석을 진행하는 것이기 때문에, 어느 정도 비슷한 것이 아닐까 싶다.

 다만 우리 모델의 경우 중립으로 판단한 경우가 많았다. LSTM 모델링의 결과가 감성어 사전, 커뮤니티 데이터셋 라벨의 비율과 매우 비슷하게 나타났다는 점을 생각해 본다면, 감성어 사전 혹은 라벨링 알고리즘을 조금 더 정교하게 구성했더라면 중립의 비율을 낮추고 조금 더 비슷한 결과를 얻을 수 있었으리라 판단된다.

 

 


 

# 참고

 

 

 번외로, 각 사이트 별로 긍/부정 추이의 차이가 있을지 비교해 보았다. 처음 프로젝트를 시작하게 된 계기 중 하나이기도 했는데, 우리 팀의 모델링 결과에 의하면 큰 차이를 살펴볼 수는 없었다.

 

 

 

 

 

 네이버와 다음 뉴스 사이트 댓글 간에 차이가 있을 것이라는 게 사람들의 선입견인지, 혹은 우리 팀의 모델링이 정교하지 않았기 때문인지, 나중에 더 생각해보기에 좋은 주제인 듯하다.

반응형