정책 반응 2

[4] 포털 댓글 감성 분석_3. 결과 분석

감성 분석 모델링은 순환신경망, BERT 모델에서 완료했다. 모델링 흐름도는 다음과 같다. # 모델 성능 비교 정확도를 기준으로 모델링 결과를 단순히 비교하면 다음과 같다. 대부분의 자연어 처리 태스크에서 BERT 모델의 정확도가 다른 모델들을 능가하는 것으로 알려져 있는데, 해당 프로젝트에서 모델링을 진행한 결과는 그렇지 않았다. 다만, 프로젝트가 진행될수록 일정 관리에 어려움을 겪어 BERT 모델에서 에폭 수 조정, 파라미터 조정 등 사소한 부분을 시도해보지 못한 것이 많았다는 점을 감안해야 한다. # 모델 예측 차이 정확도 외에, 각 모델이 실제로 어떻게 댓글을 예측했는지 살펴 보았다. 두 모델의 예측 결과가 다르게 나타난 댓글은 총 13만 건 정도였는데, 샘플링을 통해 랜덤으로 추출하여 어떤 차이..

[3] 커뮤니티 글 데이터셋 라벨링

감성분석을 모델링을 진행하기에 앞서 긍정, 부정이 라벨링된 Train Set을 만들기로 했다. 감성어 사전을 바탕으로 형태소 분석을 진행한 뒤, 문장 내 형태소가 긍정어 사전에 있으면 점수에 +1을, 부정어 사전에 있으면 -1을 했고, 각 문장별로 점수가 0보다 작으면 부정(-1), 0보다 크면 긍정(1), 0이면 중립/unknown(0)으로 라벨링했다. 이번 단계의 작업을 통해 얻고자 하는 결과물은, 커뮤니티 게시글, 댓글을 문장 단위로 나누어 긍/부정 라벨링을 진행한 데이터셋이다. # 사용한 라이브러리 KoNLPy Pandas, Numpy Matplotlib.pyplot, Seaborn 더보기 Jupyter Notebook 및 윈도우 환경에서는 KoNLPy를 사용하기에 제약이 많다. 따라서 Googl..