Eraser's ProjectLog

  • 홈
  • 태그
  • 방명록
  • StudyLog
  • KnowLog
  • PSLog

감성어 1

[2] 감성어 사전 구축

팀원 간 역할 분담을 통해 포털 사이트 뉴스 플랫폼(네이버, 다음), 유튜브, 커뮤니티(MLBPARK, 루리웹닷컴, 보배드림, 클리앙)에서 약 180만 건의 댓글 데이터를 확보했다. 0408 회의 이후, 데이터 취합 및 전처리, 감성어 사전 구축으로 인원을 분배하여 최대 3일 간 작업을 진행하기로 하였다. 나는 후자의 작업을 맡았다. 해당 단계의 작업을 통해 얻고자 하는 결과물은, 문장별로 긍정/부정을 라벨링하기 위한 근거로서의, 형태소별로 구분된 긍정어/부정어 사전이다. # 데이터 인터넷 게시물, 댓글 데이터는 맞춤법이 제대로 지켜지지 않고, 신조어와 비속어가 많다. 우리 데이터의 특성을 고려한 감성어 사전을 구축해야 한다. 그러나 180만 건의 데이터를 모두 형태소 단위로 분석하고 확인하는 것은 불가..

AI/정책 댓글 반응 NLP 2020.04.10
1
더보기
프로필사진

#즐겁게 #꾸준히 #시나브로

  • 분류 전체보기 (38)
    • AI (25)
      • 정책 댓글 반응 NLP (19)
      • 빅콘테스트 2020 챔피언리그 (2)
      • 제주 신용카드 빅데이터 경진대회 (4)
    • Backend (8)
      • AI App Server (5)
      • Image Server (3)
      • Route Server (0)
    • Infra (1)
    • 기타 (4)

Tag

분류, nginx-upload-module, NGINX, 정적파일, 스크레이핑, 네이버 뉴스, LSTM, Crawling, fastcgi, 자연어처리, Scraping, CGi, 댓글, 파이썬, 감성분석, fcgiwrap, Selenium, NLP, 크롤링, Python,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바