Eraser's ProjectLog

  • 홈
  • 태그
  • 방명록
  • StudyLog
  • KnowLog
  • PSLog

루리웹닷컴 1

[1] 커뮤니티 게시물 크롤러_2. 루리웹닷컴

# 사전 작업 루리웹닷컴의 경우, 검색어를 통합검색 창에 검색했을 때 뉴스, 게시글, 댓글, 마이피, 구글 통합검색 결과가 모두 검색되어 한 화면에 결과로 나온다. 뉴스와 구글 통합검색 결과는 애초에 팀의 크롤링 대상이 아니기 때문에 제외한다. 마이피는 루리웹닷컴만의 게시판인 것 같은데, 루리웹 회원들만의 공간으로 판단된다. 회원 아이디가 없으면 접근할 수 없는 경우도 있고, 공론장에 게시된 글이나 댓글으로 판단하기에는 무리가 있기 때문에 크롤링하지 않는다. 따라서 검색 결과 창에서 게시글과 댓글만을 크롤링하기로 한다. 그러나 의사결정이 필요한 부분에 부딪혔다. 문제는 다음과 같았다. 첫째, 댓글로 검색된 결과 중 게시글 검색 결과에 포함된 글이 있을 수 있다. 둘째, 댓글로 검색된 결과 중, 실제 클릭..

AI/정책 댓글 반응 NLP 2020.04.06
1
더보기
프로필사진

#즐겁게 #꾸준히 #시나브로

  • 분류 전체보기 (38)
    • AI (25)
      • 정책 댓글 반응 NLP (19)
      • 빅콘테스트 2020 챔피언리그 (2)
      • 제주 신용카드 빅데이터 경진대회 (4)
    • Backend (8)
      • AI App Server (5)
      • Image Server (3)
      • Route Server (0)
    • Infra (1)
    • 기타 (4)

Tag

NGINX, 감성분석, 자연어처리, nginx-upload-module, 파이썬, 정적파일, fastcgi, NLP, Selenium, 분류, fcgiwrap, CGi, 스크레이핑, 네이버 뉴스, Python, Crawling, LSTM, 크롤링, Scraping, 댓글,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바