기타

[크롤링] TIL

eraser 2020. 5. 19. 04:06
반응형

# 궁금증 + 공부해야 할 사항

  • 마지막 페이지 반환 시 리스트 구조 사용하면 비효율적이지 않을까?
  • Selenium 활용 크롤링 시, Connection Error 왜 발생하나? 어떻게 해결할 수 있을까?
  • 루리웹 커뮤니티 크롤링 시, 이전 버튼과 다음 버튼의 class, id가 모두 같아 고생했다. 수작업 말고 해결할 수 있는 방법 없나? (팀원 보배드림 사이트 크롤링 코드 참고)
  • 정보 저장 시 JSON 활용하면 어떨까?
  • 함수를 모듈화하려면? 지금은 한 페이지에 있어 너무 길고 지저분하다.
  • class 사용하여 네이버 뉴스 크롤러, 커뮤니티 크롤러 모두 한 번에 활용하려면?

 

# 느낀 점

  • 달라들지 말자. 먼저 무슨 데이터를 얻어야 할지 생각하고, 작업을 단계별로 나누어 구조화하자.
  • 작업 과정 틈틈이 제대로 진행되고 있는지 확인하는 습관을 들이자.
  • Selenium을 활용하자. 동적 페이지 크롤링 시 매우 유용하다.
  • 크롤링 도중 에러가 발생하면 골치 아프다. 어디까지 진행되었는지 꼭 저장해두자. 모든 링크 한 번에 다 돌고, 정보 다 저장해 놓고, 그러다가 에러 생기면 처음부터 다시 진행해야 한다.

 

(200726 추가) 지금 코드 다시 보니 비효율적인 부분이 있고, 무엇보다 전역 변수를 사용한 게 매우 마음에 들지 않는다. global 웬만하면 쓰지 말라고 배우고 나니, 전에 왜 그렇게 했는지 싶다😭

 
# 윤리

웹 크롤링을 할 때에는 항상 url 뒤에 "robots.txt"를 붙여서 무엇을 해도 되는지, 하지 말아야 되는지 확인하자.

예) https://google.com/robots.txt, https://www.mlbpark.com/robots.txt.

반응형