반응형
# 궁금증 + 공부해야 할 사항
- 마지막 페이지 반환 시 리스트 구조 사용하면 비효율적이지 않을까?
- Selenium 활용 크롤링 시, Connection Error 왜 발생하나? 어떻게 해결할 수 있을까?
- 루리웹 커뮤니티 크롤링 시, 이전 버튼과 다음 버튼의 class, id가 모두 같아 고생했다. 수작업 말고 해결할 수 있는 방법 없나? (팀원 보배드림 사이트 크롤링 코드 참고)
- 정보 저장 시 JSON 활용하면 어떨까?
- 함수를 모듈화하려면? 지금은 한 페이지에 있어 너무 길고 지저분하다.
- class 사용하여 네이버 뉴스 크롤러, 커뮤니티 크롤러 모두 한 번에 활용하려면?
# 느낀 점
- 달라들지 말자. 먼저 무슨 데이터를 얻어야 할지 생각하고, 작업을 단계별로 나누어 구조화하자.
- 작업 과정 틈틈이 제대로 진행되고 있는지 확인하는 습관을 들이자.
- Selenium을 활용하자. 동적 페이지 크롤링 시 매우 유용하다.
- 크롤링 도중 에러가 발생하면 골치 아프다. 어디까지 진행되었는지 꼭 저장해두자. 모든 링크 한 번에 다 돌고, 정보 다 저장해 놓고, 그러다가 에러 생기면 처음부터 다시 진행해야 한다.
(200726 추가) 지금 코드 다시 보니 비효율적인 부분이 있고, 무엇보다 전역 변수를 사용한 게 매우 마음에 들지 않는다. global 웬만하면 쓰지 말라고 배우고 나니, 전에 왜 그렇게 했는지 싶다😭
# 윤리
웹 크롤링을 할 때에는 항상 url 뒤에 "robots.txt"를 붙여서 무엇을 해도 되는지, 하지 말아야 되는지 확인하자.
예) https://google.com/robots.txt, https://www.mlbpark.com/robots.txt.
반응형
'기타' 카테고리의 다른 글
어디다 기록할 지 몰라 여기로 온 Pandas 사용법 (0) | 2021.05.02 |
---|---|
[뉴스 크롤링] 네이버 뉴스 마지막 페이지까지 똑똑하게 검색하기 (feat.JK) (0) | 2020.06.27 |
[트위터 크롤링] GetOldTweets3 (22) | 2020.06.11 |