엠엘비파크 3

[1] 커뮤니티 게시물 크롤러_1. MLBPARK_2. 코드 수정 및 마무리

이번 단계의 작업에서는 이전 단계의 작업에서 찾아낸 문제점을 위주로 코드를 수정한다. 작업을 통해 얻고자 하는 결과물은 크롤러가 직접 MLBPARK 불펜에서 '주52시간'을 검색하여 찾아낸 마지막 페이지 범위까지의 게시물들 중, 커뮤니티 이름(MLBPARK), 글 제목, 글 작성 시간, 글 작성자, 추천 수, 조회 수, 댓글 수, 댓글 내용이다. # 사용한 라이브러리 Requests Selenium time BeautifulSoup urllib.parse csv # 데이터 추출 코드 수정 첫 번째로, 조회 수와 추천 수가 똑같다는 문제를 해결했다. 기존에 내 코드가 선택한 부분은 파란 음영이 칠해진 부분(..!)이었다. 선택해야 하는 부분은 빨간색 상자 부분이다. 조회수 정보를 담은 태그를 찾기 위해, ..

[1] 커뮤니티 게시물 크롤러_1. MLBPARK_1. 데이터 적재

이번 단계의 작업에서는 크롤러를 통해 MLBPARK 글과 댓글을 스크레이핑하고, 그것을 저장하는 함수를 만든다. 작업을 통해 얻고자 하는 결과물은 크롤러가 직접 MLBPARK 불펜에서 '주52시간'을 검색하여 찾아낸 마지막 페이지 범위까지의 게시물들 중, 커뮤니티 이름(MLBPARK), 글 제목, 글 작성 시간, 글 작성자, 추천 수, 조회 수, 댓글 수, 댓글 내용이다. # 사용한 라이브러리 Requests Selenium time BeautifulSoup urllib.parse csv # 검색 결과 마지막 페이지 얻기 네이버 크롤러에서와 달리, Selenium을 이용해 마지막 페이지에 갈 때까지 클릭한다. 마지막 페이지에 가면 '다음' 버튼이 나오지 않는다는 것을 활용했다. '다음' 버튼은 class..

[1] 커뮤니티 게시물 크롤러_1. MLBPARK_0. 사전 작업

0401 회의 이후, 나는 MLBPARK와 루리웹닷컴에서 주52시간 관련 게시물들을 크롤링하는 역할을 맡았다. 아직 네이버 뉴스 댓글 크롤러를 업그레이드하지는 못했지만, 일단 이를 활용해 필요한 데이터를 쌓는다. 사전 작업으로, 어떤 데이터를, 어디에서 얻어야 하는지 파악한다. 이후, 필요한 정보를 얻기 위해 내가 만들 크롤러가 어떤 링크들을 타고 돌아다녀야 하는지, 그 링크들의 URL 구조가 어떻게 되는지 파악한다. # 어떤 데이터를 얻어야 하는가? 우선 MLBPARK 사이트에서 야구 관련 게시물이 아닌 글들은 전부 BULLPEN 게시판에 올라와 있다. 따라서 MLBPARK BULLPEN 게시판이 정보를 얻을 곳이다. 첫째, MLBPARK BULLPEN 게시판에서, 둘째, '주52시간'을 검색하면 나오..