반응형
프로젝트 도중 데이터 분석이 필요할 때면, Pandas 쓸 일이 많다. 여기 저기서 자주 사용했는데, 정리하기에는 너무 사소해서 정리하지 않다 보니 자꾸 또 다시 찾아보게 된다. 사소하지만 내 기준에서 유용하고, 까먹고 싶지 않은 Pandas 사용법을 몰아 넣어 정리해 본다.
중복 답변 개수 체크
프로젝트 기획 단계에서 설문 중복 응답을 분류할 때 사용했던 코드이다.
df['앱이름_수정'] = df['앱이름'].str.replace(r"\([^()]*\)", "") # 괄호 안 설명 제거
new_df = df['앱이름_수정'].str.split(',', expand=True) # 중복 답안 각각의 컬럼으로 expand
new_df.stack().reset_index().value_counts([0]) # stack 후 개수 세기
'[서비스명 후보](서비스명 후보에 대한 설명)' 형태로, 중복 응답이 가능했던 문항에 대한 응답을 분류할 때 유용했다. 다른 건 다 괜찮고, 정규표현식을 사용해 서비스명에 대한 설명을 제거하는 과정이 좀 귀찮았기에 기록한다. 사실 정규표현식은 쓸 때마다 찾아봐야 해서 넘나리 어렵...
- \(, \): `(`로 시작해서 `)`로 끝나는 문자열
- []*: `[]` 안의 패턴과 일치하는 문자열 모두
- ^(): `()` 안에 등장하는 문자열을 제외한 모두. 여기서는 ()안에 아무 것도 없으므로 모든 문자
반응형
'기타' 카테고리의 다른 글
[뉴스 크롤링] 네이버 뉴스 마지막 페이지까지 똑똑하게 검색하기 (feat.JK) (0) | 2020.06.27 |
---|---|
[트위터 크롤링] GetOldTweets3 (22) | 2020.06.11 |
[크롤링] TIL (0) | 2020.05.19 |