기타

어디다 기록할 지 몰라 여기로 온 Pandas 사용법

eraser 2021. 5. 2. 21:35
반응형

  프로젝트 도중 데이터 분석이 필요할 때면, Pandas 쓸 일이 많다. 여기 저기서 자주 사용했는데, 정리하기에는 너무 사소해서 정리하지 않다 보니 자꾸 또 다시 찾아보게 된다. 사소하지만 내 기준에서 유용하고, 까먹고 싶지 않은 Pandas 사용법을 몰아 넣어 정리해 본다.

 

 


 

중복 답변 개수 체크

 

 프로젝트 기획 단계에서 설문 중복 응답을 분류할 때 사용했던 코드이다.

 

df['앱이름_수정'] = df['앱이름'].str.replace(r"\([^()]*\)", "") # 괄호 안 설명 제거
new_df = df['앱이름_수정'].str.split(',', expand=True) # 중복 답안 각각의 컬럼으로 expand
new_df.stack().reset_index().value_counts([0]) # stack 후 개수 세기

 

'[서비스명 후보](서비스명 후보에 대한 설명)' 형태로, 중복 응답이 가능했던 문항에 대한 응답을 분류할 때 유용했다. 다른 건 다 괜찮고, 정규표현식을 사용해 서비스명에 대한 설명을 제거하는 과정이 좀 귀찮았기에 기록한다. 사실 정규표현식은 쓸 때마다 찾아봐야 해서 넘나리 어렵...

  • \(, \): `(`로 시작해서 `)`로 끝나는 문자열
  • []*: `[]` 안의 패턴과 일치하는 문자열 모두
  • ^(): `()` 안에 등장하는 문자열을 제외한 모두. 여기서는 ()안에 아무 것도 없으므로 모든 문자

 

처음 설문 응답 데이터의 정제

 

 

반응형