본문 바로가기

파이썬 판다스(Pandas) 사용법과 예제 총정리

culturewide 2024. 7. 27.

 

데이터 분석의 필수 도구, 판다스(Pandas)! 이 강력한 파이썬 라이브러리를 통해 복잡한 데이터를 간편하고 효율적으로 탐색, 정제, 분석할 수 있습니다. 오늘은 판다스의 핵심 개념과 다양한 활용 방법을 자세히 살펴보도록 하죠. 여러분, 준비되셨나요? 그렇다면 함께 시작해 볼까요?? :)

판다스(Pandas)의 데이터 구조

판다스에는 크게 두 가지 핵심 데이터 구조가 있습니다. 바로 '시리즈(Series)'와 '데이터프레임(DataFrame)'입니다.

시리즈(Series)

시리즈는 1차원 데이터 구조로, 인덱스(index)와 값(value)으로 이루어진 배열 형태입니다. 예를 들어 pd.Series([10, 20, 30, 40, 50, 60])와 같이 간단히 생성할 수 있죠. 여기에 인덱스를 지정해 pd.Series([10, 20, 30, 40, 50, 60], index=['a', 'b', 'c', 'd', 'e', 'f'])와 같이 만들 수도 있습니다.

데이터프레임(DataFrame)

데이터프레임은 2차원 데이터 구조로, 행(row)과 열(column)로 구성된 표 형태의 데이터입니다. 예를 들어 pd.DataFrame({ '이름' : ['홍길동', '이순신', '강감찬'], '나이' : [50, 40, 30], '직책' : ['부장', '차장', '과장']})

와 같이 딕셔너리 데이터로 생성할 수 있습니다. 또한 pd.read_excel('c:\\work\\demo.xlsx', 'Sheet1')와 같이 엑셀 파일에서 데이터프레임을 불러올 수도 있죠.

데이터프레임 다루기

이렇게 만들어진 데이터프레임을 어떻게 다룰까요? 다양한 메서드들을 활용해 보겠습니다.

데이터프레임 정보 확인하기

- df.head(), df.tail(): 데이터프레임의 처음/마지막 5개 행 확인 - df.info(): 데이터프레임의 기본 정보(변수, null값, 데이터 타입 등) 확인 - df.describe(): 데이터프레임의 요약 통계량(평균, 표준편차 등) 확인

데이터프레임 분석하기

- df.groupby('성별')['수입'].mean(): 성별로 그룹화하여 수입의 평균 계산 - df.groupby('부서').aggregate({'나이':'mean', '수입':'sum'}): 부서별로 나이의 평균, 수입의 합 계산

데이터프레임 선택하기

- df['사번'], df[['사번', '수입']]: 특정 열 또는 복수 열 선택 - df.loc[1], df.iloc[2]: 인덱스 또는 위치로 행 선택 - df[df['성별'] == 'F'], df[df['수입'] > 100]: 조건에 맞는 행 선택

데이터프레임 수정하기

- df['성별'] = ['남성', '남성', '남성']: 새로운 열 추가 - df = df.drop('성별', axis=1): 특정 열 삭제 와 같이 판다스는 데이터 처리를 위한 다양한 메서드와 기능을 제공합니다!! 이를 통해 데이터를 손쉽게 탐색하고 분석할 수 있죠.

판다스의 활용

이렇게 강력한 기능을 갖춘 판다스는 과학, 금융, 마케팅 등 다양한 분야에서 폭넓게 활용되고 있습니다. 대표적인 예로는 아래와 같은 것들이 있습니다: - 데이터 전처리 및 정제: 결측치 처리, 이상치 제거, 변수 변환 등 - 데이터 시각화: 그래프, 차트 등을 통한 데이터 시각화 - 머신러닝 프로젝트: 데이터 로드, 특성 엔지니어링, 모델 학습 및 평가 등 - 금융 데이터 분석: 주식 데이터 분석, 포트폴리오 최적화 등 - 마케팅 분석: 고객 데이터 분석, 캠페인 성과 측정 등 이처럼 판다스는 다양한 분야에서 데이터 처리 및 분석의 필수 도구로 자리잡고 있습니다!! 특히 복잡한 데이터를 효율적으로 다룰 수 있어 데이터 분석가, 데이터 사이언티스트에게 큰 도움을 줍니다 :)

판다스 학습 팁

마지막으로 판다스를 더욱 잘 활용하기 위한 몇 가지 팁을 드리겠습니다. 첫째, 판다스 공식 문서를 꼭 참고하세요! 공식 문서에는 다양한 기능과 예제가 상세히 소개되어 있어 큰 도움이 될 거예요. 둘째, 실제 데이터로 직접 실습해보세요. 이론만 배우기보다는 실습을 통해 익히는 것이 가장 효과적입니다. 셋째, 다양한 팁과 트릭을 활용해 보세요. 예를 들어 df.isnull().sum(), df.fillna(0) 등의 메서드로 결측치 처리를 할 수 있죠. 넷째, 다른 라이브러리와의 연계 활용을 고려해 보세요. 시각화를 위한 Matplotlib, Seaborn 등과 함께 사용하면 시너지 효과를 얻을 수 있습니다. 다섯째, 관련 커뮤니티에 참여해 보세요. 다른 사용자들의 경험과 노하우를 배울 수 있습니다. 이렇게 다양한 방법으로 판다스를 꾸준히 학습하다 보면, 언젠가는 데이터 분석의 고수가 되실 거예요! 화이팅!! :)

 

댓글