#Data Analysis
7 편의 글
파이썬 데이터 분석 #7 polars 맛보기: pandas가 느려질 때의 다음 수
pandas가 수백만 행 앞에서 버거워질 때 대안이 되는 polars를 소개합니다. 읽기·필터·groupby를 pandas와 polars 코드로 나란히 비교하고, lazy 모드의 개념과 두 도구의 선택 기준까지 정리하며 시리즈를 마무리하겠습니다.
파이썬 데이터 분석 #6 시각화: matplotlib 기본기와 차트 고르기
Figure와 Axes로 이해하는 matplotlib의 최소 구조, DataFrame.plot 활용, 목적별 차트 선택 기준, 한글 폰트 깨짐 해결과 savefig 저장까지 시각화 기본기를 정리하겠습니다.
파이썬 데이터 분석 #5 그룹과 결합: groupby, pivot_table, merge
지점별 월별 매출이라는 전형적인 질문에서 출발해 groupby의 사고 모델과 agg 다중 집계, 엑셀 사용자를 위한 pivot_table, SQL JOIN에 대응하는 merge와 concat까지 정리합니다. 결합 후 행 수를 확인하는 검증 습관도 함께 다루겠습니다.
파이썬 데이터 분석 #4 변형과 결측치: 새 열, 날짜, 빈 칸 다루기
pandas로 새 열을 만드는 벡터 연산부터 str·dt 액세서, NaN의 정체와 dropna·fillna 판단 기준, astype 타입 변경과 중복 제거까지 데이터 정리 작업을 한 편으로 다룹니다.
파이썬 데이터 분석 #3 선택과 필터: loc, iloc, 불리언 인덱싱
pandas에서 원하는 행과 열만 골라내는 방법을 정리합니다. 열 선택의 대괄호 하나와 둘의 차이, loc와 iloc의 구분, 조건식이 마스크가 되는 불리언 인덱싱, query 메소드, 그리고 SettingWithCopyWarning이 알려주는 위험까지 다루겠습니다.
파이썬 데이터 분석 #2 데이터 불러오기: CSV, 엑셀, 그리고 첫 탐색
read_csv의 encoding·sep·dtype 인자와 cp949 함정, read_excel의 시트 지정, 그리고 불러온 직후 head·info·describe로 데이터 상태를 확인하는 루틴까지 정리합니다.
파이썬 데이터 분석 #1 pandas 시작: 노트북과 DataFrame이라는 작업대
pandas는 표 형태 데이터를 다루는 파이썬 라이브러리입니다. uv로 노트북 환경을 만들고, Series와 DataFrame이라는 두 구조를 직접 만들어 보며 데이터 분석 7편 시리즈를 시작하겠습니다.