#Data Analysis

7 편의 글

2026년 5월 27일 수요일 6 분 소요

파이썬 데이터 분석 #7 polars 맛보기: pandas가 느려질 때의 다음 수

pandas가 수백만 행 앞에서 버거워질 때 대안이 되는 polars를 소개합니다. 읽기·필터·groupby를 pandas와 polars 코드로 나란히 비교하고, lazy 모드의 개념과 두 도구의 선택 기준까지 정리하며 시리즈를 마무리하겠습니다.

2026년 5월 26일 화요일 8 분 소요

Figure와 Axes로 이해하는 matplotlib의 최소 구조, DataFrame.plot 활용, 목적별 차트 선택 기준, 한글 폰트 깨짐 해결과 savefig 저장까지 시각화 기본기를 정리하겠습니다.

2026년 5월 25일 월요일 7 분 소요

지점별 월별 매출이라는 전형적인 질문에서 출발해 groupby의 사고 모델과 agg 다중 집계, 엑셀 사용자를 위한 pivot_table, SQL JOIN에 대응하는 merge와 concat까지 정리합니다. 결합 후 행 수를 확인하는 검증 습관도 함께 다루겠습니다.

2026년 5월 24일 일요일 7 분 소요

pandas로 새 열을 만드는 벡터 연산부터 str·dt 액세서, NaN의 정체와 dropna·fillna 판단 기준, astype 타입 변경과 중복 제거까지 데이터 정리 작업을 한 편으로 다룹니다.

2026년 5월 23일 토요일 7 분 소요

pandas에서 원하는 행과 열만 골라내는 방법을 정리합니다. 열 선택의 대괄호 하나와 둘의 차이, loc와 iloc의 구분, 조건식이 마스크가 되는 불리언 인덱싱, query 메소드, 그리고 SettingWithCopyWarning이 알려주는 위험까지 다루겠습니다.

2026년 5월 22일 금요일 7 분 소요

read_csv의 encoding·sep·dtype 인자와 cp949 함정, read_excel의 시트 지정, 그리고 불러온 직후 head·info·describe로 데이터 상태를 확인하는 루틴까지 정리합니다.

2026년 5월 21일 목요일 6 분 소요

pandas는 표 형태 데이터를 다루는 파이썬 라이브러리입니다. uv로 노트북 환경을 만들고, Series와 DataFrame이라는 두 구조를 직접 만들어 보며 데이터 분석 7편 시리즈를 시작하겠습니다.