#Pandas
7 件の記事
Pythonデータ分析 #7 polars体験 — pandasが遅くなったときの次の一手
pandasが数百万行の前で重くなったときの代替になるpolarsを紹介します。読み込み・フィルタ・groupbyをpandasとpolarsのコードで並べて比較し、lazyモードの概念と2つのツールの使い分け基準まで整理して、シリーズを締めくくります。
Pythonデータ分析 #6 可視化: matplotlibの基本とチャートの選び方
FigureとAxesで理解するmatplotlibの最小構造、DataFrame.plotの活用、目的別のチャート選択基準、日本語フォントの文字化けの解決とsavefigによる保存まで、可視化の基本を整理します。
Pythonデータ分析 #5 グループと結合: groupby、pivot_table、merge
支店別・月別の売上という典型的な質問から出発し、groupbyの思考モデルとaggによる複数集計、Excelユーザー向けのpivot_table、SQLのJOINに対応するmergeとconcatまで整理します。結合後に行数を確認する検証の習慣もあわせて扱います。
Pythonデータ分析 #4 変形と欠損値 — 新しい列・日付・空欄の扱い方
pandasで新しい列を作るベクトル演算から、str・dtアクセサ、NaNの正体とdropna・fillnaの判断基準、astypeによる型変更と重複除去まで、データ整理の作業を1回で扱います。
Pythonデータ分析 #3 選択とフィルタ — loc、iloc、ブールインデックス
pandasで必要な行と列だけを取り出す方法を整理します。列選択の角かっこ1つと2つの違い、locとilocの使い分け、条件式がマスクになるブールインデックス、queryメソッド、そしてSettingWithCopyWarningが知らせる危険まで扱います。
Pythonデータ分析 #2 データ読み込み — CSV、Excel、そして最初の探索
read_csvのencoding・sep・dtype引数とShift_JIS(cp932)の落とし穴、read_excelのシート指定、そして読み込み直後にhead・info・describeでデータの状態を確認するルーチンまで整理します。
Pythonデータ分析 #1 pandas入門 — ノートブックとDataFrameという作業台
pandasは表形式のデータを扱うPythonライブラリです。uvでノートブック環境を作り、SeriesとDataFrameという2つの構造を実際に作りながら、全7回のデータ分析シリーズを始めます。