Python pandas
ライブラリ完全ガイド
Python の pandas
は、データ分析とデータ操作を効率的に行うための強力なライブラリです。本記事では、pandas
の主要な機能とその活用方法について詳しく解説します。
1. pandas
ライブラリの概要
pandas
は、データ処理や分析のためのライブラリであり、DataFrame
とSeries
を中心に操作します。- CSV、Excel、SQL などのデータソースとの連携が可能。
- データのフィルタリング、集計、統計処理などが簡単にできる。
インストール方法
pandas
は pip
で簡単にインストールできます。
pip install pandas
2. 主な機能と使用例
(1) DataFrame
の作成
import pandas as pd data = {"名前": ["Alice", "Bob", "Charlie"], "年齢": [25, 30, 35]} df = pd.DataFrame(data) print(df)
使用例:
リストや辞書から DataFrame
を作成し、データを管理する。
(2) CSV ファイルの読み込み
import pandas as pd df = pd.read_csv("data.csv") print(df.head())
使用例: CSV ファイルを読み込んでデータを分析する。
(3) データのフィルタリング
import pandas as pd df = pd.DataFrame({"名前": ["Alice", "Bob", "Charlie"], "年齢": [25, 30, 35]}) filtered_df = df[df["年齢"] > 30] print(filtered_df)
使用例: 特定の条件を満たすデータを抽出する。
(4) データの集計
import pandas as pd df = pd.DataFrame({"カテゴリ": ["A", "B", "A", "B"], "売上": [100, 200, 150, 250]}) print(df.groupby("カテゴリ")["売上"].sum())
使用例: カテゴリごとに売上を集計する。
(5) 統計量の計算
import pandas as pd df = pd.DataFrame({"値": [10, 20, 30, 40, 50]}) print(df.describe())
使用例: データの平均、標準偏差、最小・最大値を取得する。
(6) 欠損値の処理(dropna
, fillna
)
import pandas as pd df = pd.DataFrame({"名前": ["Alice", "Bob", None], "年齢": [25, None, 35]}) print(df.dropna()) # 欠損値を削除 print(df.fillna("不明")) # 欠損値を埋める
使用例: データの前処理として、欠損値の処理を行う。
(7) 列の追加と削除(assign
, drop
)
import pandas as pd df = pd.DataFrame({"名前": ["Alice", "Bob"], "年齢": [25, 30]}) df = df.assign(性別=["女性", "男性"]) # 新しい列を追加 df = df.drop("年齢", axis=1) # 列を削除 print(df)
使用例: データに新しい情報を追加したり、不要なデータを削除する。
(8) インデックスの変更(set_index
, reset_index
)
import pandas as pd df = pd.DataFrame({"ID": [101, 102, 103], "名前": ["Alice", "Bob", "Charlie"]}) df = df.set_index("ID") print(df) df = df.reset_index() print(df)
使用例: データの整理や検索をしやすくするためにインデックスを設定・解除する。
(9) ソート(sort_values
)
import pandas as pd df = pd.DataFrame({"名前": ["Alice", "Bob", "Charlie"], "年齢": [30, 25, 35]}) df = df.sort_values("年齢") print(df)
使用例: データを特定の列の値で昇順・降順に並べ替える。
(10) データの結合(merge
)
import pandas as pd df1 = pd.DataFrame({"ID": [1, 2, 3], "名前": ["Alice", "Bob", "Charlie"]}) df2 = pd.DataFrame({"ID": [1, 2, 3], "年齢": [25, 30, 35]}) merged_df = pd.merge(df1, df2, on="ID") print(merged_df)
使用例: 異なるデータセットを結合し、統合された情報を作成する。
3. pandas
の主な機能
機能 | 説明 |
---|---|
DataFrame |
テーブル形式のデータを扱う基本構造 |
read_csv |
CSV ファイルを読み込む |
groupby |
データをグループ化して集計する |
describe |
基本的な統計量を取得する |
query |
データのフィルタリングを簡単に行う |
まとめ
Python の pandas
ライブラリを活用すると、データ分析が簡単に行えます。データ処理、統計分析、機械学習の前処理など、幅広い分野で活用できるため、ぜひ pandas
を使ってデータ分析を効率化しましょう! 🚀