okpy

Pythonエンジニア兼テックリーダーが、多くのプロジェクトとチーム運営から得た実践的な知識を共有するブログです。

pandas ライブラリを活用したデータ処理の基本構造

Python pandas ライブラリ完全ガイド

Pythonpandas は、データ分析とデータ操作を効率的に行うための強力なライブラリです。本記事では、pandas の主要な機能とその活用方法について詳しく解説します。

1. pandas ライブラリの概要

  • pandas は、データ処理や分析のためのライブラリであり、DataFrameSeries を中心に操作します。
  • CSVExcelSQL などのデータソースとの連携が可能。
  • データのフィルタリング、集計、統計処理などが簡単にできる。

インストール方法

pandaspip で簡単にインストールできます。

pip install pandas

2. 主な機能と使用例

(1) DataFrame の作成

import pandas as pd

data = {"名前": ["Alice", "Bob", "Charlie"], "年齢": [25, 30, 35]}
df = pd.DataFrame(data)
print(df)

使用例: リストや辞書から DataFrame を作成し、データを管理する。


(2) CSV ファイルの読み込み

import pandas as pd

df = pd.read_csv("data.csv")
print(df.head())

使用例: CSV ファイルを読み込んでデータを分析する。


(3) データのフィルタリング

import pandas as pd

df = pd.DataFrame({"名前": ["Alice", "Bob", "Charlie"], "年齢": [25, 30, 35]})
filtered_df = df[df["年齢"] > 30]
print(filtered_df)

使用例: 特定の条件を満たすデータを抽出する。


(4) データの集計

import pandas as pd

df = pd.DataFrame({"カテゴリ": ["A", "B", "A", "B"], "売上": [100, 200, 150, 250]})
print(df.groupby("カテゴリ")["売上"].sum())

使用例: カテゴリごとに売上を集計する。


(5) 統計量の計算

import pandas as pd

df = pd.DataFrame({"値": [10, 20, 30, 40, 50]})
print(df.describe())

使用例: データの平均、標準偏差、最小・最大値を取得する。


(6) 欠損値の処理(dropna, fillna

import pandas as pd

df = pd.DataFrame({"名前": ["Alice", "Bob", None], "年齢": [25, None, 35]})
print(df.dropna())  # 欠損値を削除
print(df.fillna("不明"))  # 欠損値を埋める

使用例: データの前処理として、欠損値の処理を行う。


(7) 列の追加と削除(assign, drop

import pandas as pd

df = pd.DataFrame({"名前": ["Alice", "Bob"], "年齢": [25, 30]})
df = df.assign(性別=["女性", "男性"])  # 新しい列を追加
df = df.drop("年齢", axis=1)  # 列を削除
print(df)

使用例: データに新しい情報を追加したり、不要なデータを削除する。


(8) インデックスの変更(set_index, reset_index

import pandas as pd

df = pd.DataFrame({"ID": [101, 102, 103], "名前": ["Alice", "Bob", "Charlie"]})
df = df.set_index("ID")
print(df)
df = df.reset_index()
print(df)

使用例: データの整理や検索をしやすくするためにインデックスを設定・解除する。


(9) ソート(sort_values

import pandas as pd

df = pd.DataFrame({"名前": ["Alice", "Bob", "Charlie"], "年齢": [30, 25, 35]})
df = df.sort_values("年齢")
print(df)

使用例: データを特定の列の値で昇順・降順に並べ替える。


(10) データの結合(merge

import pandas as pd

df1 = pd.DataFrame({"ID": [1, 2, 3], "名前": ["Alice", "Bob", "Charlie"]})
df2 = pd.DataFrame({"ID": [1, 2, 3], "年齢": [25, 30, 35]})
merged_df = pd.merge(df1, df2, on="ID")
print(merged_df)

使用例: 異なるデータセットを結合し、統合された情報を作成する。


3. pandas の主な機能

機能 説明
DataFrame テーブル形式のデータを扱う基本構造
read_csv CSV ファイルを読み込む
groupby データをグループ化して集計する
describe 基本的な統計量を取得する
query データのフィルタリングを簡単に行う

まとめ

Pythonpandas ライブラリを活用すると、データ分析が簡単に行えます。データ処理、統計分析、機械学習の前処理など、幅広い分野で活用できるため、ぜひ pandas を使ってデータ分析を効率化しましょう! 🚀