Skip to content

1. pandas とは何か

pandas は Python でデータを操作するための強力なライブラリです。表形式のデータを扱うのに特化しており、特にデータ分析や機械学習の前処理などで広く使用されています。以下では、pandas が提供する主な機能について、わかりやすく説明していきます。

1.1 pandas の特徴

pandas は以下の特徴を持っています:

  • データ構造: pandas は「シリーズ」(Series)と「データフレーム」(DataFrame)の 2 つの主要なデータ構造を提供します。この 2 つを使うことで、データを直感的かつ効率的に操作できます。
  • データ操作: データの選択、フィルタリング、集計、グループ化、変換、結合などの操作が容易に行えます。
  • データの欠損値処理: データ中の欠損値の扱いが簡単にでき、データのクレンジング効率を高めます。

1.2 pandas を使うメリット

pandas を使うことで、以下のようなメリットがあります:

  • 直感的な操作: Excel のような表形式データの操作を、より大規模かつ効率的に行えます。
  • 効率的なデータ処理: 大量のデータを扱う際にも、高速かつ効率的に処理できます。
  • 豊富な機能: データ分析、機械学習の前処理、データの可視化など、様々な用途に対応できます。

1.3 pandas の活用例

以下に簡単なコード例を示します。実際に自身の Python 環境で試してみてください。

1.3.1 Series の例

import pandas as pd

# シリーズの作成
data = [10, 20, 30, 40, 50]
series = pd.Series(data)

print("Series:")
print(series)

1.3.2 DataFrame の例

import pandas as pd

# データフレームの作成
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)

print("DataFrame:")
print(df)

1.3.3 簡単なデータ操作

以下の例では、データフレームから特定の列を選択する操作を示します。

# 特定の列の選択
print("Names column:")
print(df['Name'])

# すべての年齢が30以上の行を取得
print("People aged 30 and above:")
print(df[df['Age'] >= 30])

以上の例を参考にしながら、pandas の基本的な操作に慣れてみてください。実際に手を動かしながら学ぶことで、pandas の便利さと強力さを実感できるでしょう。