1. pandas とは何か¶
pandas は Python でデータを操作するための強力なライブラリです。表形式のデータを扱うのに特化しており、特にデータ分析や機械学習の前処理などで広く使用されています。以下では、pandas が提供する主な機能について、わかりやすく説明していきます。
1.1 pandas の特徴¶
pandas は以下の特徴を持っています:
- データ構造: pandas は「シリーズ」(Series)と「データフレーム」(DataFrame)の 2 つの主要なデータ構造を提供します。この 2 つを使うことで、データを直感的かつ効率的に操作できます。
- データ操作: データの選択、フィルタリング、集計、グループ化、変換、結合などの操作が容易に行えます。
- データの欠損値処理: データ中の欠損値の扱いが簡単にでき、データのクレンジング効率を高めます。
1.2 pandas を使うメリット¶
pandas を使うことで、以下のようなメリットがあります:
- 直感的な操作: Excel のような表形式データの操作を、より大規模かつ効率的に行えます。
- 効率的なデータ処理: 大量のデータを扱う際にも、高速かつ効率的に処理できます。
- 豊富な機能: データ分析、機械学習の前処理、データの可視化など、様々な用途に対応できます。
1.3 pandas の活用例¶
以下に簡単なコード例を示します。実際に自身の Python 環境で試してみてください。
1.3.1 Series の例¶
import pandas as pd
# シリーズの作成
data = [10, 20, 30, 40, 50]
series = pd.Series(data)
print("Series:")
print(series)
1.3.2 DataFrame の例¶
import pandas as pd
# データフレームの作成
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print("DataFrame:")
print(df)
1.3.3 簡単なデータ操作¶
以下の例では、データフレームから特定の列を選択する操作を示します。
# 特定の列の選択
print("Names column:")
print(df['Name'])
# すべての年齢が30以上の行を取得
print("People aged 30 and above:")
print(df[df['Age'] >= 30])
以上の例を参考にしながら、pandas の基本的な操作に慣れてみてください。実際に手を動かしながら学ぶことで、pandas の便利さと強力さを実感できるでしょう。