5. データの確認と基本操作(head, info, describe など)¶
データ分析では、データセットの内容を把握することが最初のステップです。pandas ライブラリを用いることで、データの確認と基本的な操作が容易になります。この教材では、pandas を利用してデータを確認し、基本操作を行う方法を学びます。
5.1 head メソッドを使ったデータ確認¶
head()
メソッドは、データフレームの最初の数行を表示させるために使用します。デフォルトでは、最初の 5 行が表示されます。
これは、データの概要を確認し、どのような情報が含まれているかを把握するのに役立ちます。
import pandas as pd
# サンプルデータの作成
data = {
'名前': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'年齢': [23, 30, 22, 40, 35],
'職業': ['エンジニア', '医師', '学生', '弁護士', '教師']
}
df = pd.DataFrame(data)
# データの確認
print(df.head())
5.2 info メソッドを使ったデータ構造の確認¶
info()
メソッドは、データフレームに関する基本情報を表示します。データ型や欠損値の有無などを確認することができます。
このメソッドを使うと、各カラムのデータ型、非ヌルの値の数など、データフレーム全体の構造を理解するのに便利です。
5.3 describe メソッドを使った基本的な統計量の確認¶
describe()
メソッドは、数値データに関する基本的な統計量を表示します。平均値、標準偏差、最小値、最大値、四分位数(25%、50%、75%)などの情報を得ることができます。
この方法は、特に数値データを含むデータセットで、データの分布や傾向を理解するときに重要です。
5.4 まとめ¶
これらの基本メソッドを活用することで、pandas を用いてデータセットの構造や内容を簡単に把握することができます。データ分析の初期段階でこれらのメソッドを適切に使うことにより、次の分析手順を効率よく進められるようになります。ぜひ実際にコードを動かして、データを確認してみてくださいね。