Skip to content

3. 基本的な使い方とデータセットの読み込み

Seaborn はデータの可視化を簡単に行える Python ライブラリで、特に統計的なデータ可視化に強い特徴を持っています。この章では、Seaborn の基本的な使い方と、データセットの読み込み方法について学びます。

3.1 Seaborn の基本的な使い方

3.1.1 Seaborn ライブラリのインポート

Seaborn を使うには、まずライブラリをインポートする必要があります。通常、以下のように import 文を使います。

import seaborn as sns
import matplotlib.pyplot as plt

3.1.2 データセットの用意

Seaborn では、様々な組み込みデータセットを簡単に利用することができます。これらのデータセットは、関数sns.load_dataset()を使って読み込むことができます。

例えば、"tips"というデータセットを利用してみましょう。

# 組み込みデータセット"tips"の読み込み
tips = sns.load_dataset("tips")

このデータセットには、飲食店でのチップのデータが含まれており、以下のような情報が含まれています。

  • total_bill: 合計請求額
  • tip: チップ額
  • sex: 性別
  • smoker: 喫煙者かどうか
  • day: 曜日
  • time: 昼か夜か
  • size: グループの人数

3.1.3 データセットの確認

データセットが正常に読み込まれたか確認するために、Pandas のhead()メソッドを使ってデータの最初の数行を表示します。

# データの最初の5行を表示
print(tips.head())

3.2 基本的なプロットの例

さて、読み込んだデータセットを使って、実際に基本的なデータ可視化を行ってみましょう。

3.2.1 散布図の作成

まずは、Seaborn で最も基本的なプロットの一つである散布図を作成してみましょう。ここでは、total_billtipの関係を視覚化します。

# 散布図の作成
sns.scatterplot(x="total_bill", y="tip", data=tips)
plt.title("Total Bill vs Tip")
plt.show()

このプロットにより、請求額とチップ額の関係を視覚的に理解することができます。

3.2.2 ヒストグラムの作成

次に、ヒストグラムを使ってデータの分布を見てみましょう。total_billの分布を可視化してみます。

# ヒストグラムの作成
sns.histplot(tips["total_bill"], bins=30)
plt.title("Distribution of Total Bill")
plt.show()

ヒストグラムは、データの分布を視覚的に理解するのに役立ちます。

3.3 まとめ

この章では、Seaborn を用いた基本的な使い方とデータセットの読み込み方法について学びました。Seaborn での可視化により、データのパターンや関係性を視覚的に理解しやすくなります。次のステップでは、さらに高度な可視化手法を学び、データ分析の技術を向上させましょう。