データ分析・中級問題チェック
問題 30 /40
Matplotlibの次の箱ひげ図に関して、誤った説明はどれか。


選択 1
最下部の○(白丸)は、外れ値を表している。
選択 2
上と下の横線は、最大値と最小値を表している。
選択 3
四角い箱の上辺と下辺は、第3四分位数と第1四分位数を表している。
選択 4
四角い箱の中央の横線は、平均値を表している。
解説
選択肢4が正解です。
四角い箱の中央の横線は、平均値ではく中央値を表しています。箱ひげ図では平均値は分かりません。
箱ひげ図の各部分は次の値を表しています。
最大値と最小値は、外れ値を除いた最大の値と最小の値です。
外れ値は、デフォルトでは箱の高さを上と下に1.5倍して、そこから外れる値を表します。
第1四分位数と第3四分位数は、データを4分割したときの25%と75%の位置を表します。
例えば「1, 2, 3, 4, 5, 6, 7, 8, 9」というデータがあった場合、各値は以下となります。
最大値 → 9
第3四分位数 → 7
中央値 → 5
第1四分位数 → 3
最小値 → 1
最初に中央値の5が決まり、そこで前後に分けた「1, 2, 3, 4, 5」と「5, 6, 7, 8, 9」のぞれぞれの中央値が、第1四分位数と第3四分位数になります。
なお、問題文の箱ひげ図は、次のboxplotメソッドで色などを指定して描画したものです。
-------------------------------
np.random.seed(0)
# 平均0、標準偏差10の正規分布に従う値を500個生成
x = np.random.normal(0, 10, 500)
fig, ax = plt.subplots()
ax.boxplot(x)
-------------------------------
(公式書籍 p.198)
