データ分析・中級問題チェック

問題 39 /40

scikit-learnの次のROC曲線とAUCに関して、誤った説明はどれか。

選択 1

ROC曲線は真陽性率(再現率)と偽陽性率のバランスを表したグラフである。

選択 2

真陽性率(再現率)が最も高く、偽陽性率が最も低いポイントは、グラフの左上である。

選択 3

グラフの青色の面積がAUCであり、面積が小さいほどモデルの精度が良い。

選択 4

AUCの値は最大値が1、最小値が0.5である。

解説

選択肢3が正解です。 ROC曲線は分類モデルの精度を可視化したものです。y軸が真陽性率(再現率)、x軸が偽陽性率で、正例と負例を分ける閾値を変えた際に、真陽性率と偽陽性率がどのようなバランスになるかを表しています。下の図であれば、青い実線が閾値を変えた際の動きを表しています。
例えば、癌を判定するモデルの場合、誤って陽性と判定する件数(偽陽性)が多少増えたとしても、正しく陽性と判定する件数(真陽性率)が増えるのであれば、良いモデルと言えます。 作成したモデルの閾値が上のグラフの黒丸の場所にあった場合、オレンジ色の場所に移動すると、偽陽性率は5%上がるものの、真陽性率が20%上がります。そのため、predict_probaメソッドなどで、閾値をオレンジ色の場所に変更したほうが良いと判断できます。 また、AUCは薄い青色の部分の面積のことで、最大値は1、最小値は0.5です。AUCは作成したモデルの評価を表しており、正例と負例を正しく判定するほど、面積が1に近づきます。AUCの値を1に近づけたい場合は、ハイパーパラメータを調整したり、アルゴリズムを変えたりします。 選択肢3の「グラフの青色の面積がAUCであり、面積が小さいほどモデルの精度が良い。」は誤りで、面積が大きいほど(1に近いほど)モデルの精度が良いと言えます。 (公式書籍 p.256-261)