データ分析・中級問題チェック

問題 40 /40

scikit-learnのk-meansのクラスタリングについて、誤った説明はどれか。

選択 1

k-meansは、クラスタ中心をランダムに置いてデータを割り当て、クラスタ中心を再計算してデータを割り当て直す処理を繰り返す。

選択 2

問題文の図は、データが3つのクラスタに分割されたことを表している。

選択 3

Kmeansクラスをインスタンス化する際に、引数「n_clusters」で分割するクラスタ数を指定する。

選択 4

k-meansは線形だけではなく非線形な境界でもクラスタリングできる。

解説

選択肢4が正解です。 k-meansは次の流れでデータをクラスタリングします。
クラスタ数は「kmeans = KMeans(n_clusters=3)」のように、KMeansクラスをインスタンス化する際に、引数「n_clusters」で指定します。 k-meansは問題文の図のように、直線(線形)で分割できるデータしか扱えません。次の図のように曲線(非線形)で分割する必要があるデータは、DBSCANなどの他の教師なしアルゴリズムを使用します。
(公式書籍 p.264-268)