機械学習の教師なし学習とは?概要からアルゴリズム4種類も解説

はやたす

本記事はG検定をたった10時間で合格した経験をもとに、教師なし学習の概要とアルゴリズム4種類を解説します。

「クラスタリング・次元削減・レコメンデーション……種類が多くて、何がどう違うのかわからない」

G検定で頻出の教師なし学習ですが、アルゴリズムの種類が多く整理しにくいと感じる方は多いはずです。

k-means・PCA・協調フィルタリング・LDA……それぞれが何をするものなのか、イメージがなかなか結びつきにくいでしょう。

本記事では、教師なし学習の概要から代表的なアルゴリズム4種類(クラスタリング・次元削減・レコメンデーション・トピックモデル)まで、数式を使わずイメージで整理できるように解説します。

G検定頻出の確認問題も3問用意しているので、読み終わったら腕試しをしてみてください。

はやたす

前回の教師あり学習アルゴリズム解説と合わせて読むと、機械学習の全体像が一気に整理されます。G検定の全体的な学習の進め方は【10日間で合格】G検定の学習ロードマップ4ステップにまとめているので、まだ読んでいない方はあわせてチェックしてみてください。

監修者:はやたす

◾️Tech Frontier(テクフロ)主催(400名越え)
・Python×データサイエンス実践エキスパートコース
・AXエンジニアコース
◾️Pythonブートキャンプ出版
◾️大学オープンキャンパス・オリエンテーション登壇
◾️受講生実績→業界TOP
◾️データサイエンス転職者を6ヵ月〜1年で多数輩出

目次

機械学習の教師なし学習とは

正解ラベルが付与されていない特徴量のみのデータを用い、データが持つ構造・隠れた特徴・パターンを見つけ出す手法です。

教師あり学習では「犬の画像には犬、猫の画像には猫」という正解ラベルを用意してコンピューターに学ばせます。

一方、教師なし学習では正解ラベルを用意せず、コンピューターがデータの特徴を自分で見つけてグループ分けや圧縮を行います。

教師あり学習教師なし学習
正解ラベルありなし
目的正解を予測するデータの構造・パターンを発見する
具体例スパム判定・売上予測グループ分け・データ圧縮
はやたす

犬と猫の画像を1000枚用意したとします。教師あり学習では「これは犬、これは猫」とラベルを付けて学ばせます。教師なし学習では、ラベルなしの画像1000枚をそのまま渡す。するとコンピューターは「毛の長さ・耳の形・目の距離」といった特徴を自動で見つけ、似たもの同士をグループ分けします。

教師なし学習の主なタスクは4種類あります。それぞれ解説します。

タスク概要代表手法
クラスタリング共通する特徴でグループ分けk-means法・Ward法
次元削減高次元データを低次元に変換主成分分析(PCA)
レコメンデーションユーザーへの商品推薦協調フィルタリング
トピックモデル文書を複数トピックに分類LDA

アルゴリズム①:クラスタリング

正解のないデータから、共通する特徴を持つグループ(クラスター)に分類することです。

「似ているもの同士をまとめる」という直感的な操作です。購買傾向が近い顧客をグループ化する「顧客セグメント」や、内容が近いドキュメントをまとめる「文書分類」などに使われます。

クラスタリングには大きく非階層クラスタリング階層クラスタリングの2種類があります。

非階層クラスタリング(k-means法)

データをあらかじめ決められたk個のグループに分ける手法です。

手順のイメージはこうです。

  1. k個の重心(グループの中心点)をランダムに配置する
  2. 各データを最も近い重心のグループに割り当てる
  3. 各グループの平均を新しい重心として再計算する
  4. ②③を繰り返し、重心が動かなくなったら完了

重要なポイントは、kの値はユーザーが事前に設定するという点です。k=3なら3グループ、k=5なら5グループに分類されます。

はやたす

kの決め方には「エルボー法」など別の手法もありますが、G検定では「k-meansはkをユーザーが事前に設定する手法」という点を押さえておけば十分です。

階層クラスタリング

データを順番にまとめながら階層構造(デンドログラム)を作る手法です。

最初は全データが1つずつ別々のグループとして存在します。そこから「最も似ているもの同士」を順番に結合していき、最終的に1つの大きなグループになるまでまとめ続けます。このプロセスを樹形図(デンドログラム)で表現するのが特徴です。

手法概要
Ward法グループをまとめたときの平方誤差(平均からの距離)が最小になるように結合していく
最短距離法最も距離が近いデータ・クラスター同士を順番に結合していく
はやたす

G検定頻出の引っかけポイント:「k-meansは初期重心をランダムに決めるため、実行するたびに結果が変動することがある」。「常に同じ結果が得られる」という選択肢が出たら誤りです。また、デンドログラムで表現されるのは階層クラスタリングで、k-meansは非階層クラスタリングです。混同しないよう注意しましょう。

アルゴリズム②:次元削減

高次元のデータを、重要な情報を保ったままより低い次元に変換することです。

次元削減のメリット3つ

  1. データの可視化:4次元以上のデータは人間には見えません。2次元や3次元に落とすことで、データの構造を視覚的に把握できるようになります
  2. 計算量の削減:次元が低いほど処理が速くなります。機械学習モデルの学習コストを下げる効果があります
  3. 過学習の抑制:不要な特徴量を削ることで、モデルが本質的なパターンだけを学習できるようになります(次元の呪いへの対策)

次元の呪いとは

特徴量が増えすぎると、データが高次元空間でスカスカになり、分析がうまくいかなくなる現象を「次元の呪い」といいます。

アイスクリーム屋の売上予測を例に考えてみましょう。気温・天気・湿度・人通り・曜日という5つの特徴量があるとします。

これだけでも可視化が難しくなりますが、さらに特徴量を増やしていくと、空間内でデータが薄く広がりすぎて、パターンを見つけることができなくなります。

はやたす

「パレートの法則」になぞらえるとイメージしやすいです。実際のデータでは、全体の2割の特徴量が予測精度の8割に貢献していることが多く、残りの8割は「ノイズ」になりやすい。だから特徴量を選んで削ることが重要なんですよね。

代表的な次元削減手法

手法概要特徴
主成分分析(PCA)相関のある特徴量を相関のない少数の主成分に集約最頻出。線形の次元削減
特異値分解(SVD)行列を重要な成分とその他のパターンに分解文章データの解析に使われる
多次元尺度構成法(MDS)データ間の距離を保ちながら2次元で可視化距離関係の可視化
t-SNE局所的な構造の維持に優れた高次元データの可視化非線形。クラスターの可視化に強い
はやたす

G検定で出るとしたら主成分分析(PCA)が最頻出です。「線形の次元削減手法」「次元を増やすのではなく減らす手法」という2点が引っかけで出やすいので、必ず押さえておきましょう。

アルゴリズム③:レコメンデーション

レコメンデーション(推薦システム)は、ユーザーに商品やコンテンツを自動で推薦する技術です。AmazonやNetflixで「あなたへのおすすめ」として表示される仕組みがこれにあたります。主に協調フィルタリングコンテンツベースフィルタリングの2種類があります。

協調フィルタリング

自分と好みが似ている他のユーザーが購入・評価している商品を推薦する手法です。

Amazonの「この商品を購入した人はこんな商品も買っています」が代表例です。あなたの購買履歴・評価データと他のユーザーのデータを照合し、「好みが似ているユーザーが気に入っている商品」を推薦します。

ただし、協調フィルタリングには重大な課題があります。

ユーザーの行動履歴データがない初期段階では正確な推薦ができない「コールドスタート問題」が発生します。

大量のデータがあってこそ精度が出る手法なので、新規ユーザーや新商品が登録された直後は推薦の精度が低くなってしまいます。

コンテンツベースフィルタリング

商品に特徴(タグ・属性)を付与して、特徴が似た商品を推薦する手法です。

「色:赤」「種類:リップ」「価格帯:〜2,000円」のように商品の属性を定義し、過去に購入・閲覧した商品と似た特徴を持つ商品を推薦します。

メリットは行動データがなくても使えること。デメリットはユーザーの好みを反映しにくいことです。

赤いリップを買った人に「似た商品(オレンジのリップ)」をすすめても、その人が本当に欲しいのはチークかもしれません。商品の特徴だけを見ているため、ユーザーの嗜好の広がりを捉えられないのです。

協調フィルタリングコンテンツベースフィルタリング
推薦の根拠似たユーザーの行動商品の特徴の類似
データが少ない時コールドスタート問題が発生データなしでも使える
精度データが多いほど高いユーザーの好みは反映されにくい

アルゴリズム④:トピックモデル

クラスタリングが1つのデータを1つのグループに分類するのに対し、トピックモデルは1つのデータを複数のグループ(トピック)に確率的に分類できる点が最大の違いです。

たとえば「AI×医療の革命」という記事は、「AI」「医療」「経済」など複数のトピックに同時に属せます。クラスタリングでは1つのグループにしか入れませんが、トピックモデルでは「AIトピック70%、医療トピック30%」というように確率で複数トピックに分類できます。

代表的な手法がLDA(潜在的ディリクレ配分法)です。ひとつの文書を複数のトピックに確率的に分類し、文書の中に潜在する主題を発見するために使われます。

クラスタリングトピックモデル(LDA)
1データの所属1グループのみ複数グループに確率的に所属
主な対象画像・数値データ文章データ
代表手法k-means法LDA(潜在的ディリクレ配分法)

G検定対策 確認問題3問

ここまで学んだ内容をG検定形式の問題で確認しましょう。まず自分で考えてから答えを見てみてください。

問1:k-means法について

k-means法に関する説明として最も適切なものはどれか。

  • A. 正解ラベルが付いたデータを使ってグループを学習させる教師あり学習の手法である
  • B. デンドログラム(樹形図)で結果を表現できる階層クラスタリングの代表手法である
  • C. あらかじめユーザーが設定したクラスター数kに基づいて重心の計算と割り当てを繰り返す手法である
  • D. 初期重心が毎回同じ位置に設定されるため、常に同じ結果が得られる
はやたす

正解:C
A:教師なし学習です。B:デンドログラムで表現されるのは階層クラスタリング(Ward法・最短距離法など)で、k-meansは非階層クラスタリングです。D:初期重心はランダムに決まるため、実行するたびに結果が変動することがあります。これは引っかけとして頻出なので要注意です。

問2:主成分分析(PCA)について

主成分分析(PCA)に関する説明として最も適切なものはどれか。

  • A. 特徴量の数を増やすことでデータの情報量を高める手法である
  • B. 特徴量の相関を分析して相関のない少数の主成分へ情報を圧縮することで次元削減を行う手法である
  • C. 局所的な構造の維持に優れた非線形の次元削減手法である
  • D. 文章データを複数のトピックに確率的に分類する手法である
はやたす

正解:B
A:PCAは次元を増やすのではなく減らす手法です。C:「非線形の次元削減」はt-SNEの説明です。PCAは線形の次元削減手法。D:文書をトピックに分類するのはLDA(トピックモデル)です。「線形」「次元を減らす」の2点がPCAの引っかけポイントです。

問3:コールドスタート問題について

コールドスタート問題に関する説明として最も適切なものはどれか。

  • A. コンテンツベースフィルタリングにおいて、商品の特徴量が不足しているときに推薦精度が下がる問題である
  • B. 協調フィルタリングにおいて、ユーザーや商品の行動履歴データが蓄積されていない初期段階で適切な推薦が困難になる問題である
  • C. ユーザー数が増加するにつれて推薦精度が低下していく問題である
  • D. 特徴量が多くなりすぎてデータがスカスカになり、分析がうまくいかなくなる問題である
はやたす

正解:B
A:コールドスタート問題はコンテンツベースではなく、協調フィルタリングで発生します。C:ユーザー数が増えるほど精度は上がります(データが増えるため)。D:それは「次元の呪い」の説明です。「協調フィルタリング」「行動履歴データが少ない初期段階」この2点がキーワードです。

G検定試験の合格率UPを目指す方へ

当サイトでは、G検定対策としてオリジナル問題を定期的に配信してます。

以下からメールマガジンに登録することで、問題に挑戦できるだけでなく、「G検定対策チェックリスト」も無料で受け取れます。

たった10時間で合格した裏話も伝えるので、最短合格を目指す方は、ぜひ登録ください。

機械学習の教師なし学習【まとめ】

今回学んだ教師なし学習のアルゴリズムを一覧で整理しておきましょう。

アルゴリズムタスクG検定で押さえるポイント
k-means法クラスタリング(非階層)kはユーザーが設定・初期重心がランダムなので結果が変動する
Ward法・最短距離法クラスタリング(階層)デンドログラムで表現される
主成分分析(PCA)次元削減(線形)次元を増やすのではなく減らす・線形の手法
t-SNE次元削減(非線形)非線形・クラスターの可視化に強い
協調フィルタリングレコメンデーションコールドスタート問題(データが少ない初期に精度が出ない)
コンテンツベースフィルタリングレコメンデーションデータなしでも使えるが、ユーザーの好みを反映しにくい
LDAトピックモデル1データを複数トピックに確率的に分類(クラスタリングとの違い)
はやたす

G検定頻出の引っかけポイントをまとめておきます。

①k-meansは非階層クラスタリング(デンドログラムで表現されるのは階層クラスタリング)
②PCAは次元を増やすのではなく減らす(線形の手法)
③コールドスタート問題は協調フィルタリングで発生
④クラスタリングとトピックモデルの違い(1グループのみ vs 複数グループに確率的に所属)。

はやたす

確認問題で引っかかった箇所だけ重点的に復習しておきましょう。

G検定の次のステップは【10日間で合格】G検定の学習ロードマップ4ステップで確認しましょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次