機械学習の教師あり学習とは？代表的なアルゴリズム6種類も解説

2026年6月17日

はやたす

本記事はG検定をたった10時間で合格した経験をもとに、機械学習の教師あり学習・代表的なアルゴリズム6種類を解説します。

「教師あり学習のアルゴリズムって種類が多すぎて、何から覚えればいいかわからない」

G検定の勉強を進めていると、こんな悩みにぶつかる方は多いと思います。

ロジスティック回帰・SVM・決定木・アンサンブル学習……聞いたことはあっても、それぞれの違いや使いどころがはっきりしない、という状態になりがちです。

本記事では、教師あり学習の全体像から代表的なアルゴリズム6種類まで、数式を使わずイメージで理解できるように解説します。

G検定で頻出の確認問題も4問用意しているので、読み終わったら腕試しをしてみてください。

はやたす

G検定の全体的な学習の進め方は【10日間で合格】G検定の学習ロードマップ4ステップにまとめているので、まだ読んでいない方はあわせてチェックしてみてください。

監修者：はやたす

◾️Tech Frontier（テクフロ）主催（400名越え）
・Python×データサイエンス実践エキスパートコース
・AXエンジニアコース
◾️Pythonブートキャンプ出版
◾️大学オープンキャンパス・オリエンテーション登壇
◾️受講生実績→業界TOP
◾️データサイエンス転職者を6ヵ月〜1年で多数輩出

機械学習における教師あり学習とは

入力データ（特徴量）と正解データのペアを使って学習し、未知のデータに対して予測・判別を行う手法です。

たとえば「犬と猫の画像を判別するAI」を作りたい場合、大量の犬の画像に「これは犬です」、猫の画像に「これは猫です」という正解ラベルをつけてコンピューターに学ばせます。

すると、学習済みのAIは新しい画像を見せられたとき「これは犬」「これは猫」と答えられるようになります。

このように、入力（画像）と正解（犬・猫のラベル）のペアで学習し、未知のデータに対してパターンを認識して予測するのが教師あり学習の本質です。

教師あり学習の2大タスク：分類問題と回帰問題

教師あり学習が解く問題は、大きく2種類に分かれます。

	分類問題	回帰問題
出力の形式	カテゴリ（クラス）	連続する数値
目的	どのグループに属するかを予測	数値そのものを予測
具体例	犬 or 猫・スパム or 非スパム	売上高・株価・気温

はやたす

「犬か猫か」を判別するのが分類、「明日の売上はいくらか」を予測するのが回帰です。この区別はG検定でもよく問われるので、しっかり押さえておきましょう。

機械学習の4種類（教師あり・なし・半教師あり・強化学習）の違いについては、機械学習とは？種類・仕組みをわかりやすく解説もあわせてご覧ください。

アルゴリズム①：線形回帰

入力と出力の関係を直線で表す、最もシンプルな機械学習モデルです。

データ（青い点）の散らばりに対して、「最もよく傾向を表す直線（赤い線）」を引く手法です。その直線を使って、新しい入力に対する出力を予測します。

単回帰分析と重回帰分析の違い

線形回帰には、説明変数（特徴量）の数によって2種類あります。

	単回帰分析	重回帰分析
説明変数の数	1つ	複数
例（アイスクリームの売上予測）	気温だけで予測	気温＋湿度＋天気で予測

直感的には「説明変数が多いほど精度が上がりそう」と感じますよね。ただし、ただ増やせばいいわけではありません。

重回帰分析の落とし穴：多重共線性

相関が高い説明変数同士を組み合わせることで、逆に予測精度が悪化する現象を多重共線性といいます。

たとえば気温と湿度は相関が高い変数です。日本の夏は気温も湿度も高く、冬は両方低い——つまり2つの変数が同じ動きをしやすいため、両方を説明変数に入れると逆に精度が落ちてしまうことがあります。

はやたす

特徴量は「質と量のバランス」が重要です。闇雲に増やすのではなく、相関が高い変数を整理してから使うことが大切です。

アルゴリズム②：ロジスティック回帰

ある事象が起こる確率を0〜1の範囲で予測するアルゴリズムです。

名前は「回帰」でも分類問題に使う（G検定頻出の引っかけ！）

「ロジスティック回帰」という名前から「回帰問題（数値予測）に使うもの」と思ってしまいがちですが、これは分類問題に使うアルゴリズムです。

はやたす

ここはG検定で本当によく問われる引っかけポイントです。「ロジスティック回帰＝分類問題」と必ずセットで覚えておきましょう。

0〜1の確率で出力し、閾値で分類する仕組み

ロジスティック回帰は、入力に対して「確率50%以上なら1（陽性）、50%未満なら0（陰性）」というように閾値を設けて分類します。

ただし、この閾値は50%に固定されているわけではありません。解くべきタスクに応じて変える必要があります。

たとえばクレジットカードの不正利用検知の場合、不正利用はそもそも滅多に起きません。「50%の確率で不正」という判断はリスクが高すぎるため、「95%以上の確率でないと不正と判定しない」という閾値設定が適切です。

このように、タスクの性質に応じて閾値を調整できるのがロジスティック回帰の特徴です。

シグモイド関数・ソフトマックス関数の役割

ロジスティック回帰では、出力を0〜1の確率に変換するためにシグモイド関数（二値分類）やソフトマックス関数（多値分類）が使われます。

シグモイド関数のグラフはS字カーブを描きます。入力値が大きいほど1に近づき、小さいほど0に近づく、この形が「確率で分類する」というイメージとそのまま対応しているのです。

数式より先にこのグラフの形をイメージで覚えておくと、試験問題でも迷いにくくなります。

アルゴリズム③：サポートベクターマシン（SVM）

クラスを分ける境界線と各データとの最短距離（マージン）を最大化する手法です。

マージン最大化で「最も余裕を持って分ける境界線」を引く

グループAとグループBのデータが散らばっているとき、その間に境界線を引きます。このとき、境界線と各データとの距離（マージン）が最も大きくなるように引き方を最適化するのがSVMです。

一言で言うと、「2つのグループを最も余裕を持って分ける境界線を引くこと」がSVMのやりたいことです。

カーネル法・カーネルトリック：非線形データへの対応

現実のデータは、真っすぐな直線で綺麗に分けられないことがほとんどです。曲線でなければ表現できないケースが多く、直線のSVMだけでは対応できません。

そこで使われるのがカーネル法です。カーネル法のアプローチは「次元を上げる」ことです。2次元で見ると曲線でしか分けられないデータも、3次元（立体）にしてみると平面（面）で線形分離できるようになります。

上から見ると複雑な曲線に見えるものが、「立体的に見ると一枚の面で分けられる」というイメージです。

また、高次元への変換には膨大な計算量が必要です。これを効率化するテクニックがカーネルトリックといいます。

高次元空間での複雑な計算を、元の低次元空間での計算に置き換えることで、計算量を大幅に削減して高速処理を可能にします。

はやたす

G検定では「カーネル法＝データを高次元に写像して線形分離可能にする技術」という定義が問われます。カーネルトリックは「効率的に処理するためのテクニック」と合わせて覚えておきましょう。

アルゴリズム④：決定木

データを「はい／いいえ」の条件分岐で繰り返し分割していくツリー構造の手法です。

条件分岐を繰り返す仕組み

動物を分類する例で考えてみましょう。

質問①「飛べますか？」→ はい / いいえ
質問②（はいの場合）「羽がありますか？」→ はい → 鳥類 / いいえ → 哺乳類（コウモリなど）

このように「はい／いいえ」の質問を繰り返して、データを段階的にグループ分けしていくのが決定木です。分類問題（カテゴリを予測）だけでなく、数値を予測する回帰問題にも使えます。

決定木は分岐の理由が可視化できるため、「なぜこの分類になったのか」を人間が確認しやすいという特徴があります。実務でも解釈性の高さから重宝されるアルゴリズムです。

不純度の指標：ジニ係数とエントロピー

決定木の学習では、どの条件で分割すれば最もうまく分けられるかを「不純度」という指標を使って判断します。不純度とは、グループ内に異なるクラスがどれだけ混ざっているかを表す値です。

不純度の状態	意味
高い（1に近い）	グループ内にいろんなクラスがごちゃ混ぜ
低い（0に近い）	グループ内がほぼ同じクラスで揃っている（純粋）

決定木の目標は、この不純度を最小化しながら分割を繰り返すことです。不純度を測る指標として、ジニ係数とエントロピーの2種類がよく使われます。どちらもやりたいことは同じで、純粋なグループを作ることです。

決定木の弱点：過学習（オーバーフィッティング）とは

学習に使った訓練データには高い精度を出すが、未知のデータに対しては精度が著しく低くなる状態を過学習（オーバーフィッティング）といいます。

過去問を繰り返し解いて、出題された問題は全問正解できるようになった。しかし本番の試験では初見の問題ばかりで点が取れなかった。

これが過学習です。過去問に「適合しすぎた」せいで、未知の問題には対応できなくなっています。

はやたす

機械学習のゴールは「未知のデータに対しても正しく予測できること」です。訓練データだけで高精度が出ても、実際の場面で使えなければ意味がありません。過学習はこの目標を阻む最大の問題の一つです。

過学習を防ぐ3つの方法

モデルを単純にする：決定木なら分岐の深さを浅めに制限する（学習のしすぎを抑える）
データを増やす：過去問2年分より20年分のほうが本番に対応しやすいように、学習データが多いほど未知データへの対応力が上がる
アンサンブル学習を使う：複数のモデルを組み合わせることで個々のモデルの偏りを打ち消す（次のH2で解説）

アルゴリズム⑤：アンサンブル学習

単独では精度が低い複数のモデルを組み合わせることで、強力なモデルを構築する手法です。

ひとつのモデルだと「犬」「猫」「犬」とバラバラな予測になってしまっても、複数のモデルの予測を多数決で統合することで「猫」と正確に判断できるようになります。

個々のモデルの偏りを打ち消し合うのがアンサンブル学習の強みです。

バギングとブースティングの違い

アンサンブル学習の代表的なアプローチがバギングとブースティングの2種類です。

	バギング	ブースティング
学習方式	並列（複数のモデルを同時に学習）	直列（前のモデルの結果を次が引き継ぐ）
統合方法	多数決・平均	前のモデルの誤りを次が重点的に学習
イメージ	多数決で決める	伝言ゲームで精度を積み上げる

ブースティングは「伝言ゲーム」のイメージです。前の人がミスした部分を次の人に伝えながら順番に学習し、ミスが重点的に修正されていく仕組みです。

バギングの代表：ランダムフォレスト

多数の決定木をランダムに学習させ、多数決で予測を統合する手法です。

名前の通り「ランダムな木（決定木）の森（フォレスト）」です。特徴量もランダムに選んで多様な木を作るため、個々の木が過学習しても全体として打ち消し合い、汎化性能（未知データへの対応力）が上がります。

ブースティングの代表：勾配ブースティング・XGBoost・LightGBM

前のモデルの予測誤差を最小化するように、モデルを直列に積み上げていく手法です。

勾配ブースティングの代表的な実装としてXGBoostとLightGBMがあります。どちらも現在のKaggle（機械学習コンペ）や実務の現場で第一線で使われているアルゴリズムです。G検定では名前と「ブースティング系」という区分を押さえておけば十分です。

はやたす

バギング＝並列・多数決、ブースティング＝直列・誤りを伝えながら改善、この対比がG検定で問われます。ランダムフォレスト（バギング）とXGBoost・LightGBM（ブースティング）という具体例もセットで覚えておきましょう。

アルゴリズム⑥：自己回帰モデル（時系列データ向け）

過去の観測値を使って現在の値を予測する、時系列データ専用の手法です。

時系列データとは、時間軸を伴うデータのことです。株価・人口推移・気温など、「今日の値」「昨日の値」「先週の値」という形で時間の経過とともに変化するデータが対象になります。

回帰分析も時系列データに使えないことはありませんが、自己回帰モデルは過去のデータとの時系列的な関係性を明示的にモデル化できる点で、時系列予測に適した手法です。株価予測・人口推移の分析・需要予測などの場面で使われます。

G検定頻出の確認問題4つ

ここまで学んだ内容をG検定形式の問題で確認しましょう。まずは自分で考えてから答えを見てみてください。

問題1：時系列データの分析

時系列データの分析に用いられ、過去のデータとの関係性をもたせた手法として適切なものはどれか。

A. 重回帰分析
B. 自己回帰モデル
C. ロジスティック回帰
D. 決定木

はやたす

正解：B. 自己回帰モデル
重回帰分析や決定木も時系列データに使えないことはありませんが、「過去の観測値を使って現在の値を予測する」という時系列特有の関係性をモデル化するには自己回帰モデルが最も適切です。

問題2：アンサンブル学習の種類

アンサンブル学習のうち、複数のモデルを直列につなぎ、前のモデルの誤りを次のモデルが重点的に学習するアプローチはどれか。

A. ランダムフォレスト
B. バギング
C. ブースティング
D. クラスタリング

はやたす

正解：C. ブースティング
直列構築・前のモデルの誤りを重点学習するのがブースティングです。バギングは並列学習・多数決統合。ランダムフォレストはバギングの代表例です。

問題3：ロジスティック回帰の特徴

二値分類のタスクにおいて、確率が0〜1の範囲で予測されるモデルはどれか。

A. 線形回帰
B. ロジスティック回帰
C. ランダムフォレスト
D. 自己回帰モデル

はやたす

正解：B. ロジスティック回帰
名前に「回帰」とあっても分類問題に使うのがロジスティック回帰です。0〜1の確率で出力し、閾値で分類します。線形回帰は数値を直接出力するため0〜1には収まりません。

問題4：過学習とは

学習モデルが訓練データには過剰に適合して高い精度を出すが、未知のデータに対しては精度が著しく低くなる状態を何と呼ぶか。

A. 汎化
B. アンダーフィッティング
C. 過学習（オーバーフィッティング）
D. 交差検証

はやたす

正解：C. 過学習（オーバーフィッティング）
汎化は「未知のデータにも高精度を出せる状態」を目指す考え方。アンダーフィッティングは逆に訓練データでも精度が出ない状態。交差検証は過学習を評価・防止するためのテクニックです。

G検定の合格率を上げたい方へ

当サイトでは、G検定に合格するための問題を定期的に配信してます。本記事のような問題に挑戦したい方は、以下よりメールマガジンに登録ください。

G検定にたった10時間で合格した裏話もあるので、最短ゴールが目指せます。

メルマガ登録で無料スキルチェックシートを受け取る

機械学習の教師あり学習アルゴリズム6種類の整理表【まとめ】

今回学んだ内容を一覧表で整理しておきましょう。

アルゴリズム	タスク	G検定で押さえるポイント
線形回帰	回帰	多重共線性（相関が高い変数を組み合わせると精度低下）
ロジスティック回帰	分類（名前に惑わされない！）	シグモイド関数・閾値設定・0〜1の確率出力
サポートベクターマシン（SVM）	分類	マージン最大化・カーネル法・カーネルトリック
決定木	分類 / 回帰	不純度（ジニ係数・エントロピー）・過学習
アンサンブル学習	分類 / 回帰	バギング（並列・多数決）vs ブースティング（直列・誤り修正）
自己回帰モデル	回帰（時系列）	時系列データ専用・過去の観測値から予測