機械学習の基礎をG検定合格者がわかりやすく解説!確認問題付き

はやたす

本記事はG検定をたった10時間で合格した経験をもとに、機械学習の基礎から種類・代表的なアルゴリズムまでを解説します。

「機械学習って、よく聞くけど結局どういうもの?」「AIと何が違うの?」G検定の勉強を進めていると、こんな疑問を感じる方は多いはずです。

ここを正しく理解しておくと、G検定の「AIの種類・学習の種類」に関する問題にまとめて答えられます。

特に教師あり学習・教師なし学習・強化学習の違いは頻出なので、本記事でしっかり押さえましょう。

はやたす

前回の記事(エキスパートシステム・知識表現)でAIがぶつかった限界を学びました。その限界を突き破ったのが機械学習です。この流れを頭に入れておくと、AI歴史問題がグッと解きやすくなります。

G検定の全体的な学習の進め方は【10日間で合格】G検定の学習ロードマップ4ステップにまとめているので、まだ読んでいない方はあわせてチェックしてください。

監修者:はやたす

◾️Tech Frontier(テクフロ)主催(400名越え)
・Python×データサイエンス実践エキスパートコース
・AXエンジニアコース
◾️Pythonブートキャンプ出版
◾️大学オープンキャンパス・オリエンテーション登壇
◾️受講生実績→業界TOP
◾️データサイエンス転職者を6ヵ月〜1年で多数輩出

目次

機械学習とは

データからパターンを自動的に学び、予測や判断を行う技術です。

従来のAI(ルールベースAI)は、人間がすべてのルールをプログラムとして書き込む必要がありました。「もし〜なら〜する」というif-thenのルールを膨大に積み重ねる方式です。

機械学習はその逆のアプローチです。ルールを人間が書くのではなく、大量のデータをコンピューターに学ばせて、パターンを自動的に発見させる仕組みです。

ルールベースAI(従来のAI)機械学習
ルールの作り方人間がルールをすべて書くデータからコンピューターが自動で学ぶ
得意なことルールが明確な問題(チェスなど)パターンが複雑・曖昧な問題(画像認識・自然言語処理など)
限界現実世界の複雑な問題に対応できない大量のデータが必要
はやたす

G検定の歴史問題では、ルールベースAI(推論・探索・エキスパートシステム)が限界を迎えたからこそ機械学習が登場した、という流れが問われます。推論と探索エキスパートシステムの記事もあわせて確認しておきましょう。

第3次AIブームで機械学習が注目された3つの背景

機械学習そのものの歴史は古く、1950〜60年代にはすでに基礎理論が存在していました。それが2010年代に入って急速に注目されるようになったのは、3つの環境の変化があったからです。

はやたす

第3次AIブームと機械学習の関係は人工知能とは?概要・歴史をわかりやすく解説でまとめています。AIの歴史の全体像を把握したい方はあわせてご覧ください。

ビッグデータの普及

インターネットとスマートフォンの普及により、大量のデータが蓄積されるようになりました。

機械学習は大量のデータがなければ精度を高められないため、ビッグデータの出現が実用化を一気に加速させました。

GPU(計算資源)の発展

GPU(グラフィックス処理装置)はもともとゲームの映像処理用に開発されたチップです。

大量の並列計算を高速に処理できるという特性が機械学習の学習計算にも適していることが分かり、AIの処理速度が飛躍的に向上しました。

ディープラーニングの登場

2012年、画像認識コンテスト(ImageNet)でディープラーニングを使ったモデルが圧倒的な精度で優勝したことで、世界的にAI研究の注目が集まりました。

ディープラーニングは機械学習の一手法で、人間の脳の神経回路を参考にした多層のニューラルネットワークを使います。

背景内容機械学習への影響
ビッグデータ大量のデータが蓄積・利用可能に学習データの質・量が確保できるようになった
GPU並列計算チップの活用計算時間が大幅に短縮された
ディープラーニング多層ニューラルネットワークの実用化精度が飛躍的に向上した

機械学習を構成する4つの要素

機械学習の仕組みを理解するために、「カレーを作る」イメージで4つの要素を整理してみましょう。

機械学習の要素カレーで例えると説明
データ材料(肉・野菜・スパイス)学習に使う入力情報。写真・テキスト・数値など
特徴量栄養成分・色・香りデータの中から学習に役立つ情報を取り出したもの
モデルレシピ(作り方の手順)データのパターンを学習した予測の仕組み
出力完成したカレーモデルが出す予測・判断の結果
はやたす

特徴量とは「データのどの部分に注目して学ぶか」を決める情報のことです。たとえば猫の画像を分類するなら、耳の形・ひげの有無・目の形などが特徴量です。機械学習の精度は特徴量の設計に大きく左右されます。

機械学習の種類4つ

機械学習は大きく4つの種類に分類されます。G検定では各手法の違いと具体例が問われるため、それぞれの特徴を正確に押さえておきましょう。

教師あり学習

正解ラベルが付いたデータを使って学習する手法です。

「この画像は猫」「この取引は詐欺」のように正解が明示されたデータを大量に与え、入力と出力のパターンを学ばせます。教師あり学習はさらに分類回帰の2種類に分かれます。

分類回帰
出力の形式カテゴリ(クラス)連続する数値
目的どのグループに属するかを判定する数値を予測する
具体例スパム判定・画像分類・病気の診断株価予測・気温予測・売上予測
はやたす

「猫か犬か」を判定するのが分類、「明日の気温は何度か」を予測するのが回帰です。出力が「種類(カテゴリ)」なら分類、「数値」なら回帰と覚えると間違えません。

教師なし学習

正解ラベルなしのデータから、自動的にパターンや構造を発見する手法です。

正解が与えられないため、データの中にある「似ているもの同士のかたまり」や「データの構造」を自動で見つけ出します。代表的な手法としてクラスタリング次元削減があります。

クラスタリング次元削減
目的似たデータをグループ化するデータの特徴を保ちながら変数を減らす
具体例顧客をタイプ別にグループ化・ニュース記事のトピック分類高次元データの可視化・ノイズ除去
代表アルゴリズムk-means法主成分分析(PCA)
はやたす

クラスタリングは「分類」とよく混同されます。違いは正解ラベルの有無です。「猫か犬か」の正解が事前にある → 教師あり学習の分類。正解なしでデータを自動でグループ化する → 教師なし学習のクラスタリング。G検定でよく問われる区別です。

半教師あり学習

少量の正解ラベルありデータと、大量の正解ラベルなしデータを組み合わせて学習する手法です。

正解ラベルの付与には人手とコストがかかります。現実には大量のラベルなしデータは手に入るのに、ラベルありのデータが少ない、というシーンが多い傾向です。半教師あり学習は、この状況で精度を高めるための手法です。

具体例として、少量の「スパム/非スパム」ラベルつきメールと、大量のラベルなしメールを組み合わせてスパム判定モデルを学習させる、といった使い方があります。

強化学習

エージェントが環境と試行錯誤を繰り返しながら、報酬を最大化する行動を学ぶ手法です。

正解データではなく「報酬(良い行動)」と「罰(悪い行動)」のフィードバックをもとに学習するため、教師あり学習・教師なし学習とは性質が異なります。

有名な応用例が囲碁AI「AlphaGo」です。囲碁の打ち方の組み合わせは約10の360乗通りと膨大で、人間がすべてのパターンを学習データとして準備することは不可能です。AlphaGoは強化学習によりAI同士で対戦を繰り返し、プロ棋士を超えるレベルに達しました。

はやたす

強化学習のキーワードは「エージェント・環境・報酬・行動」の4つです。エージェント(AI)が環境(ゲーム盤)の中で行動を選択し、報酬(勝利)を最大化するように学ぶ、というセットで覚えておきましょう。

4種類のまとめ比較

種類正解ラベル目的代表例
教師あり学習あり入力から出力を予測するスパム判定・売上予測
教師なし学習なしデータの構造・パターンを発見する顧客セグメント・データ圧縮
半教師あり学習少量あり+大量なし少ないラベルで精度を高めるスパム判定・画像分類
強化学習なし(報酬で学ぶ)報酬を最大化する行動を学ぶゲームAI・ロボット制御

機械学習のアルゴリズム一覧

G検定では各アルゴリズムの名前と「教師あり/なし」の区別が問われます。完全に覚える必要はありませんが、代表的なものは押さえましょう。

種類アルゴリズム名概要
教師あり学習線形回帰連続値を直線(線形)で予測する
ロジスティック回帰2クラス分類に使う(名前に「回帰」とあるが分類に使う点に注意)
決定木if-thenのルールを木構造で表現して分類・回帰を行う
ランダムフォレスト決定木を大量に組み合わせてアンサンブル(多数決)する
サポートベクターマシン(SVM)データを2クラスに分ける境界線を最適化する手法
教師なし学習k-means法データをk個のクラスタ(グループ)に分けるクラスタリング手法
主成分分析(PCA)高次元データを低次元に圧縮する次元削減手法
オートエンコーダ入力を一度圧縮して再構成するニューラルネットワーク。異常検知にも使われる
はやたす

「ロジスティック回帰」は名前に「回帰」と付いていますが、実際は分類に使います。G検定でひっかけ問題として出ることがあるので要注意です。

機械学習編:G検定対策の確認問題3選

理解度を確認するため、G検定の本番に近い問題を3問解いてみましょう。

問題1

機械学習の説明として、最も適切なものはどれか。

  1. 人間がすべてのルールをプログラムとして定義し、そのルールに従って推論を行う技術
  2. 大量のデータからパターンを自動的に学習し、予測や判断を行う技術
  3. 人間の専門知識をルールとして蓄積し、限られた分野で推論を行うシステム
  4. 確率的なシミュレーションを繰り返してパターンを評価する手法
はやたす

正解:②
①はルールベースAI(従来のAI)の説明です。③はエキスパートシステム、④はモンテカルロ法の説明にあたります。機械学習の定義「データからパターンを自動的に学習する」を押さえておきましょう。

問題2

教師あり学習の「分類」と「回帰」の違いとして正しいものはどれか。

  1. 分類はカテゴリを出力し、回帰は連続値を出力する
  2. 分類は正解ラベルなしで学習し、回帰は正解ラベルありで学習する
  3. 分類は数値を予測し、回帰はグループを判定する
  4. 分類と回帰は同じ手法であり、使うデータの種類が異なるだけである
はやたす

正解:①
分類の出力はカテゴリ(スパムかどうか、猫か犬かなど)、回帰の出力は連続した数値(明日の気温・来月の売上など)です。②は誤り(どちらも正解ラベルありで学習する)、③は分類と回帰が入れ替わっています。

問題3

強化学習の説明として正しいものはどれか。

  1. 大量の正解ラベルつきデータを使って学習する手法
  2. 正解ラベルなしのデータから自動的にパターンを発見する手法
  3. エージェントが環境と試行錯誤を繰り返し、報酬を最大化する行動を学ぶ手法
  4. 少量の正解ラベルありデータと大量のラベルなしデータを組み合わせる手法
はやたす

正解:③
①は教師あり学習、②は教師なし学習、④は半教師あり学習の説明です。強化学習は「エージェント・環境・報酬」の3つのキーワードがセットになっています。AlphaGoのイメージで覚えておくと定着しやすいです。

G検定に合格するための問題集を解きたい方へ

確認問題3つを実施して、「完璧に答えられたかった」「違う問題で合格率を上げたい」という方もいるでしょう。

当サイトでは、G検定にたった10時間で合格した経験から、特別問題を定期的に出題してます。

配信はメールマガジンでおこなっているので、以下より登録ください。いまなら「G検定対策チェックリスト」も無料プレゼントしてます。

機械学習の基礎まとめ

本記事では、機械学習の基礎から4つの種類・代表的なアルゴリズムまでを解説しました。G検定の頻出ポイントをまとめておきます。

テーマポイント
機械学習とはデータからパターンを自動で学習する技術。ルールベースAIとの違いを押さえる
第3次AIブームの背景ビッグデータ・GPU・ディープラーニングの3点セット
機械学習の4要素データ・特徴量・モデル・出力
教師あり学習正解ラベルあり。分類(カテゴリ出力)と回帰(数値出力)の2種類
教師なし学習正解ラベルなし。クラスタリング(グループ化)と次元削減
半教師あり学習少量のラベルあり+大量のラベルなしを組み合わせる
強化学習エージェントが報酬を最大化する行動を試行錯誤で学ぶ。AlphaGoが代表例
ロジスティック回帰名前に「回帰」がつくが分類に使う。ひっかけ注意
はやたす

G検定頻出の引っかけポイントをもう一度確認しておきましょう。
クラスタリングは教師なし学習(「分類」と混同しない)
ロジスティック回帰は分類に使う(回帰ではない)
強化学習は正解ラベルを使わない(報酬で学ぶ)
半教師あり学習=少量ラベルあり+大量ラベルなしの組み合わせ

G検定の全体的な学習の進め方は【10日間で合格】G検定の学習ロードマップ4ステップにまとめています。次のステップに進む前に確認しましょう。

G検定合格の先:資格だけでは収入は上がらない

G検定の合格を目指しているあなたに、ひとつ正直な話をさせてください。

G検定の資格を取ることで、AIの基礎知識を体系的に証明できます。それ自体はとても価値があることです。

ただ、「G検定に合格したのに、仕事も年収も何も変わらない」という声は非常に多いのが現実です。

はやたす

企業が本当に求めているのは「AIの知識がある人」ではなく、「AIを使って業務課題を解決できる人」だからです。資格はあくまで入口に過ぎません。

実務で評価されるのは、Pythonによるデータ分析・機械学習モデルの実装・AIツールを使った業務改善といったアウトプット力です。

G検定合格後の実務スキル習得にはテクフロ(TechFrontier)

実務スキルを最短で身につけるなら、実践中心に学習できる業界初のPython×データサイエンス講座「TechFrontier(テクフロ)」がおすすめです。

テクフロの特徴は、入学から1ヶ月で基礎を終え、2ヶ月目からデータ分析コンペ(Kaggle・SIGNATE)に参加するアウトプット中心の設計です。累計受講生400名超、参加者の8割以上が転職・コンペ入賞・業務活用などの成果を出しています。

G検定対策チェックリスト(無料プレゼント)

今回、本記事を読んで「最短最速でG検定に合格したい」と思ってくれた方のために、「G検定対策チェックリスト」を無料でプレゼントしています。

受け取り方は、以下の画像をタップして、メールマガジンに登録ください。

はやたす

本業が忙しい中でも、たった10日間でG検定に合格するためにも、ぜひ受け取りください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次