機械学習の一般知識 - G検定の勉強ノート

G検定 2020#2 受験時の勉強ノートの全部で5ページのうちの2ページ目です。

※ノートを書く過程で覚えたものが多く、実際の試験中にノートを参照することは少なかったです。

※各キーワードの詳細はわからなくてもなんのことかをイメージしている程度のものも多いです。

※受験後の復習で加筆した部分も多いです。

機械学習の種類と手法

教師あり学習

  • 分類問題と回帰問題
  • 線形回帰
    • 正規化項を加えた手法として
      • ラッソ回帰(lasso regression)
      • リッジ回帰(ridge regression)
  • ロジスティック回帰
    • 回帰問題ではなく分類問題に使う
    • モデルの出力に以下の関数を使って分類する
  • ランダムフォレスト(random forest)
    • 決定木
    • 特徴量をランダムに選び、複数の決定木を作成
    • ブートストラップサンプリング
      • 全データではなくランダムに一部のデータで学習
    • 複数の決定木で多数決(アンサンブル学習)
    • このように一部のデータで複数のモデルで試す(バギング)
  • アンサンブル学習
    • 複数のモデルで試して多数決
    • 回帰問題の場合は平均をとる
    • バギング
      • 一部のデータで複数のモデルで試して多数決
    • ブースティング(Boosting)
      • 複数のモデルを試すことはバギングと同じ
      • 1つのモデルを作成して、次からは誤認識したデータを優先的に学習する手法
      • バギングと違い並列処理ができない問題がある
  • knn法 (k近傍法)
    • 近傍の教師データの多数決
  • サポートベクターマシン(SVM)
  • ニューラルネットワーク

教師なし学習

  • k-means(k平均法)
  • PCA(主成分分析)
  • 自己符号化器(オートエンコーダ、autoencoder)
  • 深層ボルツマンマシン
  • t-SNE

強化学習

  • 環境、エージェント、行動、状態、報酬
  • 1990年代は研究が盛んだった
  • 状態の表現と行動に結びつける方法が難しくて、2000年代には衰えてしまった
  • 2010年代にディープラーニングによって打開
  • 行動価値関数
  • TD学習

機械学習の手法の評価

  • 汎化性能
  • 訓練データとテストデータ
  • 交差検証
    • ホールドアウト検証
    • k分割交差検証
  • 混同行列・適合率・再現率のまとめ
    • 混同行列
    • 適合率
    • 再現率
  • オーバーフィッティング(overfitting)の問題

自然言語処理

その他の用語

  • 正則化
    • 汎化誤差を小さくする手法
    • 正則化しすぎるとアンダーフィッティング(underfitting)になる
    • L1正則化
      • 誤差関数にパラメータの絶対値の和を加算
      • ラッソ回帰(lasso regression)
      • スパース
      • パラメータを削減できる
    • L2正則化
      • 誤差関数にパラメータの2乗の和を加算
      • リッジ回帰(ridge regression)
      • 過学習を抑えられる
      • Tikhonov(チコノフ、ティホノフ)正則化
    • Elastic Net
  • 多重共線性 (マルチコ、multicollinearity)
    • 説明変数間で一次従属がある場合を共線性があるという
    • 複数の共線性がある場合を多重共線性という
    • 完全な多重共線性がある場合は偏回帰係数を求められない
  • 前処理
    • 欠損値の処理方法
      • リストワイズ法
        • 欠損値のあるサンプルを削除
        • 欠損値のあるサンプルに偏りがあるリスクあり
      • 回帰補完
    • カテゴリデータの扱い
  • 隠れマルコフモデル(HMM)
  • 決定木の剪定(せんてい)
    • 汎化性能を下げないため
  • データ拡張
    • データ水増し
  • データセット