suzuki-navi’s blog

機械学習の一般知識 - G検定の勉強ノート

機械学習

G検定 2020#2 受験時の勉強ノートの全部で5ページのうちの2ページ目です。

勉強ノート
- 人工知能の一般知識
- 機械学習の一般知識
- ディープラーニングの基本
- ディープラーニングの応用
- 産業への応用
合格体験記
- G検定に合格しました

※ノートを書く過程で覚えたものが多く、実際の試験中にノートを参照することは少なかったです。

※各キーワードの詳細はわからなくてもなんのことかをイメージしている程度のものも多いです。

※受験後の復習で加筆した部分も多いです。

機械学習の種類と手法
機械学習の手法の評価
自然言語処理
その他の用語

機械学習の種類と手法

教師あり学習

分類問題と回帰問題
線形回帰
- 正規化項を加えた手法として
  - ラッソ回帰(lasso regression)
  - リッジ回帰(ridge regression)
ロジスティック回帰
- 回帰問題ではなく分類問題に使う
- モデルの出力に以下の関数を使って分類する
  - シグモイド関数
  - ソフトマックス関数
ランダムフォレスト(random forest)
- 決定木
- 特徴量をランダムに選び、複数の決定木を作成
- ブートストラップサンプリング
  - 全データではなくランダムに一部のデータで学習
- 複数の決定木で多数決(アンサンブル学習)
- このように一部のデータで複数のモデルで試す(バギング)
アンサンブル学習
- 複数のモデルで試して多数決
- 回帰問題の場合は平均をとる
- バギング
  - 一部のデータで複数のモデルで試して多数決
- ブースティング(Boosting)
  - 複数のモデルを試すことはバギングと同じ
  - 1つのモデルを作成して、次からは誤認識したデータを優先的に学習する手法
  - バギングと違い並列処理ができない問題がある
knn法 (k近傍法)
- 近傍の教師データの多数決
サポートベクターマシン(SVM)
- カーネル関数
- カーネルトリック
- マージン最大化
- スラック変数
ニューラルネットワーク
- 活性化関数
- 誤差逆伝播法

教師なし学習

k-means(k平均法)
PCA(主成分分析)
自己符号化器(オートエンコーダ、autoencoder)
深層ボルツマンマシン
t-SNE

強化学習

環境、エージェント、行動、状態、報酬
1990年代は研究が盛んだった
状態の表現と行動に結びつける方法が難しくて、2000年代には衰えてしまった
2010年代にディープラーニングによって打開
行動価値関数
TD学習

機械学習の手法の評価

汎化性能
訓練データとテストデータ
交差検証
- ホールドアウト検証
- k分割交差検証
混同行列・適合率・再現率のまとめ
- 混同行列
- 適合率
- 再現率
オーバーフィッティング(overfitting)の問題

自然言語処理

形態素解析
BoW (Bag-of-Words)
トピックモデル
- LSI(潜在的意味解析)
  - 特異値分解
- PLSI
- LDA
N-gram

その他の用語

正則化
- 汎化誤差を小さくする手法
- 正則化しすぎるとアンダーフィッティング(underfitting)になる
- L1正則化
  - 誤差関数にパラメータの絶対値の和を加算
  - ラッソ回帰(lasso regression)
  - スパース
  - パラメータを削減できる
- L2正則化
  - 誤差関数にパラメータの2乗の和を加算
  - リッジ回帰(ridge regression)
  - 過学習を抑えられる
  - Tikhonov(チコノフ、ティホノフ)正則化
- Elastic Net
  - L1正則化とL2正則化の組み合わせ
多重共線性 (マルチコ、multicollinearity)
- 説明変数間で一次従属がある場合を共線性があるという
- 複数の共線性がある場合を多重共線性という
- 完全な多重共線性がある場合は偏回帰係数を求められない
前処理
- 欠損値の処理方法
  - リストワイズ法
    - 欠損値のあるサンプルを削除
    - 欠損値のあるサンプルに偏りがあるリスクあり
  - 回帰補完
- カテゴリデータの扱い
  - 数値にマッピング
  - ワンホットエンコーディング(One-hot encoding)
隠れマルコフモデル(HMM)
決定木の剪定(せんてい)
- 汎化性能を下げないため
データ拡張
- データ水増し
データセット
- WordNet
- ImageNet
- MNIST

これまでに書いたもの/してきたこと