機械学習の一般知識 - G検定の勉強ノート
G検定 2020#2 受験時の勉強ノートの全部で5ページのうちの2ページ目です。
- 勉強ノート
- 合格体験記
※ノートを書く過程で覚えたものが多く、実際の試験中にノートを参照することは少なかったです。
※各キーワードの詳細はわからなくてもなんのことかをイメージしている程度のものも多いです。
※受験後の復習で加筆した部分も多いです。
機械学習の種類と手法
教師あり学習
- 分類問題と回帰問題
- 線形回帰
- 正規化項を加えた手法として
- ラッソ回帰(lasso regression)
- リッジ回帰(ridge regression)
- 正規化項を加えた手法として
- ロジスティック回帰
- 回帰問題ではなく分類問題に使う
- モデルの出力に以下の関数を使って分類する
- シグモイド関数
- ソフトマックス関数
- ランダムフォレスト(random forest)
- 決定木
- 特徴量をランダムに選び、複数の決定木を作成
- ブートストラップサンプリング
- 全データではなくランダムに一部のデータで学習
- 複数の決定木で多数決(アンサンブル学習)
- このように一部のデータで複数のモデルで試す(バギング)
- アンサンブル学習
- 複数のモデルで試して多数決
- 回帰問題の場合は平均をとる
- バギング
- 一部のデータで複数のモデルで試して多数決
- ブースティング(Boosting)
- 複数のモデルを試すことはバギングと同じ
- 1つのモデルを作成して、次からは誤認識したデータを優先的に学習する手法
- バギングと違い並列処理ができない問題がある
- knn法 (k近傍法)
- 近傍の教師データの多数決
- サポートベクターマシン(SVM)
- ニューラルネットワーク
- 活性化関数
- 誤差逆伝播法
教師なし学習
- k-means(k平均法)
- PCA(主成分分析)
- 自己符号化器(オートエンコーダ、autoencoder)
- 深層ボルツマンマシン
- t-SNE
強化学習
- 環境、エージェント、行動、状態、報酬
- 1990年代は研究が盛んだった
- 状態の表現と行動に結びつける方法が難しくて、2000年代には衰えてしまった
- 2010年代にディープラーニングによって打開
- 行動価値関数
- TD学習
機械学習の手法の評価
- 汎化性能
- 訓練データとテストデータ
- 交差検証
- ホールドアウト検証
- k分割交差検証
- 混同行列・適合率・再現率のまとめ
- 混同行列
- 適合率
- 再現率
- オーバーフィッティング(overfitting)の問題