G検定 2020#2 受験時の勉強ノートの全部で5ページのうちの4ページ目です。
- 勉強ノート
- 合格体験記
※ノートを書く過程で覚えたものが多く、実際の試験中にノートを参照することは少なかったです。
※各キーワードの詳細はわからなくてもなんのことかをイメージしている程度のものも多いです。
※受験後の復習で加筆した部分も多いです。
- CNN (Convolutional Neural Network)
- RNN (Recurrent neural network)
- 深層強化学習
- 深層生成モデル
- 画像認識
- 自然言語処理
- ニューラルチューリングマシン (Neural Turing Machines, NTM)
- 音声認識
- ロボティクス
CNN (Convolutional Neural Network)
- 人間の視覚野の神経細胞
- S細胞
- 濃淡パターンを検出
- C細胞
- 位置が変動しても同一の物体と認識
- S細胞
- ネオコグニトロン
- 福島邦彦が提唱したネットワークでCNNの原型
- ヤン=ルカンが考案のLeNetというCNNモデル
- データ拡張(data augmentation)
- データから擬似的に別のデータを生成して学習データを増やす手法
- 上下左右に移動
- 反転
- 拡大縮小
- 回転
- 斜めに歪める
- 一部を切り取る
- コントラストを変える
- データから擬似的に別のデータを生成して学習データを増やす手法
- Skip connection
- 層を飛び越えた結合
- 層を深くすることで学習が進まなくなる問題が発生し、考えられた手法
- ResNet
- Skip connectionを導入したネットワーク
- さまざまなネットワークのアンサンブル学習とも言える
- Microsoftが考案
- 2015年にILSVRC (Imagenet Large Scale Visual Recognition Challenge)で優勝
- 転移学習
- 学習済みのネットワークを利用して新しいタスクの識別に活用すること
- ImageNetで学習済みのモデルが公開されている
- 画像データの前処理
- インセプションモジュール
RNN (Recurrent neural network)
- 過去の隠れ層から現在の隠れ層にも結合させる
- 誤差逆伝播も過去にさかのぼっていく
- BackPropagation Through-Time (BPTT)
- ネットワークが深いということなので勾配消失問題が起きやすい
- LSTM (Long Short-Term Memory)
- Deep Learning入門:数式なしで理解するLSTM (Long short-term memory) - YouTube
- 3つのゲート
- 入力ゲート
- 忘却ゲート
- 出力ゲート
- GRU (Gated Recurrent Unit)
- LSTMを少し簡略化した手法
- Bidirectional RNN (BiRNN)
- 双方向
- RNN Encoder-Decoder
- 出力も時系列にしたRNN
- Attention
- 時間の重みを考慮したモデル
- エルマンネット (Elman network)
- ジョーダンネット (Jordan network)
- 通時的誤差逆伝播法 (back-propagation through time, BPTT)
- 勾配爆発
- RNNで起きやすい
- 教師強制 (teacher forcing)
深層強化学習
- 2013年 DeepMind社がブロック崩しのゲーム
- 2015年 DeepMind社のAlphaGo
- 2017年 AlphaGo Zero
- 自己対局のみで学習 (self play)
- これまでは棋譜を学習に利用していた
- DQNの改良版
深層生成モデル
- WaveNet
- CNNを使った音声生成と音声合成のモデル
- VAE (Variational AutoEncoder、変分オートエンコーダ)
- 平均と分散を表現
- 「ぼやける傾向がある」
- GAN (Generative Adversarial Network、敵対的生成ネットワーク)
画像認識
- AlexNet
- Alex Krizhevsky
- パラメータが約6000万個
- 2012年 ILSVRC (Imagenet Large Scale Visual Recognition Challenge)で優勝
- トロント大学SuperVisionチーム
- R-CNN (Regional CNN)
- Selective Search
- 高速RCNN (fast-RCNN)
- 領域の切り出しと物体認識を同時に行う
- faster RCNN
- 1秒あたり16フレームの処理ができるようになり、動画にも対応できるようになった
- YOLO
- You Only Look Once
- SSD
- Single Shot Detector
- バウンディングボックスセグメンテーション (bounding box segmentation)
- セマンティックセグメンテーション (semantic segmentation)
- 矩形の領域ではなく詳細な画素単位での領域を認識
- FCN (Fully Convolutional Network)
- 当初は画像認識ではなくセマンティックセグメンテーションに特化したモデル
- すべての層が畳み込み層
- CNNは最終出力層が荒くなってしまうため、解像度を細かくする工夫が必要
- アンサンプリング (unsampling)
- インスタントセグメンテーション
- 同じカテゴリの物体が複数ある場合に個々を識別
- パノプティックセグメンテーション
- 数えられるものに対してはインスタントセグメンテーション、そうでないものに対してはセマンティックセグメンテーション
- U-Net
- OCR
自然言語処理
- word2vec
- スキップグラム (Skip-gramz)
- 周辺の単語を予測
- CBOW
- 周辺の単語からある単語を予測
- スキップグラム (Skip-gramz)
- fastText
- word2vecの後継
- 2013年 トマス=ミコロフ
- ELMo (Embedding Language Modeling)
- word2vecの後継
- 2層のBidirectional RNN
- マルチタスク言語モデル
- ニューラル画像脚注付 (Neural Image Captioning, NIC)
- Seq2Seq
- 自動翻訳
- Attention (注意機構)
- BERT
- Bidirectional Encoder Representations from Transformers
- 照応解析
- 談話構造解析
- 構文解析
- 単語埋め込みモデル
- 分散表現
ニューラルチューリングマシン (Neural Turing Machines, NTM)
- RNNの応用