CNN (Convolutional Neural Network)

人間の視覚野の神経細胞
- S細胞
  - 濃淡パターンを検出
- C細胞
  - 位置が変動しても同一の物体と認識
ネオコグニトロン
- 福島邦彦が提唱したネットワークでCNNの原型
ヤン=ルカンが考案のLeNetというCNNモデル
- 畳み込み (convolution)
  - カーネル(フィルタ)
- プーリング(サブサンプリング、ダウンサンプリング）
  - ウィンドウサイズ
  - スライド幅
  - 手法
    - maxプーリング
    - avgプーリング
    - Lpプーリング
      - maxプーリングとavgプーリングの中間的な存在
    - グローバルアベレージプーリング(GAP)
データ拡張(data augmentation)
- データから擬似的に別のデータを生成して学習データを増やす手法
  - 上下左右に移動
  - 反転
  - 拡大縮小
  - 回転
  - 斜めに歪める
  - 一部を切り取る
  - コントラストを変える
Skip connection
- 層を飛び越えた結合
- 層を深くすることで学習が進まなくなる問題が発生し、考えられた手法
- ResNet
  - Skip connectionを導入したネットワーク
  - さまざまなネットワークのアンサンブル学習とも言える
  - Microsoftが考案
  - 2015年にILSVRC (Imagenet Large Scale Visual Recognition Challenge)で優勝
転移学習
- 学習済みのネットワークを利用して新しいタスクの識別に活用すること
- ImageNetで学習済みのモデルが公開されている
画像データの前処理
- グレースケール化
- 平滑化
  - 細かいノイズの影響を除去
- ヒストグラム平均化（平坦化）
  - 画像ごとの明るさのヒストグラムを平坦になるようにスケーリング
インセプションモジュール

RNN (Recurrent neural network)

過去の隠れ層から現在の隠れ層にも結合させる
誤差逆伝播も過去にさかのぼっていく
- BackPropagation Through-Time (BPTT)
- ネットワークが深いということなので勾配消失問題が起きやすい
LSTM (Long Short-Term Memory)
- Deep Learning入門：数式なしで理解するLSTM (Long short-term memory) - YouTube
- 3つのゲート
  - 入力ゲート
  - 忘却ゲート
  - 出力ゲート
GRU (Gated Recurrent Unit)
- LSTMを少し簡略化した手法
Bidirectional RNN (BiRNN)
- 双方向
RNN Encoder-Decoder
- 出力も時系列にしたRNN
Attention
- 時間の重みを考慮したモデル
エルマンネット (Elman network)
ジョーダンネット (Jordan network)
通時的誤差逆伝播法 (back-propagation through time, BPTT)
勾配爆発
- RNNで起きやすい
教師強制 (teacher forcing)

深層強化学習

2013年 DeepMind社がブロック崩しのゲーム
- CNNを組み合わせた強化学習
- Q学習にディープラーニングを組み合わせた手法
  - DQN (Deep Q-Network)
2015年 DeepMind社のAlphaGo
- モンテカルロ木探索 (Monte Carlo Tree Search, MCTS)
2017年 AlphaGo Zero
- 自己対局のみで学習 (self play)
- これまでは棋譜を学習に利用していた
DQNの改良版
- Double DQN
- Dueling Network
- Categorical DQN
- Rainbow
- Actor-Critic
- A3C

深層生成モデル

WaveNet
- CNNを使った音声生成と音声合成のモデル
VAE (Variational AutoEncoder、変分オートエンコーダ)
- 平均と分散を表現
- 「ぼやける傾向がある」
GAN (Generative Adversarial Network、敵対的生成ネットワーク)
- Ian Goodfellowが提案
  - 2019年GoogleからAppleに移籍
- generatorとdiscriminator
- 敵対的生成ネットワーク
- GCGAN (Deep Convolutional GAN)
  - CNNも使ったモデル

画像認識

AlexNet
- Alex Krizhevsky
- パラメータが約6000万個
- 2012年 ILSVRC (Imagenet Large Scale Visual Recognition Challenge)で優勝
  - トロント大学SuperVisionチーム
R-CNN (Regional CNN)
- Selective Search
高速RCNN (fast-RCNN)
- 領域の切り出しと物体認識を同時に行う
faster RCNN
- 1秒あたり16フレームの処理ができるようになり、動画にも対応できるようになった
YOLO
- You Only Look Once
SSD
- Single Shot Detector
バウンディングボックスセグメンテーション (bounding box segmentation)
セマンティックセグメンテーション (semantic segmentation)
- 矩形の領域ではなく詳細な画素単位での領域を認識
- FCN (Fully Convolutional Network)
  - 当初は画像認識ではなくセマンティックセグメンテーションに特化したモデル
- すべての層が畳み込み層
- CNNは最終出力層が荒くなってしまうため、解像度を細かくする工夫が必要
  - アンサンプリング (unsampling)
- インスタントセグメンテーション
  - 同じカテゴリの物体が複数ある場合に個々を識別
- パノプティックセグメンテーション
  - 数えられるものに対してはインスタントセグメンテーション、そうでないものに対してはセマンティックセグメンテーション
- U-Net
OCR

自然言語処理

word2vec
- スキップグラム (Skip-gramz)
  - 周辺の単語を予測
- CBOW
  - 周辺の単語からある単語を予測
fastText
- word2vecの後継
- 2013年トマス=ミコロフ
ELMo (Embedding Language Modeling)
- word2vecの後継
- 2層のBidirectional RNN
マルチタスク言語モデル
- 次の文または前の文の予測
- 翻訳
- 構文解析
- 自然言語推論
ニューラル画像脚注付 (Neural Image Captioning, NIC)
Seq2Seq
- 自動翻訳
- Attention (注意機構)
BERT
- Bidirectional Encoder Representations from Transformers
照応解析
談話構造解析
構文解析
単語埋め込みモデル
分散表現

ニューラルチューリングマシン (Neural Turing Machines, NTM)

RNNの応用

音声認識

WaveNet
- 音声合成
- 音声認識

ロボティクス

強化学習
- 意思決定行動を改善するためのモデル
  - 方策ベース
  - 状態価値関数(Q関数など)
  - モデルベース
- 一気通貫学習 (end-to-end learning)
  - 入力から出力までロボットの視覚系、運動制御系を深層学習で代替する試み
  - 入出力に設計者の介入を必要としない試み
- マルチモーダル学習
  - 複数の信号の情報を統合した外界の表現を学習すること

suzuki-navi’s blog

ディープラーニングの応用 - G検定の勉強ノート

CNN (Convolutional Neural Network)

RNN (Recurrent neural network)

深層強化学習

深層生成モデル

画像認識

自然言語処理

ニューラルチューリングマシン (Neural Turing Machines, NTM)

音声認識

ロボティクス