ディープラーニングの応用 - G検定の勉強ノート

G検定 2020#2 受験時の勉強ノートの全部で5ページのうちの4ページ目です。

※ノートを書く過程で覚えたものが多く、実際の試験中にノートを参照することは少なかったです。

※各キーワードの詳細はわからなくてもなんのことかをイメージしている程度のものも多いです。

※受験後の復習で加筆した部分も多いです。

CNN (Convolutional Neural Network)

  • 人間の視覚野の神経細胞
    • S細胞
      • 濃淡パターンを検出
    • C細胞
      • 位置が変動しても同一の物体と認識
  • ネオコグニトロン
    • 福島邦彦が提唱したネットワークでCNNの原型
  • ヤン=ルカンが考案のLeNetというCNNモデル
    • 畳み込み (convolution)
    • プーリング(サブサンプリング、ダウンサンプリング)
      • ウィンドウサイズ
      • スライド幅
      • 手法
        • maxプーリング
        • avgプーリング
        • Lpプーリング
          • maxプーリングとavgプーリングの中間的な存在
        • グローバルアベレージプーリング(GAP)
  • データ拡張(data augmentation)
    • データから擬似的に別のデータを生成して学習データを増やす手法
      • 上下左右に移動
      • 反転
      • 拡大縮小
      • 回転
      • 斜めに歪める
      • 一部を切り取る
      • コントラストを変える
  • Skip connection
    • 層を飛び越えた結合
    • 層を深くすることで学習が進まなくなる問題が発生し、考えられた手法
    • ResNet
      • Skip connectionを導入したネットワーク
      • さまざまなネットワークのアンサンブル学習とも言える
      • Microsoftが考案
      • 2015年にILSVRC (Imagenet Large Scale Visual Recognition Challenge)で優勝
  • 転移学習
    • 学習済みのネットワークを利用して新しいタスクの識別に活用すること
    • ImageNetで学習済みのモデルが公開されている
  • 画像データの前処理
    • グレースケール化
    • 平滑化
      • 細かいノイズの影響を除去
    • ヒストグラム平均化(平坦化)
      • 画像ごとの明るさのヒストグラムを平坦になるようにスケーリング
  • インセプションモジュール

RNN (Recurrent neural network)

  • 過去の隠れ層から現在の隠れ層にも結合させる
  • 誤差逆伝播も過去にさかのぼっていく
    • BackPropagation Through-Time (BPTT)
    • ネットワークが深いということなので勾配消失問題が起きやすい
  • LSTM (Long Short-Term Memory)
  • GRU (Gated Recurrent Unit)
    • LSTMを少し簡略化した手法
  • Bidirectional RNN (BiRNN)
    • 双方向
  • RNN Encoder-Decoder
    • 出力も時系列にしたRNN
  • Attention
    • 時間の重みを考慮したモデル
  • エルマンネット (Elman network)
  • ジョーダンネット (Jordan network)
  • 通時的誤差逆伝播法 (back-propagation through time, BPTT)
  • 勾配爆発
    • RNNで起きやすい
  • 教師強制 (teacher forcing)

深層強化学習

深層生成モデル

  • WaveNet
  • VAE (Variational AutoEncoder、変分オートエンコーダ)
    • 平均と分散を表現
    • 「ぼやける傾向がある」
  • GAN (Generative Adversarial Network、敵対的生成ネットワーク)
    • Ian Goodfellowが提案
    • generatorとdiscriminator
    • 敵対的生成ネットワーク
    • GCGAN (Deep Convolutional GAN)
      • CNNも使ったモデル

画像認識

  • AlexNet
    • Alex Krizhevsky
    • パラメータが約6000万個
    • 2012年 ILSVRC (Imagenet Large Scale Visual Recognition Challenge)で優勝
  • R-CNN (Regional CNN)
    • Selective Search
  • 高速RCNN (fast-RCNN)
    • 領域の切り出しと物体認識を同時に行う
  • faster RCNN
    • 1秒あたり16フレームの処理ができるようになり、動画にも対応できるようになった
  • YOLO
    • You Only Look Once
  • SSD
    • Single Shot Detector
  • バウンディングボックスセグメンテーション (bounding box segmentation)
  • セマンティックセグメンテーション (semantic segmentation)
    • 矩形の領域ではなく詳細な画素単位での領域を認識
    • FCN (Fully Convolutional Network)
      • 当初は画像認識ではなくセマンティックセグメンテーションに特化したモデル
    • すべての層が畳み込み層
    • CNNは最終出力層が荒くなってしまうため、解像度を細かくする工夫が必要
      • アンサンプリング (unsampling)
    • インスタントセグメンテーション
      • 同じカテゴリの物体が複数ある場合に個々を識別
    • パノプティックセグメンテーション
      • 数えられるものに対してはインスタントセグメンテーション、そうでないものに対してはセマンティックセグメンテーション
    • U-Net
  • OCR

自然言語処理

  • word2vec
    • スキップグラム (Skip-gramz)
      • 周辺の単語を予測
    • CBOW
      • 周辺の単語からある単語を予測
  • fastText
    • word2vecの後継
    • 2013年 トマス=ミコロフ
  • ELMo (Embedding Language Modeling)
    • word2vecの後継
    • 2層のBidirectional RNN
  • マルチタスク言語モデル
  • ニューラル画像脚注付 (Neural Image Captioning, NIC)
  • Seq2Seq
    • 自動翻訳
    • Attention (注意機構)
  • BERT
    • Bidirectional Encoder Representations from Transformers
  • 照応解析
  • 談話構造解析
  • 構文解析
  • 単語埋め込みモデル
  • 分散表現

ニューラルチューリングマシン (Neural Turing Machines, NTM)

  • RNNの応用

音声認識

ロボティクス

  • 強化学習
    • 意思決定行動を改善するためのモデル
      • 方策ベース
      • 状態価値関数(Q関数など)
      • モデルベース
    • 一気通貫学習 (end-to-end learning)
      • 入力から出力までロボットの視覚系、運動制御系を深層学習で代替する試み
      • 入出力に設計者の介入を必要としない試み
    • マルチモーダル学習
      • 複数の信号の情報を統合した外界の表現を学習すること