potD

エンジニアに向けたトレンド、備忘録

CVPR 2018 論文まとめ 2

Embodied Question Answering

Arxiv, Project Page

f:id:Info_tech:20181115103133p:plain

Abstract

  • Backgrounds
    • 賢いagentsには、環境(五感情報)を知覚し、情報をやりとりし、行動できることが必要
    • その目標への一歩として、Embodied Question Answeringタスクを提案
      1. AIは環境内のランダムな位置にスポーン
      2. 質問を受ける(ex. 車は何色?)
      3. 環境内を一人称視点で動き回り、質問に対する答えを探る
      4. 質問に対する答えの文を生成
    • Embodied QA達成には主体的な動作、言語理解、目標への移動、一般常識の保有(「車はガレージにあるだろう」)、言語を動作に落とし込むなど、広いAIタスクを解く必要
  • Objective
    • Embodied QAを達成するロボットの作成
      • ロボットが環境内を動き回りながら探索し、質問に対する答えの文を生成
  • Methods
    • Adaptive Computation Time navigatorという強化学習ベースでのend-to-endな手法を提案
    • タスク処理を計画と制御の2つのモデルに分解 f:id:Info_tech:20181115103153p:plain
  • Results
    • 住宅3D仮想環境で実験
    • 質問の正答率、移動の正確性において従来より高いスコア

Comments

  • Amazonさんとか、大きい倉庫を持っている企業は喜びそう
  • 「言語理解+質問に対する答えを調査+答えの文を生成」は広い応用ができそう

Perturbative Neural Network

Arxiv, GitHub(PyTorch)

Abstract

  • Backgrounds
    • CNNが視覚認知タスクにおいて成功を収めている
      • Alex, VGG, GoogLeNet, ResNet, etc.
      • conv層と他のモジュール間の、トポロジと結合性に焦点を当てている
      • conv層は、全結合層よりも計算効率と統計学的効率がよいとされている
    • しかし、conv層の基本構造は大きく変わってはいない
  • Objective
    • 従来のconv層にとってかわる、pertubation層を提案
    • pertubation層はconv層よりも少ないパラメータで学習が可能
    • MNIST, CIFAR-10などにおいてCNNとほぼ同等の性能
  • Methods
    • pertubation層の基本構造
      1. 入力画像
      2. 固定摂動マスクをセット
      3. 入力画像に摂動マスクを加える
      4. 非線形活性化関数(ReLU)に通す
      5. ノイズごとの特徴マップを生成
        1. を結合する線形な重みを学習
      6. 特徴マップ f:id:Info_tech:20181115103214p:plain
    • 第l層の出力結果 f:id:Info_tech:20181115103241p:plain
  • Results
    • ImageNet-1k(top1)のクラス分類の正答率 f:id:Info_tech:20181115103250p:plain
      • Maskは摂動マスクの数、Param. RatioはPNNに対するCNNパラメータ数の比率
      • 少ないパラメータ数でも比較的高い正答率
    • 100-class ImageNetにおいて摂動強度を変えたときの正答率 f:id:Info_tech:20181115103304p:plain
      • 大きすぎる摂動を加えすぎないほうが良い
    • CIFAR-10とMNISTの分類正答率 f:id:Info_tech:20181115103314p:plain
    • CIFAR-10の正答率とパラメータ数 f:id:Info_tech:20181115103325p:plain

Comments

  • 別の視点からなるディープラーニングは今後のブレイクスルーになる可能性
  • 摂動(ノイズ)を入力に加えるのは流行っている?
    • Adversarial examples
    • GANの学習テクニック(Dのラベルに正規分布ノイズを加える)
  • パラメータ数は数分の1ぐらいにはなっているけど、正答率はイマイチ(学習時間は速そう)