potD

エンジニアに向けたトレンド、備忘録

CVPR 2017 論文まとめ 1

Image-to-Image Translation with Conditional Adversarial Nets

Project Page, Paper, Github, Demo

f:id:Info_tech:20181027235712p:plain

Abstract

  • Backgrounds
    • pix2pix task: 画像 → 画像を生成する、いわるゆ画像翻訳(画風変換)
    • 従来はタスクごとに別々のアーキテクチャを構築(本質は全部はpixel predictionなのに…)
    • CNNでもpix2pixはできるが、画像がぼやけやすい
    • conditional GANsはぼやけた画像が生成されにくいからpix2pixやってみるか!
  • Objective
    • conditional GANsがpix2pixにおいて汎用性があることを示す
    • 提案フレームワークが従来よりシンプルかつより良い出力が得られることを示す
  • Methods
    • Generator: U-Net風にする
      • 層を飛び越えるskip connectionを加え、2つの出力をconcat
      • pix2pixにおいて、入力と出力において画像の根本となる情報(エッジ等)を考慮するため f:id:Info_tech:20181027235940p:plain
    • Discriminator: Patch GAN
      • 本物/偽物かは局所的な一部(NxN patch)を見るだけで十分
      • Nを実際の画像より小さくすることで計算量も減少
  • Results
    • 汎用的なpix2pixが可能(semantic labels⇔photo, map⇔aerial photo など)
    • 少ないデータ(数百件・数時間 on GPU)でも学習可能なことを確認 f:id:Info_tech:20181027235712p:plain

Comment

Residual Attention Network for Image Classification

Abstract

f:id:Info_tech:20181028000251p:plain

  • Backgrounds
    • Attentionモデルは時系列モデルにはよく使われていたが、画像認識などのfeed-fowardに対しては使われていなかっ
    • 近年の画像認識率向上には、層をディープにしたことが要因(ResNetなど)
  • Objective
    • ResNetを利用したディープなCNNにおいて、attention機構を採用し、認識精度向上
  • Methods
    • Attention Moduleごとに異なるAttention Maskをもたせた
      • 層が浅いAttention Moduleでは背景の青空を消し、層が深いAttention Moduleでは気球を強調 f:id:Info_tech:20181028000327p:plain
    • 3タイプの活性化関数を採用
      • Mixed attention: 各チャネル・空間位置に対してsigmoid
      • Channel attention: 空間情報を除去(全てのチャネル内でL2正規化)
      • Spatial attention: 各チャネルからの特徴マップ内で正規化し、空間情報のみに関連するsoftmax

      f:id:Info_tech:20181028000351p:plain

  • Results
    • 単純なResNetより精度が上昇し、モデルのパラメタ数も減少

Coments

  • 段階的にattentionのmapを変化させていることが興味深い
    • 単純にアウトプットにattention情報を加味させるだけではうまくいかない可能性
  • 3タイプの活性化関数も興味深い