kacky24 / papers Goto Github PK

View Code? Open in Web Editor NEW

3.0 5.0 1.0 2.06 MB

my publications and short summaries of papers I have read

papers's People

Contributors

Stargazers

Watchers

Forkers

coderdojo-ginowan

papers's Issues

Representation Learning with Contrastive Predictive Coding

short summary

音声、画像、言語、強化学習など一般に使える、高次元データから分散表現を抽出する教師なし学習のアプローチContrastive Predicting Codingの提案。

CPC

高次元データの系列を低解像度の潜在状態系列に埋め込む(CNN layresなど）
潜在状態系列に自己回帰モデルを適用し、contextを得る(GRUなど）
- masked convolutional architectureやself attention networkでよくなるかも
求めたcontextとkステップ先の潜在状態の相互情報量を保存するように学習する
- 単語埋め込むなどで使われるNoise Contrastive Estimation Lossを使う

author

Aaron van den Oord DeepMind [email protected] Yazhe Li DeepMind [email protected] Oriol Vinyals DeepMind [email protected]

URL

https://arxiv.org/pdf/1807.03748.pdf

year

2018

Word Translation Without Parallel Data

short summary

パラレルコーパスを使わずに、単一言語のコーパスから得られるword embeddingを対応づける

author

Alexis Conneau∗ † ‡ , Guillaume Lample∗ † §
,
Marc’Aurelio Ranzato†
, Ludovic Denoyer§
, Herve J ´ egou ´
†
{aconneau,glample,ranzato,rvj}@fb.com
[email protected]

URL

https://arxiv.org/abs/1710.04087

year

ICLR 2018

Dynamic Routing Between Capsules

short summary

URL

https://arxiv.org/abs/1710.09829

author

Sara Sabour
Nicholas Frosst
Geoffrey E. Hinton
(Google Brain, Toronto)
{sasabour, frosst, geoffhinton}@google.com

year

2017

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

short summary

画像中の複数人の2Dポーズを効率的に推定する手法の提案。
複数人の姿勢検知の難点

1つの画像が未知数の人をあらゆる箇所、スケールで含む
人同士の干渉
人数の増加に伴い、計算時間も増える

従来のtop-downアプローチ：画像中の人を検知し、それぞれについて姿勢検知

人の検知に失敗すると，そこで終わり
計算コストが人数に比例して増える

従来のbottom-upアプローチ：画像中の各部位の位置を推定し，つなぎ合わせる

ロバスト，人数増えても計算量抑えられる
画像全体のコンテキストをうまく使えておらず，部位間を繋ぐ計算量多く、精度が高くない

提案手法

Part Affinity Fields(PAF)を導入
limbの位置、向きをエンコードした２Dベクトル

a. 画像を入力
b. 各部位の位置を部位ごとに予測(confidence map)
c. 部位間の関連度をlimbごとに予測(affinity field)
d. confidence mapとaffinity fieldをgreedy inferenceでつなぐ
e. 出力

method

ベージュのbranch: confidence mapを予測
青のbranch: affinity fieldを予測
各stageをT回繰り返す
stage1では画像をcnnでエンコードしたfeature map Fを入力にconfidence map S1, affinity field L1を生成．
stage2以降

各stage, branchごとにL2lossを適用．

Wはbinary mask，全員にannotationされていないことがあるのでその場合W(p)=0
total loss

confidence map

groundtruth confidence maps S*をアノテートされた部位から作成
annotationされた点にピークを持つ以下の分布でconfidence mapを表現

複数人が画像に含まれる場合は複数のピークを持つ，それぞれの分布のmaxをとる

part affinity fields

複数人の検知された部位から全身の姿勢を組み立てるには部位間の関係の指標が必要，どの部位が同じ体のものか
⇒ PAF: limb領域について位置と向きの情報両方をもつ

limb上でのgroundtruth affinity filed L*はj1からj2へののunit vector

groundtruth affinity fieldは，画像内の全員のaffinity fieldの平均

テスト時，部位候補間の関係を，間のPAFのline integralを計算することで測る．

multi-person parsing using PAFs

j1とj2(ex)neck, right hip)のペアを考えたとき，その二部グラフからノードを共有しないようにline integralによる重みによってlimbを推定する．そして，これを各limbに対して独立に繰り返し，全員の全体の姿勢を求める．

URL

https://arxiv.org/pdf/1611.08050.pdf

author

Zhe Cao
Tomas Simon
Shih-En Wei
Yaser Sheikh
The Robotics Institute, Carnegie Mellon University
{zhecao,shihenw}@cmu.edu {tsimon,yaser}@cs.cmu.edu

A Neural Network-based Framework for Non-factoid Question Answering

short summary

QAは、factoid QA(事実・事象を返す)とnon-factoid QA(説明などの複雑なテキストを返す)に大別できる。

non-factoid QAの例

この論文では、non-factoid QAにおける２段階のフレームワークを提案。

Answer Retriever
回答の候補から、検索により一定数まで大雑把に絞りこむ。この論文ではbm25を使っている。
Answer Ranker
上位により正解に近い者が来るように並び替える。
Rankerの種類として、siamese networkベースのSRankerと、compare-aggregate modelベースのCRankerを使っている。

モデル全体の流れ

SRanker

CRanker

Ranker自体はSOTAレベルに匹敵する精度
ただ、bm25によるfirst stepで正解を拾えずに全体としては精度が落ちてしまうので、first stepにおける改善は必要

author

Nam Khanh Tran, Claudia Niederée
L3S Research Center, Leibniz Universität Hannover
Hannover, Germany
{ntran,niederee}@L3S.de

URL

https://dl.acm.org/citation.cfm?id=3191830

year

www2018 challenge#4

Phrase-Based & Neural Unsupervised Machine Translation

short summary

Neural Machine Translation (NMT)、Phrase-based Statistical Machine Translation (PBSMT)それぞれについて、monolongualのコーパスでの教師なしで学習する手法を提案。WMT'14 English-FrenchとWMT'16 German-EnglishでBLEU28.1, 25.2を記録し、教師なし学習の盆脈では11 point以上更新しSOTA。一昔前の教師ありに匹敵。

※参考文献

PBSMT

先行研究における教師なし機械翻訳の3原則

Initialization
- ペアで直接学習して行くことができないので、いい初期状態が必要
Language Model
- 流暢な言語を出力するために、言語モデルによる補正が必要
Iterative Back-translation
- 学習を進めるために、翻訳したものを再翻訳して、元の文との差分を取るという枠組みが必要

unsupervised NMT

基本的には、encoder-decoderモデルを

言語モデルとして学習させた後
翻訳モデルとして学習させる。

Initialization

sourceとtargetそれぞれのmonolingualコーパスに対して、一緒にbyte-pair encoding (BPE) をかける。
BPEの、vocablary sizeを減らせる、未知語をなくせるという利点に加え、一緒にBPEにかけることで、2言語間で。BPE toeknを共有する（この時、英語とフランス語などアルファベットで構成されている言語同士だと大部分のtokenを共有できるが、日英とかだと、共有できるtokenがだいぶ限られてしまう）。
手順

コーパスをくっつける
BPEをかける
くっつけたコーパスに対してword2vec的なもので表現学習

Language Model

denoising autoencoderで、ランダムに単語を落としたり、語順を変えたりしたものから、元の文の復元を学習する。この過程により、encoderはnoisyな文からもうまく潜在表現を抽出するようになり、decoderは綺麗な文を出力するように学習される。

ロス

Iterative Back-translation

一度翻訳したものを、もう一度逆方向に翻訳し、元の文と比較して学習する。

ただこの操作を行うと、翻訳したnoisyな文から、さらに翻訳して元に戻すのでうまくいかないが、上記のように、encoder, decoderは言語モデルとしてノイズを除去するように学習されているので、decoderはできるだけ綺麗な文を生成し、encoderは入力がnosiyだったとしても文意を捉えた潜在表現を抽出することが期待できる。

ロス

sharing latent representation

これら3つは、先行研究でも行われていたが、これらだけではうまくいかない。
→ 言語Aに対するencoderが抽出する潜在表現と、言語Bに対するencoderが抽出する潜在表現の分布、空間が違うと、例えば言語Aに対するdecoderは、言語Bに対するencoderからの表現の分布に対しては、ノイズを除去するようには学習していないため、結局言語モデルによるノイズ除去がうまく働かない。

→ ２言語からのencoderの出力の分布が近いものになる必要がある。
先行研究でも、adversarial lossの導入などにより近づけようとしたが、あまりうまくいかなかった。

そこで、この論文では、２言語間でencoder, decoderのパラメータを共有することで、分布を近づけ、encoderが言語によらない中間表現を抽出できるように試みた。

特にencoderの共有は必須。

Unsupervised PBSMT

教師なし翻訳では、リソースが少ない場合パフォーマンスが相対的に良いPBSMTをニューラルベースの代わりに使うのも合理的かも。

Initialization

普通PBSMTでは、phrase table（２言語間の双方向のフレーズの対応表）を教師ありで作成するが、これを教師なしで行う。
以下の式で、２言語の各単語（phrase）をエンコードし、２言語間の埋め込みの変換行列Wで変換し、cosine類似度を取ることでphrase間のスコア（対応確率）を求める。（詳細は、https://arxiv.org/abs/1710.04087）

Language Model

KenLMを用いたが、ニューラルベースでも良い。学習中は固定。
PBSMTでは、基本的には、phrase tableでtarget languageに変換した候補とそのスコアに、language modelによるスコアを加味してデコードし、変換するphraseや語順が決まる。

Iterative Back-translation

まず、source(S)からtarget(T)にphrase tableとlanguage modelを用いて翻訳し、T'を生成
次に、T'とSのペアからT→Sのphrase tableを更新する。
まず、TからSにphrase tableとlanguage modelを用いて翻訳し、S'を生成
次に、S'とTのペアからS→Tのphrase tableを更新する。

の1, 2を繰り返す。
phrase tableの中の多くは、あまり正しくない可能性があるが、翻訳時に言語モデルのスコアリングによるフィードバックが入ることで、生成文のnoisyな部分を緩和していき、phrase tableも改善するというサイクルに入ることが期待できる。

実験結果

大きくSOTA更新。

author

Guillaume Lample†
Facebook AI Research
Sorbonne Universites´
[email protected]
Myle Ott
Facebook AI Research
[email protected]
Alexis Conneau
Facebook AI Research
Universite Le Mans ´
[email protected]
Ludovic Denoyer†
Sorbonne Universites´
[email protected]
Marc’Aurelio Ranzato
Facebook AI Research
[email protected]

URL

https://arxiv.org/abs/1804.07755

year

EMNLP2018

R2N2: Residual Recurrent Neural Networks for Multivariate Time Series Forecasting

short summary

author

Hardik Goel
Dept of Computer Science & Engineering
University of Minnesota, Twin Cities
[email protected]
Igor Melnyk
IBM Research, T. J. Watson Research Center
Yorktown Heights, NY
[email protected]
Arindam Banerjee
Dept of Computer Science & Engineering
University of Minnesota, Twin Cities
[email protected]
September 12, 2017

URL

https://arxiv.org/pdf/1709.03159.pdf

year

2017

Predicting Key Events in the Popularity Evolution of Online Information

short summary

online informationにおける時系列の"burst", "peak", "fade"の予測．
データにはtwitterのhashtagを使用．
特徴量は，ある一定のpopularityまで達する時間と，average local clustering coefficientとして，SVRで予測．
accuracyに加え，promptnessも考慮した評価指標の導入．

URL

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0168749

author

Ying Hu, Changjun Hu, Shushen Fu, Mingzhe Fang, Wenwen Xu
Department of Computer and Communication Engineering, University of Science and Technology Beijing,
Beijing, China

Minimum Risk Training for Neural Machine Translation

short summary

NMTモデルのパラメータを、尤度最大化ではなく、評価指標（微分可能である必要なし、BLUEなど）に関して直接的に更新する手法の提案。

NMTの問題点の1つ：翻訳の質を評価する指標ではなく、訓練データの尤度最大化によって最適化される

exposure bias
ロスが、文レベルではなく単語レベルで定義される

よって、minimum risk training(MRT)を、NMTに導入し、問題の解決を試みる。

MRTにおけるロス(risk)は以下の式で求められる

(Δの部分が生成文yと正解ysのBLUE値、METEOR値など）
しかし、これでは全candicates(Y(xs))を考慮しなければならず、候補が多い場合難しい

よって、全candidatesの中からsubsetをサンプリングする。

実験において、サンプル数は100程度あれば十分だった

attention base のRNNモデルのMLEをMRT(BLUE)に置き換えることで、BLUEだけでなく他の指標でもスコア向上
また、人の評価でも向上

アルゴリズム

URL

http://aclweb.org/anthology/P/P16/P16-1159.pdf

year

ACL 2016

Joint Embedding of Words and Labels for Text Classification

short summary

labelもwordのembeddingと同じ空間に埋め込み、labelのembeddingとwordのembeddingの親和性からattentionをかけることで効果的にテキスト分類を行うモデルLEAMの提案。2つのデータセットでSOTAで、3つのデータセットでは他のモデルに少し及ばない結果となったが、計算コストは非常に低い。

各ラベルのembeddingを表す行列Cと文章のembeddingを表す行列Vをかけて"compatibility" Gを導出し、Gからsoftmaxを用いて各単語へのattentionを計算し、Vに掛け合わせてdocument embedding z を出力する。

PTEと概念は似ているが、weightの柔軟性や非線形性の考慮などからこちらのほうがよいらしい

author

Guoyin Wang, Chunyuan Li∗
, Wenlin Wang, Yizhe Zhang
Dinghan Shen, Xinyuan Zhang, Ricardo Henao, Lawrence Carin
Duke University
{gw60,cl319,ww107,yz196,ds337,xz139,r.henao,lcarin}@duke.edu

URL

http://aclweb.org/anthology/P18-1216
https://github.com/guoyinwang/LEAM

year

ACL2018

Poincare embeddings for Learning Hierarchical Representations

short summary

ネットワークのノードや単語などのシンボリックデータをword2vecのようなユークリッド空間ではなく双曲空間に埋め込むことで分散表現を獲得する手法の提案．

ユークリッド空間では，潜在的な階層構造を埋め込むのみ莫大な次元を必要とし，あまりうまくいかない．双曲空間では，はるかに小さい次元で，精度高く埋め込むことができる．

URL

https://arxiv.org/pdf/1705.08039.pdf

author

Maximilian Nickel
Facebook AI Research
[email protected]
Douwe Kiela
Facebook AI Research
[email protected]

year

2017

StyleNet: Generating Attractive Visual Captions with Styles

short summary

魅力的なキャプションを異なるスタイル（romantic, humorous）で生成するモデル（StyleNet）の提案．
StyleNetでは，モノリンガルのスタイルを持ったcorpusと通常の画像/動画・キャプションペアを用いて，スタイルを持ったキャプションを生成する．
具体的には，factored LSTM modelを新しく導入し，マルチタスク学習によって，文からfactual, style factorを取り出す．
要は，スタイルを持ったキャプションと画像のセットを用いずに，style factorをテキストのみから抽出し，それを利用しスタイルを持ったキャプションを生成できる．

factored LSTM

factored LSTMでは，普通のLSTMの入力に作用させるWxを以下のように因子分解する．

hに作用させる重み行列は，そのまま．
すなわち，キャプションの中身やスタイルに直接影響を与える部分Wxは変形し，ロングスパンの構文的な依存関係を主にとらえる部分Whは変形しない．
よって，factored LSTMは以下のように表される．

上記のU, V, Wは，テキストの一般的な事実説明をモデル化しているとして，異なるスタイル間でシェアする．
そして，Sをstyle factorを抽出しているものとして，変更する．

how to train

まずは，一般的なキャプションを画像から生成するように学習
pretrained CNNで画像をencodeし，それをもとにLSTMを初期化
言語モデルとして学習させる
Sだけ変えてスタイルごとに学習

experiment

一般のキャプション生成の学習

dataはFlickrStyle10K．
ResNet152（ImageNet pretrained）のlast pooling layerからの2048次元のベクトルを画像の特徴ベクトルとする．
それをlinear transform matrix Aで300次元にして，LSTMへの入力とする．
word vocabularyはfactual captionで2回以上出現，stylized captionのすべてを含む．
すべての単語のone hotをembeddingで300次元にする．

detail

caption, language model 両方ともAdamを使用．
batch sizeはcaption : 64, language: 96
learning rateはcaption : 0.0002, language : 0.0005
LSTMの隠れ層の次元 : 512, factored matrixの次元 : 512
パラメータはすべて一様分布で初期化
マルチタスク学習のために，1epochごとに交互に学習
- 最初はimage captioning task，次にstylized language modeling task
- romanticとhumorousを組み合わせて学習しても向上しない
30epochで収束
testのためのbeam searchはサイズ5

slideshare

https://www.slideshare.net/DeepLearningJP2016/dl-hacks-stylenet-generating-attractive-visual-captions-with-styles

URL

https://www.microsoft.com/en-us/research/wp-content/uploads/2017/06/Generating-Attractive-Visual-Captions-with-Styles.pdf

author

Chuang Gan1 Zhe Gan2 Xiaodong He3
Jianfeng Gao 3 Li Deng3
1 IIIS, Tsinghua University, China
2 Duke University, USA
3 Microsoft Research Redmond, USA

Classification Method for Shared Information on Twitter Without Text Data

short summary

災害時に必要な情報をユーザに届けるためのtwitterの投稿のクラスタリング手法の提案．
テキストデータは使わず，ある投稿をリツイートした人はその投稿に興味があるという前提の下で，リツイート情報から似た興味を持つユーザに必要とされているツイートを分類している．

まず，ツイートとそれらをリツイートしたユーザからなる二部グラフを構築する．
2つのツイートA,Bをリツイートしたユーザ群が似ている場合，A,Bは同じトピックを有している確率が高いとして，A,Bをリンクでつないでいき，トピックが似たツイートがつながったリツイートネットワークが構築できる．
ツイートA,Bの類似度は，Jaccard coefficientで測り，この論文では0.05を超えた場合にリンクを張っている．
構築したリツイートネットワークをModularityに基づきクラスタリングすることで，トピックごとにツイートを分類できる．

この手法では，テキストデータを使わず，リツイート情報のみを用いているので，意味が近くても言語的に形が全然違うツイートも効果的に分類できる．

URL

http://syrinx.q.t.u-tokyo.ac.jp/tori/paper/swdm17-babaSeigo.pdf

author

Seigo Baba,
Fujio Toriumi,
Takeshi Sakaki
The University of Tokyo
7-3-1, Hongo, Bunkyo-ku,
Tokyo, Japan 113-8654
[email protected],
[email protected],
[email protected]
Kosuke Shinoda,
Satoshi Kurihara
The University of
Electro-Communications
1-5-1, Tyohugaoka, Tyohu-shi
Tokyo, Japan 182-0021
[email protected],
[email protected]
Kazuhiro Kazama
Wakayama University
930, Sakaedani,
Wakayama-shi
Wakayama, Japan 640-8441
[email protected]
Itsuki Noda
The Nastional Institude of
Advanced Industrial Science
and Technology
1-1-, Umesono, Tsukuba-shi
Ibaraki, Japan 305-8568
[email protected]

adaptive computation time for recurrent neural networks

short summary

RNNがsequenceの各ステップごとに異なる計算量で計算を行えるようにする手法（ACT)の提案。

従来の機械学習のアルゴリズムは、計算量をタスクの複雑さに合わせて調整できない。
しかし、効率的かつ精度高く出力するには、闇雲に深いネットワークを作るのではなく、必要な箇所で計算量を増やす（熟考する＝ponder）ことが望まれる。
そこで、RNNが、各タイムステップで、複数回計算を行えるようにし、計算回数を学習に組み込むということを行う。

計算回数は、上図の各hにシグモイド関数を通して求められる注目度の分布の和が1 - εより大きくなればiteration終了とする。
各ステップの出力は、各iterationの出力に注目度を掛けたものの和になる。

ロス回数に、計算回数が多くなりすぎないように、計算回数の各ステップの総和を組み込むが、これにかかる係数に結果が大きく依存するのが難点。

author

Alex Graves
Google DeepMind
[email protected]

URL

https://arxiv.org/pdf/1603.08983.pdf

year

2016

Graph Convolution over Pruned Dependency Trees Improves Relation Extraction

short summary

文中の、主語と目的語（subject and object）の関係を分類するタスクであるrelation extractionに、graph convolutionを適用した論文。(ex, 文中のpersonとorganizationをemployed_atという関係に分類する）
GCNのdependency treeへの適用によるentity-centricな表現抽出に加え、主な係り受け関係以外の枝刈りを工夫することで、TACREAD datasetでSOTA.

model

通常のgraph convolution operation

しかし、これだと

tokenごとに次数(degree)が大きく違うことにより、ノードの持つ情報を無視して高次数のノードが重視されてしまう可能性
1つ前の層の自身を反映できない
という問題がある。

そこで、次のように改良

self-loopを加え、非線形変換を加える前に次数で割って平均をとっている。

行列表現

GCNによるencode

上図のように、GCN適用後max pooling
ただし、entity token (subject and object）周りの情報は、relation classificationでは重要度が高い。そこで、GCNの最終層の出力の、主語と目的語に対応する部分（上図の目的語のように複数語の可能性あり）は、別で改めてpoolingを行い、concat

その後、FFNN(fc層）、softmaxを経て、各relationへの確率分布を得る。

Contextulized GCN

前述のGCNにはまだ不十分な点がある。

inputのword vectorが、語順や曖昧性回避のためのcontext情報を持っていない。
GCNは構文木が正しいことに依存して文から重要な情報を引き出すが、既存の構文解析アルゴリズムは、往々にして不完全。

そこで、まず、bi-directional lstmに通してcontextを考慮した表現を得たのち、それをGCNの入力とする。

path-centric pruning

relationに寄与する情報のほとんどは、lowest common ancestor (LCA) （上図の深緑のノード）をrootとするsubtree内に大抵ある。先行研究により、このスコープ外のtokenを除くことで精度向上が確認されている。しかし、例えばsubjectとobject間のshortest pathでは、枝を刈りすぎていて、必要な情報も除いてしまっている。そこで、LCAのsubtree内のsubject, object間のpathから一定距離K離れたノードまでを残すようにする（K=∞：LCAのsubtree内の全ノード考慮）。K=1がベストだった。

結果

既存のdependency-based model, neural sequence model（dependency tree使わない）を上回った。

URL

https://arxiv.org/abs/1809.10185
https://github.com/qipeng/gcn-over-pruned-trees

author

Yuhao Zhang,* Peng Qi,* Christopher D. Manning
Stanford University
Stanford, CA 94305
{yuhaozhang, pengqi, manning}@stanford.edu

year

EMNLP 2018

TreeGAN: Syntax-Aware Sequence Generation with Generative Adversarial Networks

short summary

文生成のための、構文を考慮したganであるTreeGanの提案。
文を直接生成する代わりに、構文木（actionの系列）を生成することで、文法情報を考慮する。

ganの目的関数

sequence dataにganを適用する際、Gが生成するのは離散的なシンボルなので、Dのロスの勾配から誤差逆伝搬はできない。
よって、seqganと同様にpolicy gradientを用い、Gに関しては以下を最大化。

報酬は、Dが出す本物に見える確率

Dに関しては通常のganの目的関数を最小化。

generator

GにはLSTMを用いる。

この例において、Gは以下のようなactionを順に生成

rootノードから始まり、異なる生成ルールを選んでいくことで木を拡大し、葉において終端記号を生成し枝を閉じる。

LSTMへの入力xは、1つ前のactionのembeddingと、親(t2, t3, t8から見たt1)のembeddingをconcatしたもの。
LSTMの出力には、現在のノードから文法的に正しいものだけが選ばれるようにマスクをかける。

生成の際に構造をうまく扱うために、pushdown automata(PDA)のようにstackをうまく使う。
親用のstackと子用のstackを用意する。
生成時には、

親stack、子stackからそれぞれP. Cを取り出す(pop)
Cが終端記号であればそれを出力とし次ステップまで何もしない
Cが非終端記号であれば、
- Pのembeddingと1つ前のactionのembeddingをconcatしてLSTMに入力し、actionを出力。
- 次ステップに移る前に、Cを親stackに、actionによりCから生成されるものを（リバースして）子stackに入れる

discriminator

構文木の構造と意味をとらえるために、Tree LSTMを用いる

pretraining

ganの学習前に、Gはmaximum likehood estimation(MLE)で、Dは本物の構文木とsub treeを入れ替えた木とを判別するタスクで事前学習する。

結果

SQLやpython code generation(Django)において、seqganやLSTMを大きく上回る精度。
文法的に正しい文章が出力される

author

Xinyue Liu
Worcester Polytechnic Institute
[email protected]
Xiangnan Kong
Worcester Polytechnic Institute
[email protected]
Lei Liu
Apple
[email protected]
Kuorong Chiang
Huawei
[email protected]

URL

https://arxiv.org/pdf/1808.07582.pdf

year

2018

DeepCas: an End-to-end Predictor of Information Cascades

short summary

information cascadeの将来のサイズの予測のための、end-to-endのdeep learningによる手法DeepCasの提案。(この問題における初のend-to-endのdeep learningによる試み？）

*information cascade (from wikipedia)
"information cascades happen when Internet users start passing on information they assume to be true, but cannot know to be true, based on information on what other users are doing"

information cascadeの予測では、特徴量を作り込んでから機械学習手法を適用していたが、deepなフレームワークにより、自動的にこれらの特徴量を抽出しつつ、且つデータの種類に寄らず使える。（特徴量を作り込む方法だと、データ依存性がある）

cascade graphから任意の始点からのランダムウォークのマルコフ連鎖を複数取り出し、それらをGRUにかけ、attentionによりグラフの表現を足し合わせ、FC層に通して予測値を得る。

cascade graph : document, path: sentence, node: word的なイメージ

node2vec, deepwalkなどでは、は固定だったが、attentionによる重み付けで、pathの長さTとサンプリング数Kも学習するような効果を与える。

結果は既存の特徴量ベース、node2vecなどを含む8つのベースラインを上回った。

特徴量ベースに比べると、中身は見辛く分析面では劣るので、特徴量ベースで精度を出す際の目標（差が特徴量の工夫により埋められる余地）として使うのがいいかもと述べられている。

比較実験を通して、特徴量の重要性の検証や可視化など、多くの確認、知見を得ている。

author

Cheng Li1
, Jiaqi Ma1
, Xiaoxiao Guo2
, Qiaozhu Mei1,2
1School of Information, University of Michigan, Ann Arbor, MI, USA
2Department of EECS, University of Michigan, Ann Arbor, MI, USA
{lichengz, jiaqima, guoxiao, qmei}@umich.edu

URL

https://arxiv.org/pdf/1611.05373.pdf

year

www2017

Exploring the Filter Bubble: The Effect of Using Recommender Systems on Content Diversity

short summary

filter bubbleに関する調査．
レコメンドシステムによって，filter bubbleが引き起こされているのかを，MovieLensのデータセットを使って検証．
結果としては，協調フィルタリングによるレコメンドシステムはむしろfilter bubbleのリスクを軽減していた．
輪講発表資料：https://www.slideshare.net/KotaKakiuchi/2017-78728159

URL

http://wwwconference.org/proceedings/www2014/proceedings/p677.pdf

author

Tien T. Nguyen Pik-Mai Hui F. Maxwell Harper Loren Terveen Joseph A. Konstan

GroupLens Research
Computer Science and Engineering
University of Minnesota
Minneapolis, MN 55455
{tien,hui,harper,terveen,konstan}@cs.umn.edu

Heterogeneous Network Embedding via Deep Architectures

short summary

deep learningのアーキテクチャを使った教師なしのheterogeneous network embedding手法の提案。
(heterogeneous<->homogeneous, 単一の種類でないノードからなるネットワーク）
論文内では、画像とテキストの２種類のノードについて主に考えているが、拡張可能

linearな枠組みでのembedding

画像、テキストをそれぞれベクトルに変換(pixelを行ごとに積み重ねる、tfidfなど）
それぞれに対して変換行列を用意し、固定長のベクトルにする。
固定長ベクトルの内積が類似度を表すので、リンクがあるとき内積を大きくするようにロス関数を設定し、学習。

ただ、linearであり、複雑なネットワークのつながりを表現するには心もとない。

deepなアーキテクチャを追加

上記の枠組みにおいて、固定長ベクトルに変換するところで、deep learningによるモデルを使う。
- 画像ならCNN, テキストならtfidf + fully connected layer

実験結果：clustering, classification. retrievalにおいて既存手法を上回る分散表現を獲得できた。(classificationは分散表現獲得後SVM)

author

Shiyu Chang1, Wei Han1, Jiliang Tang2,
Guo-Jun Qi3, Charu C. Aggarwal4, Thomas S. Huang1
1 Beckman Institute, University of Illinois at Urbana-Champaign, IL 61801. 2 Computer Science and Engineering, Arizona State University, Tempe, AZ 85281. 3 University of Central Florida, Orlando, FL, 32816.
4 IBM T.J. Watson Research Center, NY, 10598.
{chang87, weihan3, t-huang1}@illinois.edu, [email protected],
[email protected] [email protected]

URL

http://www.ifp.illinois.edu/~chang87/papers/kdd_2015.pdf

year

2015 KDD

Global-Locally Self-Attentive Dialogue State Tracker

short summary

dialogue state trackingのためのモデルGlobal-Locally Self-Attentive Dialogue State Tracker(GLAD)の提案。

dialogue state tracking（DST)

現在の会話の状態を、現在のユーザの発言と過去のユーザ、システムの発言から推定するタスク。
DSTにおける状態とは、ユーザの目的（goal)と要求（request)から成る。
例えば、restaurant予約のタスクを考えると、毎ターン、ユーザは達成したい目的をシステムに伝える（inform(food=french)など）か、システムから情報を引き出すための要求（request(adress)など）を行う。goalとrequestにおける(food, french)、(request, address)などのslot-valueペアを各ターン予測する。

既存手法では、レアなslot-valueペアの抽出にあまりうまくいっていないが、レアなペアのどれかが会話中に出てくる確率は小さくなく、会話中のターンレベルでのエラーの重なりが会話全体としての精度を大きく下げるので、問題である。
GLADでは、各slotに対する推定器がパラメータを共有したglobal moduleと、slot毎に独立な推定器を用いるlocal moduleを芸陽することで、レアなslot-valueペアに対しても数個の訓練サンプルで予測できるようになりSOTA達成。（既存のものはslot-valueペア毎に独立に推定）

GLAD

問題設定：ターンの状態を、ユーザの発言と、1つ前のシステムの出力から推定。
既存手法と同様に、マルチラベルの状態推定問題を、slot-value毎に異なる推定器を用いることで２値推定問題の集合に置き換える。

GLADは、encoder moduleとscoring moduleからなる。

encoder moduleでは、ユーザの発言と前のシステムの発言、対象のslot-valueペアを埋め込む。
encoderは、global/local biLSTMとglobal / local self attentionから成る。
scoring moduleは、ユーザの発言を評価するutterance scorerと前のシステムの出力を考慮するaction scorerから成る。手法は基本的にはうまいことアテンションをかけてるだけ
- utterance scorer
- action scorer

結果

DSTC2とWoZ taskに置いてSOTA.
globalとlocalを組み合わせることでレアなslot-valueペアに対して精度が上がっている。

author

Victor Zhong, Caiming Xiong, Richard Socher
Salesforce Research
Palo Alto, CA
{vzhong, cxiong, rsocher}@salesforce.com

URL

https://arxiv.org/pdf/1805.09655.pdf
https://github.com/salesforce/glad

year

ACL 2018

Reaching Human-level Performance in Automatic Grammatical Error Correction: An Empirical Study

short summary

文修正（Grammatical Error Correction, GEC）のタスクにおいて、新しいfluency based boost learning, inference mechanismをseq2seqベースの手法に導入することで、人レベルに達した初のGECシステムの提案論文。

ニューラルネットのアプローチだと、GECはNMTを応用して、seq2seq + attention + beam searchが典型的なやり方。

fluency boost learning

ニューラルモデルの訓練には、大量のerror-corrected sentence pairが必要だが、用意するのは難しい。
よって、augmentationが有効。
ここで、fluencyは、言語モデルによって、以下のように計算されれ、０〜１をとる。

（言語モデルはcommon crawlで訓練された5-gram language model）

back-boost learning

上図の(a)
通常は、エラー文→正解文だが、正解文→エラー文を生成するseq2seqモデルを用意する。
正解文→エラー文で、精度の高い候補上位n個を取ってきて、その中から、fluencyが正解文より一定割合以上下がったものを抜き出し、新たなerror-corrected sentence pairとする。

self-boost learning

上図の(b)
エラー文→正解文を生成するseq2seqモデルにおいて、精度の高い候補上位n個の中から、まだfluencyが正解文よえい一定割合以上低いものを抜き出し、新たなerror-corrected sentenhce pairとする。

dual-boost learning

上図の(c)
back-boost, self-boost learningは、それぞれ違う観点からdisfluency candidatesを生成するので、両者を組み合わせることで、より多様なaugmentationを行う。

adding large-scale native data

このfluency boost learningでは、エラー文とpairになっていない大量の正しい文を活用できる。

(C：(corrected, corrected), ...)
同じ正解文と正解文のペアとして、入れられる。

fluency boost inference

一文に複数のエラーがあるような場合などは特に、一回のseq2seqによる変換だけでは直しきれないといことが起きる。そのため、fluencyが改善されなくなるまで、複数回変換する。（nulti-round error correction)

multi-round error correctionの改善版：round-way error correction
left-to-rightのseq2seqモデルとright-to-leftのモデルは、それぞれ違う強みを持つので、同じモデルで複数回変換するのではなく、これらを順番に適用する。（上図）

Experiment

seq2seqのモデル：7-layer convolution seq2seq model (https://github.com/pytorch/fairseq)
前処理として、既存のソフトウェアでスペルミスは直している。

結果として、既存のシステムを上回り、人間のスコアと同等以上のスコアを残した、
（データは、既存研究より増やしているので、そもそも比較が同条件ではない？）

URL

https://arxiv.org/abs/1807.01270

author

Tao Ge, Furu Wei, Ming Zhou
Natural Language Computing Group, Microsoft Research Asia, Beijing, China
{tage, fuwei, mingzhou}@microsoft.com

year

ACL 2018 "Fluency Boost Learning and Inference for Neural Grammatical Error Correction"に追加実験を加えたもの

Transition-Based Dependency Parsing with Stack Long Short-Term Memory

short summary

transition-based dependency parsingにおいて、stack LSTMを含む、parserの状態を表す表現を学習する手法の提案。

stack LSTM

pop: stack pointerを1つ前のcellに移動する
push: stack pointerが付いているcellに新しく入力する

shift処理では、bufferから１単語取ってきてstack LSTMに入力する(push)
reduce処理では、stackの上から2つ(head, dependency or dependency, head)取り出して以下のcomposition functionを適用

その後、その2つのcellの前のcellに対してcompositionしたcを入力する(pop, pop, push)
これを繰り返すことで、bottom upにrecursive neural networkのような処理を行っている。

parser全体の学習

stack LSTM コードサンプル(dynet)

https://github.com/neubig/nn4nlp-code/blob/master/12-transitionparsing/stack_lstm.py

author

Chris Dyer♣♠ Miguel Ballesteros♦♠ Wang Ling♠ Austin Matthews♠ Noah A. Smith♠
♣Marianas Labs ♦NLP Group, Pompeu Fabra University ♠Carnegie Mellon University
[email protected], [email protected],
{lingwang,austinma,nasmith}@cs.cmu.edu

URL

http://aclweb.org/anthology/P/P15/P15-1033.pdf

year

ACL 2015

An efficient framework for learning sentence representations

short summary

教師無し学習による文表現学習手法quick thoughtsの提案。

従来は文から前後の文を構築するタスクを解くことにより学習(skip thought)
quick thoughtでは、候補の中から前後の文を当てるというタスクを解く
← 文の構造に影響されず意味だけを評価したい

大半のNLPタスクでstate of the artかつより効率的

参考資料
https://www.slideshare.net/yuyasoneoka/an-efficient-framework-for-learning-sentence-representations

author

Lajanugen Logeswaran
∗ & Honglak Lee†∗
∗University of Michigan, Ann Arbor, MI, USA †Google Brain, Mountain View, CA, USA {llajan,honglak}@umich.edu,[email protected]

URL

https://arxiv.org/pdf/1803.02893.pdf

year

ICLR2018

PTE: Predictive Text Embedding through Large-scale Heterogeneous Text Networks

short summary

テキストデータに対する半教師あり表現学習手法predictive text embedding(PTE)の提案。

skip-gramやparagraph vectorなどの教師なし学習による分散表現は、特定のタスクにおいてはCNNのようなend-to-endのdeep learningフレームワークよりパフォーマンスが落ちる（CNNなどでは、タスクにおけるラベル情報を学習している）
一方、deep learning modelでは、計算コスト、大量のラベル付きデータがいる、多くのパラメータチューニングが必要といった問題がある。
⇒ PTEは教師なし学習の利点を生かしつつ、ラベル情報も表現学習に利用する。

ネットワークの定義

以下のネットワークを用意

word-word network(wordの共起ネットワーク）
word-document network(二部グラフ）
word-label network(二部グラフ）
Heterogeneous text network
- 上記の３つのネットワークをくっつけたもの
- labeled data, unlabeled data両方含む

アルゴリズム

heterogeneous text networkは、３つの２部グラフから構成されているととらえられる。(wordは共有）
２部グラフのembeddingは、LINEを適用して行う。
heterogeneous text networkのembeddingは、３つの２部グラフのembeddingの目的関数の和を最小化するように行う。

テキストの埋め込みは、単純に単語の和をとる。

実験結果

テキスト分類タスクにおいて、教師なし学習によるSOTAは大きく上回った。
CNNとの比較では、長い文章では上回り、短文章では同程度だった。
ただ、より効率的で、モデルパラメータの影響が少ない。

author

Jian Tang
Microsoft Research Asia
[email protected]
Meng Qu∗
Peking University
[email protected]
Qiaozhu Mei
University of Michigan
[email protected]

URL

https://arxiv.org/pdf/1508.00200.pdf

year

2015

Neural Relational Inference for Interacting Systems

short summary

相互作用システムにおいて、教師なしで関係性の構造を推測しつつ、各ノードのダイナミクスを学習するNRIモデルの提案。
モデルはVAEの構造をしており、encoderで関係性（ノード間のエッジタイプ）を教師なしで抽出、decoderで抽出した関係性を条件としてGNNにより各ノードのダイナミクス（位置・速度など）を予測する。

author

Thomas Kipf, Ethan Fetaya, Kuan-Chieh Wang, Max Welling, Richard Zemel

URL

https://arxiv.org/pdf/1802.04687.pdf

year

ICML 2018

Named Entity Recognition With Parallel Recurrent Neural Networks

Cause Estimation of Younger Babies' Cries from the Frequency Analyses of the Voice - Classification of Hunger, Sleepiness, and Discomfort -

short summary

赤ちゃんの声の周波数分析により，赤ちゃんの泣いている原因を推定するルールベース手法の提案．(空腹，眠気，不快の3種類)
ここで，不快は，おむつが湿っているまたは姿勢を変えたいことにより赤ちゃんが不快に感じていると思われる状態を指す．

URL

http://ieeexplore.ieee.org/document/4212215/

author

Exploring the Effect of Confusion in Discussion Forums of Massive Open Online Courses

short summary

MOOCs (massive open online courses, Courseraなど) において、生徒のconfusionとコースの継続、離脱の関係を分析した論文。

※ confusion: 生徒が、壁にぶち当たりどうすればわからない状態

positive side: 深い理解のために勉強している証拠であり、立ち止まって熟考することで難しい問題の理解に繋がる。

まず、生徒のフォーラムでのpost (投稿) とクリックストリームから生徒のconfusion度合いを測定する分類器を作る。
そして、confusionと継続の関係を、confusionの解決、postに対する返信も踏まえて明らかにしている。

data

Courseraの線形代数とミクロ経済のコース

Confusion Prediction

教師データ：AMTで作成、confusion度合いを４段階で表す。
特徴量

Click Patterns: ex) "quiz, quiz, forum" or "quiz, lecture, quiz, lecture"
Linguistic Features: Linguistic Inquiry and Word Count(LIWC)の利用。各カテゴリの単語が入っているかどうか ex) negationカテゴリ-> (not, no, never)
Question Features: ?, 疑問を表す表現があるかどうか

手法

ロジスティック回帰

使う特徴量の組み合わせで精度を比較したり、２コース間の比較を行なっているが、８割ぐらいの精度で予測できている。

Survival Analysis

Stata（統計ツール）の利用

parametric regression survival analysisの利用、survival timesにWeibull distributionを仮定

従属変数：ドロップアウトするか否か
説明変数：種々のconfusion、解決したか、返信されたかなど

結果

confusionの表明やforumでconfusionに触れることで、学習を継続する可能性は下がる
replyやconfusionの解決はその効果を和らげる

その他MOOCsがどうあるべきか的なことも考察

URL

http://delivery.acm.org/10.1145/2730000/2724677/p121-yang.pdf?ip=133.11.92.194&id=2724677&acc=ACTIVE%20SERVICE&key=D2341B890AD12BFE%2E925D03907F1B22EF%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35&__acm__=1518945569_4b59e86faea04799f4bac9487233d3d6

author

Diyi Yang, Miaomiao Wen, Iris Howley, Robert Kraut, Carolyn Rose´
Carnegie Mellon University, Pittsburgh, PA 15213
{diyiy, mwen, ihowley}@cs.cmu.edu, [email protected], [email protected]

year

2015

Distributed Representations of Sentences and Documents

short summary

doc2vec(paragraph vector)に関する元論文．

PV-DM( the Distributed Memory Model of Paragraph Vectors)

woed vectorとparagraph vectorをaverage/concatenateして，次の語を予測するタスクを解かせ，学習．

PV-DBOW(the Distributed Bag of Words version of Paragraph Vector)

paragraphからランダムにサンプリングした語を，paragraph vectorのみから予測させ，学習．
サンプリングは，まずtext windowをsampleし，そのtext windowからさらにランダムに単語をsampling．
シンプルなため，メモリ消費が少ない．

大体のタスクにおいては，PV-DMの方が良いが，PV-DBOWと組み合わせると，より安定する．

URL

https://cs.stanford.edu/~quocle/paragraph_vector.pdf

author

Quoc Le [email protected]
Tomas Mikolov [email protected]
Google Inc, 1600 Amphitheatre Parkway, Mountain View, CA 94043

Relational inductive biases, deep learning, and graph networks

short summary

従来の多くのニューラルネットワークにおけるアプローチを一般化、もしくは拡張したGraph Networkを提示。
人間は、少数のものを組み合わせて無数のものを生み出す(combinatorial generalization)が、現在のDLにおける主流のend-to-endなアプローチではそれは難しく、Graph Networkにおける、relational inductive biasによるstructured representationの利用とDLによる柔軟な学習の組み合わせが有効であるとしている。

author

1DeepMind; 2Google Brain; 3MIT; 4University of Edinburgh

URL

https://arxiv.org/pdf/1806.01261.pdf

year

2018

DeepPose: Human Pose Estimation via Deep Neural Networks

short summary

CNNによる回帰問題として姿勢推定を行った最初の論文。
かつては各関節それぞれについて特徴量設計、検出器設計、相互作用考慮などを行っていたが、CNNを使うことでうまく全体をみて推測してくれる。

姿勢推定は、関節の位置の特定問題として定義される。
画像データをx、ラベルをy = ( ... , yi, ...) (yiは各関節の座標）として、(x, y)のペアで学習する。
関節の座標は、画像内の絶対位置なので、人物領域を切り出したboxの中心からの位置を表すように正規化。

よって、元画像x中の座標yの予測は、

ψはAlexNet.

画像全体を入力とすると，うまく全体を見てくれるアドバンテージはあるが，画像サイズが決まっている(220*220)細かいところは見れない ⇒ 粗い
⇒ カスケード(同じCNNモデルを複数，直列に接続して多段stage化)

stage 1では入力画像から全関節の位置を推定．

stage 2以降では各関節ごとにそれぞれ以下の処理

1つ前のstageで推定した関節位置近辺部分を入力の画像とする
1つ前のstageで推定した関節位置と，真の関節位置の差分を予測

stage 2以降では、ただ1つ前のstageで推定した位置のみを使用するのではなく、シミュレーションによる予測値を用いることでdata augmentationする。
具体的には、1つ前のstageの予測結果のずれ(y_i^(s-1) - yi)による分布の平均と分散を求め、この平均、分散をもつ正規分布から生成したノイズを、真の関節位置yiに加えた値を、予測値とする。

URL

https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/42237.pdf

author

Alexander Toshev
[email protected]
Google
Christian Szegedy
[email protected]
Google

node2vec: Scalable Feature Learning for Networks

short summary

node2vecに関する元論文．

ネットワークにおけるノードでは，homophily equivalence, structural equivalenceの2つの同等性を考慮(所属しているコミュニティ，ネットワークにおける構造的な役割⇒hub, bridge, etc）
feature learningのフレームワークとしては，skipgramのように隣接ノードとの内積を大きくし，他のノードとの内積を小さくする．隣接ノードはstrategy Sに基づいてsampling．
strategy Sとしては，Breadth-first Sampling(BFS)⇒幅優先と，Depth-first Sampling(DFS)⇒深さ優先が考えられる．

BFSはhomophily equivalenceを，DFSはstractural equivalenceをより強く反映する．

node2vec(提案手法)⇒biased random walkによりBFSとDFSを柔軟に取り入れる．
random walkは2次のマルコフ過程を採用．
flexibilityのカギとなるパラメータp, q
p : 一回違うノードに移動したのちまた元のノードへの移動のしにくさ(Return parameter)
q : コミュニティの外への移動のしにくさ(In-out parameter)
ランダムウォークを採用することで，時間もメモリも効率的
リンク予測などに応用できるエッジのfeatureは，ノードのペアのfeatureから求める．

実行例）レミゼラブルのネットワークをnode2vec⇒kmeansでクラスタリング
(top)p=1, q=0.5
(bottom)p=1, q=2

上の図ではコミュニティ同一性で，下の図では構造的な同一性でクラスタリングできている．

URL

http://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf

author

Aditya Grover
Stanford University
[email protected]

Jure Leskovec
Stanford University
[email protected]

Pay Less Attention with Lightweight and Dynamic Convolutions

short summary

Lightweight convolution, Dynamic convolutionという機構を提案し、self attentionを使わなくても、よりシンプルで効率的な構造で、翻訳だけでなく、言語モデルや要約タスクにおいてもself attentionベースの手法に匹敵する・しのぐ結果を出した。（transformerのself-attention部分を提案モジュールに置き換える感じで）

わかりやすい資料URL
https://qiita.com/koreyou/items/328fa92a1d3a7e680376

補足

Dynamic convolution

において、f(Xi)は、

と表されるが、この操作においては、あるタイムステップの単語のベクトルだけを用いて、グループ数H＊カーネルサイズkの重みを動的に生成している。

author

Felix Wu∗
Cornell University
Angela Fan, Alexei Baevski, Yann N. Dauphin, Michael Auli
Facebook AI Research

URL

https://openreview.net/pdf?id=SkVhlh09tX

year

ICLR2019

Language Models are Unsupervised Multitask Learners

short summary

author

Alec Radford * 1 Jeffrey Wu * 1 Rewon Child 1 David Luan 1 Dario Amodei ** 1
Ilya Sutskever ** 1
openai

URL

https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

year

2019

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

short summary

transformerを用いたlanguage representation modelであるBERT (Bidirectional Encoder Representations from Transformers)の提案。
タスクに特化したモデルではないのにも関わらず、大量のコーパスで教師なし学習でpre-trainした後、それぞれのタスクに対して低コストでfine tuningすることで、文レベル、トークンレベル両方の多くのタスクでSOTA達成。

language representationのpre-trainは以下の2つに大別

Feature-based approach
skipgram, skipthought, ELMoなどの単語、文の表現を事前学習により獲得するアプローチ
Fine-tuning approach
まずモデルを言語モデルとして学習させたのち、そのモデルを教師ありのdownstreaming taskに対してfine tuningする。OpenAI GPTや今回のBERTなど。

model概要

transformerを使用。
BERT(base)

number of layers: 12, hidden size: 768, number of self-attention heads: 12, size of feed forward: 3072, total parameters: 110M

BERT(large)

number of layers: 24, hidden size: 1024, number of self-attention heads: 16, size of feed forward: 4096, total parameters: 340M

model input

BERTのinputは、１文を入力する or 対の２文（QAなど）を１文にくっつけて入力とする。ある箇所のトークンに対応する入力の表現は、トークンとpositional embeddingと、segment embeddingの和から成る（上図）。

segment embedding: 対の２文を入力とする場合に、１文目(A)にはsentence Aのembeddingを加え、２文目(B)にはsentence Bのembeddingを加えることで、２文を区別する。１文しか入力しない場合はsentence A embeddingだけを使う。

pre-training tasks（この論文の肝）

以下の2つの新しい教師なしタスクを解かせる。

Masked Language Model
前提：deep bidirectional modelは、left-to-rightなモデルや、left-to-right・right-to-leftなモデルの出力を結合したものより強力。
deep bidirectional representationを学習するために、何割か(15%)の入力トークンにマスクをかけ、そのマスクがかかったトークンを予測する問題を解く。

Next Sentence Prediction
QAやNatural Language Inference(NLI)においては、２文間の関係性を理解することが重要であるが、language modelingからはこれは直接的に学習できない。そこで、２文のペアを作り、２文目が１文目の次の文かそうでないかの分類問題を解く。

学習

BookCorpus + Wikiデータで学習。Next sentence predictionがあるので文章レベルのデータが必要。
fine-tuningの際には出力層だけを加え、3, 4epochほどタスク用のデータで教師あり学習を行う。

実験結果

11のNLPタスクでSOTA。

fine-tuningするのではなく、ELMo的な使い方でも、CoNLL-2013 NER(name entity recognition)においてfine-tuningしたものとf1-scoreが0.3しか変わらず、かなり高精度。

author

Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova
Google AI Language
{jacobdevlin,mingweichang,kentonl,kristout}@google.com

URL

https://arxiv.org/pdf/1810.04805.pdf

year

2018

LINE: Large-scale information network embedding

short summary

大規模な複雑ネットワークにおけるノードの分散表現を獲得するための手法LINEの提案．
有向，無向や重み付きかどうかに関わらず，適用可能．
ネットワークの1次，2次の近接性を保つ．

1次の近接性
直接つながっているノード間の近接性
2次の近接性
ノードu, vそれぞれの他のすべてのノードに対する1次の近接性の類似度

1次近接性の学習

ノードvi, vjの結合確率 (uが求めたい分散表現)

目的関数

ここで，p^はリンクijと全リンクの重みの和の比
距離関数dはKLダイバージェンスを使う
整理すると，

これらは，無向グラフにのみ適用可能

2次近接性の学習

2次近接性は有向，無向どちらにも適用可能で，無向の場合は，双方向の重みの等しい有向グラフに置き換えて考える．
ノードを'context'としてもとらえ，似た'contexts'の分布を持つノードは似ているとする．
よって，各ノードは，ノードとして扱われた時の分散表現uと，contextとしての分散表現u'を持つとする．
ノードviからcontext vjが生成される確率

目的関数

ここで，p^はリンクijの重みとノードiのout degreeの比
lamdaは各ノードの重要度（次数やPageRankなどで求められる）で今回はout degree
距離関数dはKLダイバージェンス
整理すると，

1次近接性と2次近接性の結合はシンプルに分散表現をconcat
目的関数を組み合わせて学習させるのは今後の課題

optimization

2次近接性の目的関数を最適化するのは計算量多い⇒negative sampling
目的関数

最適化には asynchronous stochastic gradient algorithm(ASGD)を用いる．
更新式

上の更新式では，単語の共起などwのばらつきが非常に大きい場合，適切な学習率の設定が難しくうまく学習できない．
これを解決するために，重みは一律として，元の重みに比例する確率でリンクをサンプリングして学習を行う．

URL

https://arxiv.org/pdf/1503.03578.pdf

author

Jian Tang1
, Meng Qu2∗
, Mingzhe Wang2
, Ming Zhang2
, Jun Yan1
, Qiaozhu Mei3
1Microsoft Research Asia, {jiatang, junyan}@microsoft.com
2School of EECS, Peking University, {mnqu, wangmingzhe, mzhang_cs}@pku.edu.cn
3School of Information, University of Michigan, [email protected]

year

2015

Compositional Sequence Labeling Models for Error Detection in Learner Writing

short summary

author

Marek Rei
The ALTA Institute
Computer Laboratory
University of Cambridge
United Kingdom
[email protected]
Helen Yannakoudakis
The ALTA Institute
Computer Laboratory
University of Cambridge
United Kingdom
[email protected]

URL

http://www.aclweb.org/anthology/P16-1112

year

ACL2016

Recurrent Neural Network Grammars

short summary

識別モデルとしても生成モデルとしても訓練可能なphrase structure tree (句構造）の確率モデルRecurrent Neural Network Grammars(RNNGs)の提案。
言語モデル、構文解析器(parser)として使用可能。

特徴

従来のtransition based parsingのニューラルネットワークのモデルは、bottom-upなやりだったが、RNNGsはtop-down.
識別モデルでは、入力文がinput buffer Bにある状態でスタートするが、生成モデルでは、stackに構文木を構築していくと同時にoutput buffer Tに文を生成していく。
下図：parsingと生成の例

アルゴリズム

以下生成モデルの概要図（識別モデルの場合はT→B）

stackからは、Stack LTSMで特徴抽出、アクション、Tからは普通のLSTMで抽出。
stackにおいて、reduceが実行された時（句の括弧が閉じられた時）、そのsub treeは"pop"される。
その際のcomposition functionとしてbiLSTMを使うが、特徴としては、頭に句のラベルを入力する(下図)

生成モデルをlanguage modelとして使うときは、p(x, y) → p(x)への周辺化を行うが、その際に識別モデルq(y|x)を利用したimportance samplingを用いる。

サンプリング

この手順で、言語モデルとして入力文xに対する確率p(x)が求まる。

生成モデルをparsingに用いるときは、まず識別モデルq(y|x)で入力文xに対する構文木yを複数サンプリングしてきて、それらの中から生成モデルp(x, y)でもっとも生成確率が高いyを出力とする。

results

parsing, language modelともに非常に良い結果。
識別モデルよりも、生成モデルの方が精度が良い。

author

Chris Dyer♠ Adhiguna Kuncoro♠ Miguel Ballesteros♦♠ Noah A. Smith♥
♠School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA
♦NLP Group, Pompeu Fabra University, Barcelona, Spain
♥Computer Science & Engineering, University of Washington, Seattle, WA, USA
{cdyer,akuncoro}@cs.cmu.edu, [email protected], [email protected]

URL

https://arxiv.org/pdf/1602.07776.pdf

year

NAACL2016

Universal Transformer

short summary

transformerの欠点を改善したuniversal transformerの提案。

transformerは、RNNがもつ再帰的な学習に対するinductive biasを持たず、通常のLSTMで解けるいくつかのタスクで苦戦する。
そこで、transformerにおけるencoderの１ブロックを、並べるのではなく再帰的に適用する。

また、ACTの機構を入力系列の各シンボルごとに組み込んでいるが(adaptive universal transformer)、ここでは計算が終わったシンボルは次のiterationはそのまま値をコピーするということを全シンボルについてiterationが止まるまで行っている。
（transformerのmulti-head self attentionの後のFFNは、シンボルごと）
この機構により、計算量削減に加え、精度向上。

色々なアルゴリズム、言語理解タスクでいい結果、翻訳でvanilla transformer, lstmよりいい精度、bAbI
linguistic reasoning taskとLAMBADA language modeling taskでSOTA。

author

Mostafa Dehghani∗
†
University of Amsterdam
[email protected]
Stephan Gouws∗
Google Brain
[email protected]
Oriol Vinyals
DeepMind
[email protected]
Jakob Uszkoreit
Google Brain
[email protected]
Łukasz Kaiser
Google Brain
[email protected]

URL

https://arxiv.org/pdf/1807.03819.pdf

year

2018

Deep Collective Classification in Heterogeneous Information Networks

short summary

slideshare
https://www.slideshare.net/KotaKakiuchi/deep-collective-classification-in-heterogeneous-information-networks-108315514/

author

Yizhou Zhang1 Yun Xiong*1,2 Xiangnan Kong3 Shanshan Li4 Jinhong Mi1 Yangyong Zhu1,2
1Shanghai Key Laboratory of Data Science, School of Computer Science, Fudan University, China
2Shanghai Institute for Advanced Communication and Data Science, Fudan University, China
3Worcester Polytechnic Institute, Worcester, MA, USA
4School of Computer, National University of Defense Technology, China

is corresponding author
(yizhouzhang14,yunx*,mij,yyzhu)@fudan.edu.cn,[email protected],[email protected]

URL

https://arxiv.org/pdf/1606.09375.pdf

year

www2018

Attention Is All You Need

short summary

RNNやCNNを使わずAttention機構だけを用いたTransformerというモデルの提案。
翻訳において、SOTA（かつ計算コスト低い）を達成。
また、他のタスクへの一般化を評価するために行なったconstituency parsing（構成素解析？）でも、設定は翻訳の時のベースモデルとほぼ一緒で既存モデルを上回った。
他のタスクへの適応も期待できる。

参考

URL

https://arxiv.org/pdf/1706.03762.pdf

author

Ashish Vaswani∗
Google Brain
[email protected]
Noam Shazeer∗
Google Brain
[email protected]
Niki Parmar∗
Google Research
[email protected]
Jakob Uszkoreit∗
Google Research
[email protected]
Llion Jones∗
Google Research
[email protected]
Aidan N. Gomez∗ †
University of Toronto
[email protected]
Łukasz Kaiser∗
Google Brain
[email protected]
Illia Polosukhin∗ ‡
[email protected]

year

2017

Effective Approaches to Attention-based Neural Machine Translation

short summary

attentionのglobal approachとlocal approachの提案，検討．
global approachは(Bahdanau et al., 2015)をよりシンプルにしたもの．
local approachは(Xu et al., 2015)で提案されたsoftとhard attentionのblend．

global attention

local attention

今は実装しないので後回し

URL

https://arxiv.org/abs/1508.04025

author

Minh-Thang Luong Hieu Pham Christopher D. Manning
Computer Science Department, Stanford University, Stanford, CA 94305 {lmthang,hyhieu,manning}@stanford.edu

Universal Language Model Fine-tuning for Text Classification

short summary

言語モデルに対してInductive transfer learningを効果的に行う手法Universal Language Model Fine-tuning(ULMFiT)の提案。6つのテキスト分類タスクにおいて、SOTAでしかも必要サンプル数が少なく効率的であることを示した。

computer visionにおいては、Imagenet, MS-COCOなどで事前学習したモデルを用いて、object detection, segmentation, classificationなどにinductive transfer learningを行うことで、大きな成果を残してきたが、NLPではこのような事前学習がうまく行われておらず、word2vecやELMoなどの特徴量としてうまく取り出す手法がインパクトを残すにとどまっている。CVにおいてのように、モデルをいい感じで初期化することで精度・効率を大きくあげることが理想。
→ ULMFiT

UNIFiTの構成

generalな言語モデルの学習
target taskの領域におけるLMのfine-tuning
- Discriminative fine-tuning
- Slanted triangular learning rates
targetの分類タスクへの転移学習
- Concat pooling
- Gradual unfreezing

generalな言語モデルの学習

wikiなどでLMを学習させる。モデルには、AWD-LSTM (SOTA?)を用いる。

target taskの領域におけるLMのfine-tuning

Discriminative fine-tuning
SGDを行うときに、全レイヤー学習率を同じにするのではなく、最終層から第１層に向かってだんだん小さく設定する。（最初の方の層はより一般的な性質を捉えているからあまり変えなくていい）
Slanted triangular learning rates

学習室を最初線形で短いスパンであげてその後徐々に小さくしていくことで、素早くパラメータ空間内の適した場所に集中し、最適化していく。

targetの分類タスクへの転移学習

Gradual unfreezing
全層一気にfine-tuningするのではなく、1epochごとに最終層の方からunfreezeしていく。

author

Jeremy Howard∗
fast.ai
University of San Francisco
[email protected]
Sebastian Ruder∗
Insight Centre, NUI Galway
Aylien Ltd., Dublin
[email protected]

URL

https://arxiv.org/abs/1801.06146

year

ACL 2018

Neural Models for Information Retrieval

short summary

Information Retrievalの基本からニューラルネットによるモデルまでの概観を説明したチュートリアル的な論文。

textual retrievalの基礎

IR modelsに求められるもの

semantic understanding
- exact matchingだけでなく、意味の近いものを取ってこれる、単語の組み合わせで意味が変わる、contextの理解などが必要
Robustness to rare inputs
- dataから表現を学習するIRモデルは、fixed size vocabularyであったり、そうでなくても出現回数が少ないといい表現を学習できない。→ exact matching modelの方がrare termに対しては強い。
Robustness to corpus variance
- deep系はtrain, test dataの分布の違いに弱い
様々なドキュメントの長さに対するロバストネス
Sensitivity to context
Efficiency
- search engineとかは大体candidatesを枝刈りする複数レイヤーから成る。
- 下位レイヤーは膨大なドキュメントから枝刈りする必要があるので、速さが必要・粗く違うだろうものを取り除く
- 上位レイヤーで、下位で抽出したものそれぞれとqueryの関連度まで出してランキングする必要がある。ニューラルモデルはここで使える。

Metric

Precision and recall
Mean reciprocal rank (MRR)
- RR = 1 / n (nは初めて正解が出た順位）でそれの全test queryに対する平均
Mean average percision (MAP)
- average precision : 検索結果のランキングを上から見ていき、上からn番目の正解の文書が見つかるたびに、1 ~ nの範囲でprecisionを求める、ということを繰り返し、それらの平均をとる。（要はprecisionをrecallについて平均をとったもの、上位に正解のものが多く出てくるほど高いスコアを示す）
- 参考：https://petitviolet.hatenablog.com/entry/20110901/1314853107

※上記3項目は、基本的にはラベルは0, 1

Normalized discounted cumulative gain (NDGG)
- NDDGは、順位付けの正しさを表し、完全に正しい順位付けがされる場合1になる。かつ上位の結果を重く見ている。検索エンジンなどでは、主に評価に用いる文書数として、上から10程度を使う。

Traditional IR Models

TF-IDF
documentにおけるquery termの出現数：term frequency
そのquery termの出てくるdocumentの頻度：inverse document frequency
queryに出てくる単語がdocumentにいっぱい出てきてかつそれらが他のdocumentにはあまり出てこない時にqueryとdocumentの関連度は高いと考える。
有名なranking function：BM25
Language Model
documentを、事後確率p(d|q)でランキング。
→(10)：document dからランダムにサンプルされた単語でqueryが生成される確率。
((12)では、dだけからだと母集団の単語が少ないので、Dも使ってsmoothing）

TF-IDFもLMも関連度を文書内のqueryに出てくる単語のカウントで出している。
出てくる場所や他の単語との関係は無視
以下の3つはこれらのどちらかを考慮

Translation Model
queryがdocumentから”翻訳されて”生成されると仮定
文書内のqueryには出てこない単語との関連性を”翻訳”を利用して考慮できる。
（queryの単語とdocumentの単語のペアは、SMTと同じ手法で学習できる。）
Dependence Model
ngramやbowを利用して、query内の単語の近接性を考慮
Pseudo relevance feedback (PRF)（擬似適合フィードバック）
検索を２回行うことで精度を高める。
１回目の検索で出てきた結果の文書を使ってquery（の言語モデル）を拡張し、もう１度検索を行う。
documentのスコアリングは、以下のようにKL divergenceでqueryとdocumentの言語モデルの分布を比較する。(Tは全vocabulary)
PRFなしでは（及び第一iterationでは）、
第２段階では、（RM3という有名なものの定式化）
第一項は、queryに単語tが何回出てくるか、第二項は、１回目の検索で取ってきた各文書dにtが何回出てくるか的なことを表している。
query拡張により、vocablaryのミスマッチ問題に対してロバストになる。
マイクロブログ検索に有効らしい。

Learning to rank(L2R)

上のtraditional IR modelとは違い、機械学習ベース。L2Rにおいて、query-document pairはベクトルで表され、それを入力とするモデルによって、scoreに変換される。
目的関数による３つの分類

pointwise approach: query-document pairを入力とし、その関連度スコア（0-1 or 連続値）を正解とする回帰を解く
pairwise approach: queryに対して、より関連度が高い文書を当てる2クラス分類を解く
listwise approach: リストに対してrank-based metricを直接最適化、metricが微分可能でない場合が多く、難しい
L２SRの入力の3分類
query-independent or static feature (PageRank score, documentのspam scoreなど）
query-dependent or dynamic features (BM25など）
query-level features (query内の単語数など）

有名な例

RankNet
Bingで使われていたりするらしい。ニューラルネットなどでqueryの2文書に対するスコアを出し、シグモイドで文書１のほうが関連度が高い確率を出して勾配降下法で最適化。

単語表現

Notion of similarity

他にもあるが、以下の2つは特に、使う特徴量によりどちらを重視した表現となるかを意識する必要がある。

typical : typeが近い（SeattleとSydneyが近い）
topical : topicが近い、同じ文書によく出てくる（SeattleとSeahawksが近い）

Embedding

explicit representation (highly sparse and high-dimentional)からembedding (dense and low-dimentional)により、可読性は下がるが、単語関係が密になり一般化されることでパフォーマンスは上がる。

LSA
term-document matrixを行列分解
Word2vec
Glove
IN、OUT両方の行列を使う（和をとる）
trainデータの全共起を集計して考える（globalな情報を使う）
Paragraph2vec
Doc2vec
term-document pairはよりtopicalな単語間の関係を導く。
IRのためのDoc2vecの改良
- Qingyao Ai, Liu Yang, Jiafeng Guo, and W Bruce Croft. 2016. Analysis of the paragraph vector
  model for information retrieval. In Proc. ICTIR. ACM, 133–142.
- Qingyao Ai, Liu Yang, Jiafeng Guo, and W Bruce Croft. 2016. Improving language estimation
  with the paragraph vector model for ad-hoc retrieval. In Proc. SIGIR. ACM, 869–872.

IRのための単語表現

AWE ( average word embedding)
個々の単語からquery, docmentのベクトルを得る方法として、シンプルに平均をとるのがポピュラー
このとき、term embeddingがtopicalかtypicalかが効いてくる
LSA, Doc2vec : topical
word2vec, glove : topicalとtypicalのmix
(word2vecは、小さいwindow size, short textだとよりtypical)
DESM (dual embedding space model)
- word2vecをIRで使うときは、queryをIN embeddingで、documentをOUT embeddingで表すのが適切
- 訓練はdocumentデータではなく、queryデータで行う。
NTLM (Neural Translation Language Model)
sec2.5のtranslation modelのtermの関連度を求めるところにembeddingを活用
GLM (Generalized Language Model)
sec2.5のlanguage modelのアプローチをembedding用に拡張
WMD (word mover's distance)
earth mover's distanceでterm embeddingの集合としての2文書間の距離を算出
最終的に、NWT (Non-linear Word Transportation model)がこの概念を、queryとdocument間の関連度の導出に組み込んでいる。
Telescoping evaluation
embedding系はfull document collectionに対して検索するときはしばしば微妙
→ exact matchingとembeddingは間違えるところが違う
→ exact matchingなど他手法で抜き出したものをembeddingでrerank（このようなchainな手法をtelescopeという）
query expansion
embeddingを使ってqueryを拡張し、それを使って検索する。
→ 単体だとPRFより悪いが、PRFとtelescopeで組み合わせることで精度が上がる。
query specific term embeddingを使ってquery expansionするとより効果的

IRのためのDeep neural model

auto encoder

auto encoderで隠れ層が0, 1をとるようにして、文書が圧縮後も0, 1のベクトルで表されるようにする。
→ 検索時にqueryをhash化（0, 1のベクトル？）し、素早く検索して引っかかったものを別モデルでsort（The Semantic Hashing Model）
この手法では、IRタスクに対して最適化していないので、目的に合う表現を得るためにquery-document pairでauto encoderを訓練するという方法がある。

Siamese networks

主に文書のタイトルなどのshort textとqueryに使われるが、最近ではlong documentに対しても結果がでてるっぽい。
siameseでもデータによってsimilarityの違いはあり、CDSSM（Convolutional Deep Semantic Similarity Model）でquery-document pairを使ったときはよりtopicalだが、queryのprefix-suffix pair（queryの前半と後半）を使ったときはtypical。
ちなみにprefix-suffixは、query-auto-completion（途中まで打ち込まれたものからその先のsuggestionをする）のスコアをつけるために、siameseを用いてprefix, suffixを別で通してマッチングさせるときなどに使われる。

Interaction-based networks

siameseだと、queryもdocumentも１つのembedding vectorに落とし込む。 → long documentを1つのベクトルで表すのはちょい無理があるので、それぞれの部分部分で関連度出して足し合わせるほうがいいかも → queryの各parts, documentの各partsでmatrixを使ってそこにconvolutionをかけてスコア算出

Lexical and semantic matching networks

neural IR modelの多くは、よりよいテキスト表現を得ることにフォーカスしているが、レアな単語の表現はうまく学習しない。
→ lexical matchもdeepなモデルにうまく組み込まれなければ
→ duet architectureでlexical matching modelとsemantic matching model両方を考慮など

traditionalなもの（lexical系？）とneural系（semantic系？）で得意領域が違う

Conclusionの中のお話

その時々のcontextからqueryの意味を推察できるのが理想
→ モデルに全知識を詰め込むことはできない
→ ある程度の知識はもち、プラスで現在のqueryに関係のあるdocumentを読んでqueryに条件づけを加えるような仕組みが理想かも

author

Bhaskar Mitra
Microsoft, UCL∗
Cambridge, UK
[email protected]
Nick Craswell
Microsoft
Bellevue, USA
[email protected]

URL

https://arxiv.org/pdf/1705.01509.pdf

year

2017

Exploring the Limits of Language Modeling

summary

ある程度大規模なデータセット（One Billion Word Benchmark dataset）に焦点を当てて、Language Modelingを調査・まとめた論文（RNNベース）。
単一モデル、アンサンブルモデルそれぞれでSOTA。

softmax近似

語彙数が多い時、softmaxの全embedingとcontext vectorの内積の計算コストが非常に高い。
そのため、Noise Contrastive Estimation(NCE)、Importance Sampling(IS)を利用する（階層ソフトマックスはこの論文では調べてない）。
NCEとISは繋がりが強く、

NCE: true words or noise wordsの２クラス分類タスクを、logistic lossをロスとして解くことで近似。
IS: 多クラス分類タスクを、softmax & cross entropyで解くことで近似。

ISの方がいいっぽいのでISを用いる。（NCEでは更新が各単語独立だが、ISでは互いに影響を及ぼすから）

CNN softmax

モデルへのinputだけではなく、softmax層にもcnnによるcharacterの埋め込みを利用する。
対象の単語のembeddingを、その都度CNNでcharacterから計算し利用することでパラメータを削減できる。
ただ、そのままだとスペルが似ていて意味が違うものをうまく扱えないため、

とすることで精度が向上する。

また、out of vocabraryにも容易にスコアリングできるメリットもある。

Char LSTM Predictions

単語の出力の際にLSTMで1つずつcharacterを出力するようにする。
これはうまくいかなかった。

実験結果

データセットが大きく複雑な場合LSTMのサイズの大きさは非常に大事。
小さいLSTMを使ってもoverfitするのでregularization (dropout) 大事。小さめのLSTM(<4096unit)では0.1、大きいのでは0.25
ISの方がNCEより効率的
character CNNをインプットに使うことでfixed vocabraryに縛られることなく、またパラメータ数を大きく削減できるが、精度は落ちない。（ベストのモデルはCharacter CNN使ってる）
CNN softmaxを使うことでパラメータ数は大きく削減できるが精度は落ちる。
先行研究では、N-gramによるモデルやN-gramの特徴量をRNNに入れてアンサンブルすることで精度を大きくあげていたが、この論文のモデルではN-gram系とのアンサンブルの効果はあるが小さく、しっかりと学習したLSTM LM with ISは十分にcompetitive。

author

Rafal Jozefowicz [email protected]
Oriol Vinyals [email protected]
Mike Schuster [email protected]
Noam Shazeer [email protected]
Yonghui Wu [email protected]
Google Brain

URL

https://arxiv.org/pdf/1602.02410.pdf

year

2016

FRAGE: Frequency-Agnostic Word Representation

short summary

author

Chengyue Gong1
[email protected]
Di He2
[email protected]
Xu Tan3
[email protected]
Tao Qin3
[email protected]
Liwei Wang2,4
[email protected]
Tie-Yan Liu3
[email protected]
1Peking University
2Key Laboratory of Machine Perception, MOE, School of EECS, Peking University
3Microsoft Research Asia
4Center for Data Science, Peking University, Beijing Institute of Big Data Research

URL

https://arxiv.org/pdf/1809.06858.pdf

year

NIPS2018

Semi-supervised Clustering for Short Text via Deep Representation Learning

short summary

author

Zhiguo Wang and Haitao Mi and Abraham Ittycheriah
IBM T.J. Watson Research Center
Yorktown Heights, NY, USA
{zhigwang, hmi, abei}@us.ibm.com

URL

https://arxiv.org/pdf/1602.06797.pdf

year

CoNLL 2016

Image De-raining Using a Conditional Generative Adversarial Network

short summary

画像から，雨・雪の影響を取り除くGAN(ID-CGAN)の提案．

objective function

x: input rainy image z: random noise vector y: output image

Generator

C: convolutional layer
B: batch normalizationi
P: PReLU
D: deconvolutional layer
R: ReLU
K: カーネル数

skip connectionを2skipごとに

Discriminator

Refined perceptual loss

ganは訓練時不安定になりやすく，noisy or incomprehensibleな結果を出力しやすい
← 新しいinputがtraining sampleの分布から来たものでない可能性

左input, 中output without perceptual loss，右output with perceptual loss
真ん中のnornal ganによる出力では多くの人工物が生成されてしまっている．
⇒ perceptual lossの導入

最近，高抽象度の特徴表現におけるloss function，例えばCNNの層ごとに計算されるlossが，traditional CNNsで用いられるper-pixel lossより良いvisual performanceを示している．
しかし，perceptual lossはcolor, textureの情報を保つことができない場合が多い．
quantitative scoresも良くない

⇒ pixel-to-pixel Eucilidean loss, perceptual loss, adversarial loss(loss from D)を組み合わせる

{x, yb}: image pair
C, W, H: channels, width, height of image
phiE: G

Ci, Wi, Hi: size of the outouts of certain high-level layer
V: non-linear CNN transformation
- feature loss at layer relu2_2 in VGG16

entropy loss from D

implement detail

image size: 256 * 256
batch size: 7
iteration: 100k
optimizer: Adam
learning rate: 2 * 10-3
lamda a: 6.6 * 10-3
lamda p: 1
K: 64
K2: 48
Gの畳み込み層は，すべてフィルター3 * 3，stride 1, zero padding 1
Dの畳み込み層は，
- 最初の3層はフィルターサイズ4 * 4, stride 2, zero padding 1
- 最後の2層はフィルターサイズ4 * 4, stride 1, zero padding 1

URL

https://arxiv.org/pdf/1701.05957.pdf

author

He Zhang, Student Member, IEEE, Vishwanath Sindagi, Student Member, IEEE
Vishal M. Patel, Senior Member, IEEE

metapath2vec: Scalable Representation Learning for Heterogeneous Networks

short summary

heterogeneous networkにおける分散表現の獲得手法matapath2vec, matapath2vec++の提案。

metapath2vec

deepwalkやnode2vecのように、random walkでサンプリングしたcontextに対してskipgram(+negative sampling)を適用して、分散表現を獲得する。
ただ、heterogeneous networkにおけるrandom walkでは、ノード数が多いノードタイプに偏ってしまう問題があるため、meta-path-based random walkを用いる。
meta-path-based random walkでは、あらかじめ決められたノードタイプの系列であるmeta-pathにしたがってrandom walkする。
meta-pathの例として、P(paper), A(author), V(venue)とすると、APAは共著関係を、APVPAは著者が同じ学会に参加したことを表す。
また、meta-pathは対称であり、最初と最後のノードタイプは同じになる。

matapath2vec++

metapath2vecでは、softmaxにおいてノードタイプの情報を無視しており、あるタイプのノードの学習の際に全てのタイプからnegative samplingを許容している。
そこで、タイプごとに分布を分けて学習を行う。

複数の実験で既存手法を上回る結果。

author

Yuxiao Dong∗
Microsoft Research
Redmond, WA 98052
[email protected]
Nitesh V. Chawla
University of Notre Dame
Notre Dame, IN 46556
[email protected]
Ananthram Swami
Army Research Laboratory
Adelphi, MD 20783
[email protected]

URL

https://ericdongyx.github.io/papers/KDD17-dong-chawla-swami-metapath2vec.pdf

year

2017 KDD

Transforming Auto-Encoders

short summary

URL

http://www.cs.toronto.edu/~fritz/absps/transauto6.pdf

author

G. E. Hinton, A. Krizhevsky & S. D. Wang
Department of Computer Science, University of Toronto

year

2011