onizukalab / conferenceproceedings Goto Github PK

View Code? Open in Web Editor NEW

8.0 21.0 1.0 54 KB

NLP 班論文読み会用のリポジトリ

arxivtimes

conferenceproceedings's People

Contributors

Stargazers

Watchers

Forkers

yuhonghong66

conferenceproceedings's Issues

Neural Text Generation in Stories Using Entity Representations as Context

一言でいうと

テキスト生成に entity のベクトル表現を用いたモデルを提案し、3つのタスクで評価した。

論文リンク

https://homes.cs.washington.edu/~eaclark7/www/naacl2018.pdf

著者/所属機関

Elizabeth Clark, Yangfeng Ji, Noah A. Smith
(Paul G. Allen School of Computer Science & Engineering University of Washington Seattle, WA, USA)

投稿日付(yyyy/MM/dd)

概要

現在生成している文の前の単語のRNNの隠れ状態・以前の文のベクトル表現・entityのベクトル表現を考慮した文脈ベクトルを用いることで、narrative text（小説、ニュースなど）にとって必要である entity を考慮した文の生成を行う。
評価は 1)mention generation、2)sentence selection、3)sentence generation の3つのタスクで行い、1)、2) では既存のモデルよりも高い精度を達成した。また3) では人手での評価を行い、既存のモデルと提案モデルが生成した文の優劣だけでなく、「なぜその文が優れていると判断したか？」を答えてもらうことで、生成した文の問題とこれからの課題を明らかにした。

新規性・差分

既存手法では entity を考慮した LM を提案しており、それまでの手法と比較すると perplexity が低下していた。これは、entity のベクトル表現がうまく行えているということを示している。提案手法ではこの entity のベクトル表現手法を用いたモデルを提案している。

手法

context from previous sentence
普通のattentionメカニズムと同じで、現在の文のある単語の隠れ状態と1つ前の文の隠れ状態から attention を計算し、1つ前の文の各単語の隠れ状態と attention の重み付き和で文のベクトル表現を作る。
context from entity
entity のベクトル表現を用いてどの entity が参照されるかの重みを計算し、重みが一番大きい entity を1つ選ぶ（このベクトルが現在の context を表す）。

これらと前の単語での隠れ状態を用いて、文脈ベクトルを決定する。文脈ベクトルの各次元の値は、3つのベクトルの同じ次元のあたいのうち一番大きいものである（max-pooling）。このベクトルから class-factored softmax を用いて単語を出力していく。

結果

ベースラインをS2SA、既存手法をENTITYNLM、提案手法をENGENとする、

mention generation
entity が入るべきスロットに、これまで出てきた entity のうちどの entity を入れるかを当てる問題。

2行目と4行目から、entity のベクトル表現が有効であり、3行目と4行目から局所的な文脈を用いることで（ちょっとだけだが）精度が上がる。1行目は最後に出てきたものを選ぶ手法だが、heuristic な手法は効果がなかった。
sentence selection
49文が示された後、次に入る50番目の文としてどちらがいいかを、2つの文から選ぶ問題。

mention generation（上のタスク）と違って、S2SAの方が精度がいい。これは、局所的な文脈が重要であることを示している。
sentence generation
60単語以上の文章を読んで、次に続くべき文を生成する問題。このタスクは人手での評価を行った。
結果としては、「以前の entity がある文だから選ぶ」というより「以前出てきていない entity がある文だから選ばない」という人が多かった。また以前出てきていない entity が新しく出てきていても、それで話が続きそうというような、テーマや雰囲気に沿ったような文を選ぶ人もいた。

人手を使って数値では表せない部分の問題点も洗い出しており、しっかり分析しているなと思いました。特に「新しい entity が生成されていて、物語が進みそうな文なので評価した」という意見はすごい面白いなと思いました（以前の entity を参照した方がいいという考えしか持っていなかったので）。

Dynamic Multi-Level Multi-Task Learning for Sentence Simplification

Phrase-Based & Neural Unsupervised Machine Translation

一言でいうと

PBSMTとNMTで教師なし機械翻訳手法を提案

論文リンク

https://aclweb.org/anthology/D18-1549

著者/所属機関

Guillaume Lample†‡, Myle Ott†, Alexis Conneau†§, Ludovic Denoyer‡, Marc' Aurelio Ranzato†
†) Facebook AI Research ‡) Sorbonne Universités §) Université Le Mans

投稿日付(yyyy/MM/dd)

概要

近年の教師なし機械翻訳の提案手法から、翻訳に必要なステップとして

Initialization
Language Modeling
Iterative Back-translation
の3つがあると考え、実際にPBSMTとNMTをこのステップに従うように訓練を行った。

新規性・差分

翻訳に必要なステップを定め、PBSMTとNMTで実際に教師なし機械翻訳を行なったところ。

手法

翻訳は

Initialization
Language Modeling
Iterative Back-translation
の3ステップで行われる。

Unsupervised NMTでは

BPEによるサブワードを用いたfastTextによる単語分散表現の学習
DAEを用いた言語モデルの学習
back-translationを用いた擬似対訳コーパスでの翻訳の学習
を行う。1)では原言語と目的言語のコーパスを結合してBPEを行うことで分散表現空間を近づくようにしている。さらにエンコーダ、デコーダのパラメータも共有にしているっぽい。

Unsupervised PBSMTでは

word translationによる単語翻訳確率を用いたフレーズテーブルの作成
平滑化n-gram言語モデルの学習
原言語コーパスから擬似目的言語コーパスの生成、擬似目的言語コーパスと原言語コーパスでの翻訳の学習、目的言語コーパスから擬似原言語コーパスの生成、目的言語コーパスと擬似原言語コーパスでの翻訳の学習、原言語コーパスから擬似目的言語コーパスの生成…
を行う。

結果

既存の教師なし機械翻訳手法を上回るBLEU値を達成、またPBSMTの方がNMTよりもBLEU値が高くなるという結果に。英露翻訳のような文字の異なる言語対でもちゃんと翻訳の学習ができている。また、PBSMTとNMTを組み合わせることでさらにBLEU値が上昇した。

English-Urduの結果だけ表にないのがちょっと気になる。英日対だとどうなるのか試してみたい。

A Comparison of Transformer and Recurrent Neural Networks on Multilingual Neural Machine Translation

一言でいうと

RNNとTransformerを比べた．（bilingual / multilingual / zero-shotで）

論文リンク

http://aclweb.org/anthology/C18-1054

著者/所属機関

Surafel M. Lakew, Mauro Cettolo, Marcello Federico

投稿日付(yyyy/MM/dd)

COLING2018

概要

新規性・差分

bilingual, multilingual, zero-shotで定量的な評価を行った．
TransformerとRNNの翻訳性能について調査した．
zero-shotにおいて言語の近さがどう影響するか調べた．

結果

Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Transfer

一言でいうと

属性変換タスク(広義のスタイル変換)において、よりシンプルでつよいモデルを提案。

論文リンク

https://arxiv.org/pdf/1804.06437.pdf

著者/所属機関

Juncen Li∗1 Robin Jia2 He He2 Percy Liang2 1 WeChat Search Application Department, Tencent
2 Computer Science Department, Stanford University

投稿日付(yyyy/MM/dd)

2018.04.17

概要

属性(sentimentなど)に依存しないコンテンツを保持しながら、特定の属性を変換するタスクにおいて、1.DELETE：文からソース属性特有の表現を削除する
2.RETRIEVE：ターゲット属性を持つ文集合から似た文を検索する
3.GENERATE：最終的な出力を生成する
という3ステップに分けて行うことで、よりシンプルで・学習しやすくて・つよくて・制御しやすいモデルを提案した。
提案モデルをYelpレビュー(pos/neg)・Amazonレビュー(pos/neg)・Image　Caption(factual/romantic/humorous)のデータセットで評価した。

↑っょぃ
｜　提案手法(DELETEANDRETRIEVE)
｜　ベースライン(RETRIEVEONLY、TEMPLATEBASED)、提案手法(DELETEONLY)
｜　GANベースの先行研究3つ(CROSSALIGNED、MULTIDECODER、STYLEEMBEDDING)
↓ょゎぃ

新規性・差分

属性の情報が現れるのは文中のほんの一部分である、という知識を利用して、コンテンツと属性情報を明示的に分離しているところ。
どれぐらい変換するかを再学習なしで制御可能。(ソース属性マーカーの域値やターゲット属性マーカーの選び方を制御すればよいので)

手法

結果

DELETEすると"Fish is delicious."と"Fish is cute."の区別がつかなくなって困りそう。
人間が作ったリファレンスでさえ75%,45%,56%しか成功してなくて絶望した。

simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions

一言でいうと

画像説明文生成において，画像へのアテンションとトピックへのアテンションをうまいこと組み合わせた．

論文リンク

http://aclweb.org/anthology/D18-1013

著者/所属機関

Fenglin Liu, Xuancheng Ren, Yuanxin Liu, Houfeng Wang, Xu Sun
School of ICE, Beijing University of Posts and Telecommunications
MOE Key Laboratory of Computational Linguistics, School of EECS, Peking University

投稿日付(yyyy/MM/dd)

概要

画像説明文生成タスクにおいて，画像へのアテンションとテキストへのアテンションを同時に考慮する Image-Topic Merging Network (simNet) を提案．デコード時の各タイムステップごとに，トピックと画像それぞれにアテンションを張って特徴抽出．生成文の文脈を元にバランスを決めてマージすることで，意味的な情報と画像情報とをいい感じに組み合わせた．

新規性・差分

意味的な情報と画像情報とを組み合わせて画像説明文生成を改善した研究は（著者らによれば）これが最初．

手法

提案モデルは画像エンコーダー・トピック抽出器・マージングデコーダの3つからなる．

画像エンコーダ

画像の特徴量を抽出し、ベクトルとして表現する．ResNet152 を利用．

トピック抽出器

デコーダーに意味的なコンセプト（以降ではこれをトピックと呼ぶ）を与えることを目的とし，トピック抽出器は，画像からトピック候補リストを決定する．正例説明文内の名詞全てを正解のトピック候補リストとする．

マージングデコーダ

画像アテンション・トピックアテンション・マージングゲートの3つのコンポーネントからなる LSTM．

画像アテンションは画像中の注目すべき部分への誘導を目的とする．直前のタイムステップの隠れ状態および画像特徴量を元に画像特徴量へのアテンションを張る入力アテンションと，現在の隠れ状態（これは直前の出力単語を反映していると考えられる）および画像特徴量を元に画像特徴量へのアテンションを張る出力アテンションから成る．

トピックアテンションは現在の隠れ状態とトピック候補リストを元にトピックへのアテンションを張る．

マージングゲートは現在の隠れ状態を元に画像アテンションの結果得られたベクトルとトピックアテンションの結果得られたベクトルのバランスを決定しマージする．こうして得られたベクトルから単語を決定する．

結果

他の手法との比較

直接比較できる比較手法には BLEU 以外で優っている．特に，画像説明文生成において最も人手評価と強く相関する指標である SPICE で勝っているので強い．SPICE は特に詳細な記述の評価に強い．

出力例

トピックアテンションと画像アテンションがいい感じに組み合わせられていることがわかる．

アテンションの可視化

綺麗な結果だなと思いました．出力例とかも，順当で綺麗．
ﾈｺﾁｬﾝ可愛い．

ところでなぜ私はこれの発表準備をしているのでしょう？（本読み会2本目）

Learning to Control the Specificity in Neural Response Generation

一言で言うと

応答生成における特殊性をデコーダ部で制御する

論文リンク

http://aclweb.org/anthology/P18-1102

著者/所属機関

Ruqing Zhang, Jiafeng Guo, Yixing Fan, Yanyan Lan, Jun Xu and Xueqi Cheng
University of Chinese Academy of Sciences, Beijing, China
CAS Key Lab of Network Data Science and Technology, Institute of Computing Technology,
Chinese Academy of Sciences, Beijing, China

投稿日付(yyyy/MM/dd)

2018/07/

概要

応答生成における特殊性をデコーダ部で制御する。
デコード時に各単語の出現確率に操作をし、応答を多様にして欲しい時ほどありきたりでない単語の出現確率を大きくする。
文及び単語のデータ中の出現数を数え、少ないものほど多様であると仮定し、発話応答対に特殊性を表す数値を予め付与する。

新規性・差分

追加データ、アノテーションなしで応答生成の多様性の制御を実現

手法

ある単語の出現確率はPm("word")+Ps("word)で決定される
-Pm("word")は従来のseq2seqと同じように決定
-Ps("word")は、学習データに含まれる応答の特殊性を表した数値Sを基に学習していく

Sの決定方法

応答文レベルで決定（NIRF）
データ全体に出現する数が少ない応答文ほどSが高くなる
応答文中の単語レベルで決定（NIWF）
データ全体に出現する数が少ない単語を持つ応答文ほどSが高くなる

結果

distinct-nは全ての生成文で一度だけ出現したngram/それを全ての生成文で出現したngram数で除算した物
応答の特殊性を制御できていることがわかる

Rapid Adaptation of Neural Machine Translation to New Languages

一言でいうと

NMTを効果的に且つ素早く新しいlow-resourceの言語に適用させる。

論文リンク

http://aclweb.org/anthology/D18-1103

著者/所属機関

Graham Neubig, Junjie Hu/CMU

概要

Cross-lingual transfer (fine-tuning)を用いて様々な設定でNMTを新しいlow-resourceの言語に適用させる。

新規性・差分

Cold-startとwarm-startの比較
Similar-Language Regularization

手法

結果

自分のmixed fine tuningを比較してほしい。

Multi-Task Neural Models for Translating Between Styles Within and Across Languages

一言でいうと

スタイル変換(Formality Transfer)とスタイル気にする機械翻訳(Formality-Sensitive MT)をマルチタスク学習した。

論文リンク

http://aclweb.org/anthology/C18-1086

著者/所属機関

Xing Niu, Sudha Rao, Marine Carpuat, University of Maryland, MD, USA

投稿日付(yyyy/MM/dd)

2018/06/12

概要

スタイル変換(Formality Transfer)とスタイル気にする機械翻訳(Formality-sensitive MT)をマルチタスク学習した。
FT：SOTA更新
FSMT：FSMT側のデータに制約(事前にデータ選別が必要)つけなくても、それなりの結果に

新規性・差分

・FTとFSMTマルチタスク学習した
・FTと一緒に学習することで、事前にデータ選別することなくFSMTできた

手法

結果

例

※めっちゃねむい

Deep contextualized word representation

一言でいうと

すっごい深いBi-LSTM言語モデルの内部状態から Word Embedding を獲得する

論文リンク

http://aclweb.org/anthology/N18-1202

著者/所属機関

Matthew E. Peters†, Mark Neumann†, Mohit Iyyer†, Matt Gardner†
Christopher Clark*, Kenton Lee*, Luke Zettlemoyer†*

†Allen Institute for Artificial Intelligence
*Paul G. Allen School of Computer Science & Engineering, University of Washington

投稿日付(yyyy/MM/dd)

概要

文法特性（syntax, semantics）や多義性（polysemy）をモデル化した単語分散表現（Embeddings from Language Models; ELMo）を提案
Stacked Bi-LSTM言語モデルの内部状態から単語分散表現を獲得
既存のモデルに組み込むことが簡単
QA・RTE・Sentiment Analysis などのタスクで SOTA

新規性・差分

従来の単語分散表現のほとんどは文脈に依らず単語と分散表現は一対一対応しているが，本提案手法では言語モデルを用いて単語分散表現を動的に獲得しており，これによって文法特性や多義性を扱うことができるようになった．
深くスタックした LSTM のうちどの層を重視するかを応用タスクごとに学習することで，様々なタスクへの転移学習が可能に．

手法

Bi-LSTM 言語モデルの学習
多層 Bi-LSTM を用いた言語モデルを大規模なコーパスで学習させる．
ELMo

t 番目の単語の ELMo はその時刻における Embedding 層の出力と Bi-LSTM 各層の出力を線形結合したもの（L層stackしているのであれば，2L + 1 個のベクトルの線形結合）
線形結合の重み s（どの層を重視するか）はタスクごとに最適化
ELMo そのものの重要度 γ もタスクごとに最適化

教師ありタスクへの適用

エンドタスクにおける Embedding 層の出力に ELMo を concatenate して利用
タスクによっては RNN 層の出力にも ELMo を適用

結果

簡単なベースラインに ELMo を追加するだけで，質問応答（Question Answering），テキスト含意認識（Textual Entailment），感情分析（Sentiment Analysis）など多くのタスクで SOTA モデルに匹敵もしくはそれ以上のスコアを達成．

エンドタスクへの転移において ELMo そのものを再学習する必要がない（線形結合の重みだけ学習すれば良い）という点で使いやすいのではないかと感じた．
日本語で試したい（計算資源をたくさん持ってるひとたちがやって公開してくれると良いなー）

SGM: Sequence Generation Model for Multi-Label Classification

一言で言うと　

multi labelingを別の見方でやってみた

論文リンク

http://aclweb.org/anthology/C18-1330

著者・所属機関

Pengcheng Yang / Deep Learning Lab, Beijing Institute of Big Data Research, Peking University
Xu Sun / Deep Learning Lab, Beijing Institute of Big Data Research, Peking University
Wei Li / MOE Key Lab of Computational Linguistics, School of EECS, Peking University
Shuming Ma / MOE Key Lab of Computational Linguistics, School of EECS, Peking University
Wei Wu / MOE Key Lab of Computational Linguistics, School of EECS, Peking University
Houfeng Wang / MOE Key Lab of Computational Linguistics, School of EECS, Peking University

概要

Multi Label classificationはsingle labelより複雑であり、ラベル間に相関があることが多い。
また、文中のどの部分が判断材料になるかも、ラベルごとに変わってくる。
しかし、先行研究のモデルではこれらを全て無視している。
この論文では、Multi label classificationをsequence generation問題として捉え、新たなdecoder構造を
適用したsequence generationモデルを使うことにより、上の問題に対処した

新規性・差分

新しいdecoder構造を考案
multi label classificationの新しい見方を発見

手法

Attention機構を備えたseq2seq。decoder部分には、新たにmask vectorとglobal embeddingが使用されている

結果

細かいところまで説明されていたので、読みやすかったです

Unsupervised Discrete Sentence Representation Learning for Interpretable Neural Dialog Generation

一言でいうと

解釈可能な文の離散表現を得るためにVAEやGumbel-Softmaxトリックを使って色々とやってみました

論文リンク

https://aclanthology.info/papers/P18-1101/p18-1101

著者/所属機関

Tiancheng Zhao , Kyusong Lee and Maxine Eskenazi
Language Technologies Institute, Carnegie Mellon University

投稿日付(yyyy/MM/dd)

概要

通常のEncoder-Decoderモデルによる応答生成では出力の生成過程を人間が解釈できる形で得ることができない
解釈可能な応答生成を実現するために，VAEやVST (Variational Skip Thought) とGumbel-Softmaxを用いた文の離散表現（カテゴライズ）の教師なし獲得手法を提案
単純なVAE, VSTでは良い精度が得られなかったため，2種類の改良（DI-VAE, DI-VST）を提案

新規性・差分

文を分散表現ではなく，人間の解釈が容易な離散表現に変換している
VAEによる文の表現学習では事後確率分布が事前分布を同一化させる方向に学習してしまう（潜在表現がデータの特徴を無視してしまう）問題があるが，これに対し本論文では目的関数に入力と潜在変数の相互情報量を最大化させる項を追加する方法を提案している（DI-VAE, DI-VST）

手法

離散表現の学習

Recognition network (R) によって文 x を K-classes × M の離散的な潜在変数 z = {z1, z2, ... ,zM} に変換する．訓練時には Gumbel-Softmax トリックを用いる．
Generation network (G) は潜在表現 z を元に，VAEモデルにおいては入力文を復元，VSTモデルにおいては隣接文を予測するように学習する．

Encoder-Decoderモデルとの統合

訓練時

Rによって応答文 x の離散表現 z を獲得
入力文（コンテキスト）をEncoderによってエンコードした結果 c から z を予測する Policy network (π) を学習
Decoderは z と c から応答文 x を予測するように学習

テスト時

エンコード結果 c と π の出力 p(z|c) を Decoder に入力することで，応答文を生成する

結果

VAE, VSTモデルの評価

文の離散表現の評価

2名のエキスパートが，各潜在クラスに属する文からそれぞれ5文ずつサンプリングしたものに対し，その5文に共通するような性質を示すようにラベル付けを行う．
その後AMTを用いて5名のワーカーを雇い，各クラスに属する他の文がエキスパートのつけたラベルの説明にマッチするかどうかを判定してもらう．この時ネガティブサンプリングを行うことで不正を防ぐ．
結果：

アノテーション例：

文の離散表現を用いた応答生成の評価

与えたラベルと生成例：

非常に多くの実験を行っており丁寧な論文だった（誤記は多いが）
教師なしで対話行為等のカテゴライズされた情報を得られるのは非常にありがたい

Probabilistic Fast Text for Multi-Sense Word Embeddings

一言でいうと

FastTextとGaussianMixtureを組み合わせると精度の高い分散表現（の分布）が得られる。多義語・未知語・低頻度語に強い。

論文リンク

Probabilistic Fast Text for Multi-Sense Word Embeddings

著者/所属機関

Ben Athiwaratkun (Cornell University)
Andrew Gordon Wilson (Cornell University)
Anima Anandkumar (AWS & Caltech)

投稿日付(yyyy/MM/dd)

2018/07/15

概要

SGNSやCBOWでは多義語や低頻度語・未知語に対応できない。それらに対応するため様々な手法が提案されてきた。例えば、単語をサブワードに分割して学習するFastTextを用いると、低頻度語・未知語に対応できる。また、点ではなく分布で単語を表現するGaussianMixtureが存在する。

この論文では上記二つの手法を組み合わせることで、低頻度語・未知語に対して高い性能を発揮し、さらに多義語にも頑強な手法を提案している。

新規性・差分

低頻度語・未知語に対応できかつ多義語にも対応できる。
3つの観点（Nearest neighbors、Word Similarity、Subword Decomposition）から評価を行っている。

手法

FastTextとGaussianMixtureの理論を利用

結果

Nearest neighbors

Word Similarity

Subword Decomposition

An Auto-Encoder Matching Model for Learning Utterance-Level Semantic Dependency in Dialogue Generation

一言でいうと

発話単位の関係を捉えることができるSeq2Seqを提案

論文リンク

An Auto-Encoder Matching Model for Learning Utterance-Level
Semantic Dependency in Dialogue Generation

著者

Liangchen Luo, Jingjing Xu, Junyang Lin, Qi Zeng, Xu Sun

会議日付

2018/11

概要

発話生成は対話分野において重要なタスクである．
発話生成の既存手法のほとんどはSeq2Seqをベースとしている．
しかし，Seq2Seqは文単位での意味関係を捉えることができるが，
発話単位の意味関係を捉えることができない課題がある．
そこで，本研究では発話単位の意味関係を捉えるSeq2Seqモデルを提案する．
Seq2Seqモデルと比較した結果，BLEU, Distinct, 人手評価において良い性能を示した．

新規性・差分

発話単位の意味関係を捉える新しいSeq2Seqモデル，Auto-Encoder Matching modelを提案
応答の一貫性，流暢性，多様性においてSeq2Seqモデルと比較して良い性能を示した

評価

使用データ

Daily Dialogue Corpus
train: 36.3k, valid: 11.1k, test: 11.1k [pairs]

評価指標

BLEU-(1, 2, 3, 4)
Distinct-(1, 2, 3, 4)
10段階人手評価 (Fluency, Coherence)

比較手法

Seq2Seq
Seq2Seq + Attention
提案手法
提案手法 + Attention

結果

Illustrative Language Understanding: Large-Scale Visual Grounding with Image Search Jamie

一言でいうと

単語分散表現を画像に基づいて獲得する手法を提案

論文リンク

http://aclweb.org/anthology/P18-1085

著者/所属機関

J. Kiros, W. Chan, G. Hinton
Google Brain Toronto

投稿日付(yyyy/MM/dd)

概要

単語から Google 画像検索してその上位10件をCNNに突っ込んで concat して単語分散表現 Picturebook の出来上がり
Glove （などの他の単語分散表現）との併用手法である multimodal Fusion Gating
Picturebook から単語を得る Inverse Picturebook
様々な NLP タスクで分析

新規性・差分

単語分散表現の獲得に画像を用いること

手法

単語から Google 画像検索してその上位10件をCNNに突っ込んで concat
CNN は意味的順位付けを学習したもの
意味的順位付けに用いるデータセットは，視覚的類似度ベースと意味的類似度ベースのそれぞれを試して意味的類似度ベースの方がいいことがわかった
multimodal Gating はいわゆるアテンションっぽい機構
Inverse Picturebook はデコーダの内部状態をターゲット言語側の Picturebook に近づけるような機構

結果

類似単語

単語類似度のよさ（SimLex-999で評価）

自然言語推論

感情・トピック分類

キャプション検索・画像検索

機械翻訳

コンセプトは順当でスッキリしたものだと思いました．220万の単語に対して，少なくとも10枚/語彙の画像を CNN モデルに突っ込むので結構重たい処理だと思うのですが，さすが Google だけあってやっている実験の量が違いますね．数の暴力．
今回はそれぞれの手法は単純なものですが，各タスクに対してこれらの手法はどんどん最適化され洗練されていくと思うので，今後の発展が楽しみです．

Unsupervised Neural Machine Translation with Weight Sharing

一言でいうと

従来の教師なし学習を用いた機械翻訳ではエンコーダが一つ，デコーダが二つだったが，提案手法ではエンコーダの最後からn層とデコーダの最初からm層のweightをシェアすることで精度を向上させた．

論文リンク

http://aclweb.org/anthology/P18-1005

著者/所属機関

Zhen Yang, Wei Chen, Feng Wang, Bo Xu

Institute of Automation, Chinese Academy of Sciences
University of Chinese Academy of Sciences

投稿日付(yyyy/MM/dd)

2018/07

概要

新規性・差分

エンコーダとデコーダの一部を重みシェアすること
GANの機構を組み込んだこと
（AEにdenoising?）
（back-translationは新規ではない気がする）

手法

AEを二つ用意し真ん中の層の重みをシェアすることで，二言語が同じ潜在空間にマッピングされるように学習する．
中間のシェアされている層をみて，言語Sと言語Tでどちらの言語からマッピングされたかを識別する識別器D_lと
出力をみてどちらの言語から翻訳されたかを識別する識別器D_gを用いる．

結果

ベースラインとの比較

word-by-wordよりも高性能
Lampleらよりも良い
supervised よりは悪いため，まだ改善の余地あり

Ablation Study

モデルの要素を一つずつ削除して評価
weight sharingが一番重要

Number of Shared Layer

重みをシェアする層の数を変更
1層のみシェアする時が最高性能
4層シェア（エンコーダをシェア）するのは良くない

いろいろ実装していてすごい．
Ablation Studyはたくさんの機構を実装している人向けであり，今後使っていきたいかも．
ただ，重みシェアという考えは順当．
機構を変えるならもう少しBLEUの改善が望まれるのでは？（ブーメラン）

Multimodal Grounding for Language Processing

一言でいうと

NLP におけるマルチモーダル研究のサーベイ論文．マルチモーダルの分類からマルチモーダル研究の最新動向まで幅広く議論されている．

論文リンク

Multimodal Grounding for Language Processing

著者/所属機関

Lisa Beinborn (Language Technology Lab, University of Duisburg-Essen)
Teresa Botschen (Ubiquitous Knowledge Processing Lab (UKP) and Research Training Group AIPHES Department of Computer Science, Technische Universitat Darmstadt )
Iryna Gurevych (Ubiquitous Knowledge Processing Lab (UKP) and Research Training Group AIPHES Department of Computer Science, Technische Universitat Darmstadt )

会議日付

COLING 2018

概要

NLP におけるマルチモーダル研究を情報フローの観点から議論する．

新規性・差分

マルチモーダル処理を分類
- Cross-modal transfer
- Cross-modal interpretation
- Joint mulmodal processing
マルチモーダル研究の動向を議論
- 意味表現獲得タスクや行動記述タスクなどで様々なマルチモーダル研究がなされている
- マルチモーダル研究の今後の課題についても言及

サーベイ論文は流し読みができないのでつらかった．

Style Transfer Through Back-Translation

一言でいうと

機械翻訳に通すとスタイル情報を落とせるので、それを使ってスタイル変換をする。

論文リンク

https://arxiv.org/pdf/1804.09000.pdf

著者/所属機関

Shrimai Prabhumoye, Yulia Tsvetkov, Ruslan Salakhutdinov, Alan W Black Carnegie Mellon University, Pittsburgh, PA, USA

投稿日付(yyyy/MM/dd)

2018/05/24

概要

機械翻訳を使用することによって、スタイル情報を落とした潜在変数zを得ることができる。
このzから目的のスタイルの文を生成するようにする。
3つのタスクGender・Political Slant・Sentimentにおいて、だいたいSOTAベースライン(Closs-Aligned AE)を上回る性能を発揮。

新規性・差分

・機械翻訳を使った新しいスタイル変換のアプローチを提案
・スタイル変換のタスクとして、政治的立場を変更するタスクを提案

手法

入力文(英語)を英仏翻訳機に通した後、仏英翻訳機のエンコーダに通して、潜在変数zを得る。翻訳機に通すとスタイル情報は落ちるので、この潜在変数zはコンテンツ情報だけを含んでいる。潜在変数zからスタイルごとのデコーダを用いて文を生成する。

結果

分類器(システムの分類器の訓練に使わなかったデータで訓練したもの)による評価

人手による評価(ABテスト)

人手による評価(1(判読不能)~4(完璧)でスコアリング)

著者「sentiment transferは無理ゲー。スタイル変換の評価には適していない」
「おはようございます」だと「Good morning」になって、「おはよー」だと「Hi」に訳されたりしない？
本当に翻訳を通すとスタイルが消えるの？もしくはほとんどがそうなるのか？

Universal Neural Machine Translation for Extremely Low Resource Languages

一言で言うと

転移学習的な手法を使ってParallelコーパスがほとんどない言語のNMTを作ってみた。

論文リンク

Universal Neural Machine Translation for Extremely Low Resource Languages

著者/所属機関

Jiatao Gu†∗ Hany Hassan‡ Jacob Devlin§∗ Victor O.K. Li†
† The University of Hong Kong
‡ Microsoft Research
§ Google Research

投稿日付

2018/04/17

概要

Neural MTのトレーニングには膨大な量の対訳コーパスが必要で、マイナー言語や特定ドメインだとコーパス足りない問題に直面する。
本研究では、この問題に対処するため多言語NMTの枠組みを利用している。コーパスの少ないターゲット言語のmonolingual dataに、複数のメジャーな言語の語彙／文章表現をuniversalなtokenとして共有させencodeすることにより、コーパスの少なさを補っている。
その結果、6k程度の僅少なコーパスでもBLEUスコアで20を超える程度のモデルを作ることができた。

新規性・差分

多言語のモデルからuniversalなrepresentation spaceを作り、転移学習の枠組みを作っているところ
語彙レベルと文章レベルのマッピングを両立させているところ

手法

E^Q：ターゲット言語のembedding
E^K：Universal tokenのembedding
E^U：NMT embeddingの行列
点線の囲いはuniversalなモデルになっているところ

Universal Lexical Representation (ULR)

語彙のlexiconを考慮したマッピング
各メジャー言語のmonolingual embeddingと統合

Mixture of Language Experts (MoLE)

言語ごとのexpertsと、その入出力をコントロールするゲートを設置
文レベルのuniversal modelを作る

結果

Multi language source ごとのBLEUスコア。
単なるMulti-lingualモデルに対して、ULRとMoLEを導入することによってスコアが上昇している。

Ablation studyの結果。ULRとMoLE、さらにback translation (BT)を追加することでBLEUは23近くまで改善されている。

参考文献

Multi-Source Neural Translation (Zoph, 2016)
Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation (Johnson, 2017)
Fully Character-Level Neural Machine Translation without Explicit Segmentation (Lee, 2017)
Ensemble learning for multi-source neural machine translation (Garmash, 2016)

凝ったシステムやなあ...

How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks

一言でいうと

Reading comprehension (RC) データセットが本当にRCの評価に適したものになっているか調査
5種類のデータセット、3種類のNNベースのモデルを使用
データセット作成論文、提案モデル論文でレポートすべき要件について提案

論文リンク

https://aclanthology.info/papers/D18-1546/d18-1546

著者/所属機関

Divyansh Kaushik, Zachary C. Lipton (CMU)

投稿日付(yyyy/MM/dd)

EMNLP2018 (Short paper)

新規性・差分

個々のデータセットに対する分析はあるが、5種類のデータセットを横断的に分析したのは初めて？

手法

“Corrupt Data” を準備
Q-only: Assign random passages (For SQuAD, create passages that contain the candidates in random locations)
P-only: Assign random questions
Full data/Corrupt dataでのモデルの性能を比較
Q-only, P-onlyでも高い性能が出るなら、PassageとQuestionを関連付けられていなくても解ける問題

結果

CNN: “anonymization of entities which prevents models from building entity-specific information”
SQuAD: “is an unusually carefully-designed and challenging RC task.”
他のデータセットは問題アリ
Q-only, P-onlyでも結構正解できちゃう
Passageの最後の一文だけでも正解できるものも

提言

結果を報告するときは、Q-only, P-onlyでの性能も報告しよう。でないとRCのタスクを本当にやっているのか、passage の正解に対する分類問題を解いているのか分からない。
加えて、正解するのに必要だったコンテキスト（passageの分量）についても報告しよう。

Triangular Architecture for Rare Language Translation

一言でいうと

resource-richの言語対(X, Y)を用いてresource-poorの言語対(X, Z), (Y, Z)の翻訳精度を上げるのに、triangular architectureを提案。

論文リンク

http://aclweb.org/anthology/P18-1006

著者/所属機関

Shuo Ren1,2*, Wenhu Chen3, Shujie Liu4, Mu Li4, Ming Zhou4 and Shuai Ma1,2
1SKLSDE Lab, Beihang University, China
2Beijing Advanced Innovation Center for Big Data and Brain Computing
3University of California, Santa Barbara, CA, USA
4Microsoft Research Asia, Beijing, China

投稿日付(yyyy/MM/dd)

2018/05/13

概要

Neural Machine Translation (NMT) performs poor on the low-resource language pair (X, Z), especially when Z is a rare language. By introducing another rich language Y , we propose a novel triangular training architecture (TA-NMT) to leverage bilingual data (Y, Z) (may be small) and (X, Y ) (can be rich) to improve the translation performance of low-resource pairs. In this triangular architecture, Z is taken as the intermediate latent variable, and translation models of Z are jointly optimized with a unified bidirectional EM algorithm under the goal of maximizing the translation likelihood of (X, Y ). Empirical results demonstrate that our method significantly improves the translation quality of rare languages on MultiUN and IWSLT2012 datasets, and achieves even better performance combining back-translation methods.

新規性・差分

triangular architectureを提案
bidirectional EMによる訓練

手法

結果

Multilingual MTと実験的に比べてない

Combining Character and Word Information in Neural Machine Translation Using a Multi-Level Attention

一言でいうと

NMTにおける（サブ）ワードレベルとキャラクターレベルの融合

論文リンク

http://www.aclweb.org/anthology/N18-1116

著者/所属機関

Huadong Chen, Shujian Huang, David Chiang*, Xinyu Dai and Jiajun Chen

State Key Laboratory for Novel Software Technology, Nanjing University
*Department of Computer Science and Engineering, University of Notre Dame

概要

細かい粒度の文字のEmbeddingを用いてword representationをよくする．
Encoder側もDecoder側もソースサイドの文字列と単語列の情報を使用する．
Encoderで文字列情報をembeddingするときに，単語の内側と外側，それぞれの情報を使ってrepresentationを作成する．
Encoder側，Decoder側単体でも性能が向上する言語対もあるが，組み合わせると全てを上回る．

新規性・差分

文字だけを使う手法に比べて，シンプルに単語の表現を強化する
文字と単語情報を組み合わせる手法は単語レベルの情報を無視している

手法

Encoder：
character-levelのembeddingとword-levelのembeddingを組み合わせる．
Decoder：

結果

少し単純？
あまり手法のすごさがわからない

Graph-to-Sequence Learning using Gated Graph Neural Networks

一言で言うと

グラフ表現を使ってRNNなしで言語生成すると、既存手法以上のパフォーマンスが出ました

論文リンク

リンク

著者/所属機関

Daniel Beck / School of Computing and Information Systems University of Melbourne, Australia
Gholamreza Haffari / Faculty of Information Technology Monash University, Australia
Trevor Cohn / School of Computing and Information Systems University of Melbourne, Australia

概要

多くのNLPアプリケーションはGraph-to-Sequenceの問題と捉えられる。
既存手法では、Neural Architectureを使って、文法ベースより良い結果が得られているが、未だに
線形化ヒューリスティックやRNNなどに頼っている。
この論文ではグラフに含まれる構造化された情報を全て利用するモデルを提案する。
実験から、この論文の提案手法は、AMRからの生成タスク、機械翻訳両方においてs2sを上回った。

新規性・差分

Levi Graph変換を用いて、パラメータ数爆発問題の解決と、各グラフに適したエッジのベクトル表現の
取得を実現している

手法

seq2seqのenocder部分に、Gated Graph Neural Networkを適用。
入力グラフは、有向非巡回グラフをLevi Graphに変換したものを使用

結果

生成タスク
翻訳タスク

Paraphrase to Explicate: Revealing Implicit Noun-Compound Relations

一言でいうと

Noun-compounds の constituency 間に存在するimplicit relationをパラフレーズすることで明らかにする手法を提案。学習コーパスに存在しないnoun-compoundsも取り扱える一般性を実現。

論文リンク

https://aclanthology.info/papers/P18-1111/p18-1111

著者/所属機関

Vered Shwartz, Ido Dagan (Bar-Ilan University, Israel)

投稿日付(yyyy/MM/dd)

ACL2018

概要

Noun-compounds の constituency 間に存在するimplicit relationをパラフレーズすることで明らかにする手法を提案している。constituencyのペアからrelationを予測するタスク、constituency の一つとrelationから残りのconstituencyを予測するタスクのマルチタスク学習を行う。

定性的評価により、未知の noun-compounds についてもパラフレーズできることを示した。また厳密には別タスクとなるがSemEvalやTratz (2011) のデータを用いた定量評価（既存研究との比較）も丁寧に行っている。

新規性・差分

既存研究では、implicit relationをラベル付けする分類問題、もしくは人手で作ったパラフレーズのランキング問題として定式化していた。前者はラベルセットの設計が困難であり、また複数ラベルを持ちうるケースに対応できない。後者は学習データに存在しないnoun-compoundsを取り扱えない問題があった。

提案手法ではこの問題を解決し、未知のnoun-compoundsでもパラフレーズできる一般性を実現している。

手法

結果

定性的分析の結果

丁寧な分析が興味深い論文
「○○といえば△△」のような情報推薦にも応用できそう。

Convolutional Neural Network for Universal Sentence Embeddings

一言でいうと

ベーシックなCNNを(Wieting et al. 2016)に適用したらSTSタスクで性能が上がる（ケースもある）ことを示した。

Wieting et al. Towards Universal Paraphrastic Sentence Embeddings (ICLR 2016)

論文リンク

https://aclanthology.info/papers/C18-1209/c18-1209

著者/所属機関

Xiaoqi Jiao, Fang Wang, Dan Feng

投稿日付(yyyy/MM/dd)

COLING2018

概要

Paraphraseを使った学習フレームワーク、ロス関数などベースは(Wieting et al. 2016)。
Sentence Embeddingを作る部分にベーシックなCNNを適用。
STS2012-2015, SICKデータセットによる実験で性能向上を示し、フィルタサイズ、学習コーパスの影響も調査。

新規性・差分

(Wieting et al. 2016)にCNNによるSentence embedding生成を適用。

手法

Sentence embedding生成はベーシックなCNN。PoolingはSum-poolingを適用。

結果

Transfer learning設定でのSTS2015、Supervised learning設定（SICK利用）でGRANモデル(Wieting and Gimpel 2017) に比べて性能向上。

Supervised のSICKではInferSentやQuickThoughtには敵わず。

Wieting & Gimpel. Revisiting Recurrent Networks for Paraphrastic Sentence Embeddings. (ACL 2017).

QuickEdit:  Editing Text & Translations by Crossing Words Out

一言でいうと

This paper proposed a neural sequence to sequence model which allows one to edit text by marking unwanted tokens.

論文リンク

http://aclweb.org/anthology/N18-1025

著者/所属機関

David Grangier, Michael Auli
Facebook AI Research

投稿日付(yyyy/MM/dd)

2017/11/13

概要

QuickEdit allows a user to reformulate a sentence by marking tokens which they don't want to include in the new sentence. QuickEdit can be applied to both machine translation post-editing and paraphrasing. It is built upon a neural sequence to sequence model and takes a sentence with change markers as inputs. The model is trained on translation bitext by simulating post-edits. The trained model is shown to perform significantly better in machine translation tasks than post-editing baseline and in paraphrasing tasks than a strong model proposed by Mallinson et al. (http://aclweb.org/anthology/E17-1083).

新規性・差分

http://www.emnlp2015.org/proceedings/EMNLP/pdf/EMNLP120.pdf
In Touch-Based Pre-Post-Editing of Machine Translation Output, Marie and Max proposed a similar interaction model where users label each span from the output of machine translation positive or negative. The system only keeps positively marked spans and use phrases which generate these spans to explain corresponding source phrases. QuickEdit simplifies the interaction procedure by letting the users only label unwanted tokens.

手法

- builds upon the architecture of Gehring et al. (2017) - adds a guess encoder and duplicates every attention layer for the decoder to attend to both the source and guess sentences

結果

Post-edit QuickEdit improves post-edit baseline BLEU scores on the above evaluation tasks.

Monolingual editing QuickEdit outperforms ParaNet model(Mallinson et al., 2017) in a human evaluation on the MTC dataset.

Paraphrasing is evaluated on a relatively small dataset.
Post-edit QuickEdit performance is not compared to other translation/post-edit models.
Model parameters and implementation details are not shared.

Finding Syntax in Human Encephalography with Beam Search

一言で言うと

人間の認知メカニズムを想定した構文解析モデルを作り、実際に脳神経活動との相関性を調べた。

論文リンク

Finding Syntax in Human Encephalography with Beam Search

著者/所属機関

John Hale, Chris Dyer, Adhiguna Kuncoro, Jonathan R. Brennan
DeepMind, London, UK

投稿日付(yyyy/MM/dd)

2018/06/11

概要

著者は明示的な句構造モデリングの手法としてRNNG (recurrent neural network grammar) を提唱している。この研究では、被験者の脳波を記録し、RNNGにおける各単語ごとの統計量（＝文中でその単語がどの程度の複雑さを持っているか）と、脳波のピーク（聞き手にとっての理解しにくさ）との相関性を調べた。その結果、ベースラインのLSTMに対してRNNGは有意に脳波ピークとの相関性が高く、より人間の認知をモデル化した手法として妥当であることが示された。

新規性・差分

実際に生体データを記録し、相関性を調べたこと
認知モデリングとして複雑性の指標を構築したこと

使用データ

構文解析モデル
　- RNNG：提案手法
　- RNNG-comp：名詞句をシンボリックスタック化しないでべったり並べたRNNGの劣化バージョン
　- LSTM：ベースライン
脳波（EEG）測定
　- 10-20法（電極61個）
　- 各単語の事象関連電位（ERP）を記録
　- ERP潜時の関心領域：ANT (200-400 ms)；N400 (300-500 ms)；P600 (600-700 ms)
データ
　- Alice in Wonderland
　- 1章をtest dataとして使用
　- parserは2章以降でtraining
モデルの統計量
　- Distance：各単語間で文要素の決定のためにかかったアクション数
　　- 6パターンのビーム幅（k=100,200,400,600,800,1000）でビームサーチ
　- Surprisal：単語の出現確率の対数（意外な単語が出るほど高くなる）
相関性の検討
　- 各統計量をEEGに対して回帰分析
　- 尤度比検定で有意性を取る（有意水準：α=0.002）

結果

P600領域のDictanceでRNNG-comp>LSTM、ANT領域のSurprisalでRNNG>RNNG-compとなり、RNNGはERPとの相関性が有意に高い

回帰係数のプロット。濃い色の領域で統計学的に有意

RNNGの構造

結論

単一のモデルで2つの異なるERPとの相関を示したことは示唆的
RNNGが人間の認知メカニズムとの相関性を示したことで、文字列ベースの手法を議論する意義は薄れたと言えるだろう

人工知能と脳神経活動との関連を調べる研究は流行りそう
SurprisalがP600ではなくてP3 (ANT) と相関していたのは、何かの間違いかもしれないけど興味深い（ちなみに論文では本当はP600と相関するはずなのにと書いていたけど、文脈外の単語出現に対するERP潜時はN400だと思う）
P値の補正でBonferroniの使い方が正しいか微妙な感じがする
RNNGとベースラインの直接比較ではなく、間にRNNG-compを噛ませた理由がよくわからない

A Deep Ensemble Model with Slot Alignment for Sequence-to-Sequence Natural Language Generation

一言で言うと

Natural language generation using a deep ensemble model considering aligned Meaning Representation (MR)

論文リンク

A Deep Ensemble Model with Slot Alignment for Sequence-to-Sequence Natural Language Generation

著者/所属機関

Juraj Juraska, Panagiotis Karagiannis, Kevin K. Bowden, Marilyn A. Walker
Natural Language and Dialogue Systems Lab, University of California, Santa Cruz

投稿日付(yyyy/MM/dd)

2018/05/18

概要

自然言語生成をする際，Meaning Representation (MR)を考慮して生成することは文の意味的整合性と構造的整合性をとることができる．(MRとは複数の対話行為(DA)から成り，DAは情報のタイプ(slot)と発話中の表現(value)の対から成る．) しかし，従来の統計的手法では人手でルールを定める必要があり，ニューラル的手法ではslotの対応をとるために膨大なデータが必要であり，生成された文は流暢性を損なう．よって，MRの情報を用いた新しい生成器の提案，slotの対応を自動でとるシステムの構築を目的とする．

新規性・差分

文とslotとの対応が取りやすくするようにmodifyする前処理システムの構築
生成文と入力slotとの対応が取れるような生成器の構築

手法

前処理

value の頭文字が母音の場合，slot の単語が含まれている場合を区別して新しいslot に格納
正解文に指示語が含まれている場合，どこに指している表現があるかの情報を追加
構文解析をして同格関係を抽出

モデル概要
単純な注意機構付きSeq2Seqモデル
エンコーダ部
エポック数の違う２種類のBidirectional LSTMを用いたものとCNNを用いたものとでアンサンブル
デコーダ部
LSTMを用いたデコーダ
３種類のモデルからそれぞれ１０単語の候補を生成し，スコア（与えたslotの内どれだけ正確に生成できているか）が最も高くなるようにbeam searchを行う

結果

評価指標
BLEU, NIST, METEOR, ROUGE
結果
前処理を行わないデータと前処理を行ったデータとで比較した結果，前処理を行ったデータの方が良い結果が出た．
３種類のモデルそれぞれとアンサンブルモデルとで性能評価した結果，BLEUとNISTではエポック数が少ないBi-LSTMモデルが最も高い値を示し，METEORとROUGEではアンサンブルモデルが最も高い値を示した．

竹林さんのインターン内容に実装が似ていると思いました．

Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions

一言でいうと

VQA（画像をみて質問に答えるタスク）は CNN と RNN を組み合わせた end-to-end なものが主流である．そのようなモデルでは，特に解答が間違えていた場合，なぜそのエラーが生じたのかを分析しにくいという問題がある．本研究では VQA を 説明ステップ と 解答予測ステップ に分けることで，中間結果を人間が理解しやすいようにして分析しやすくした．

論文リンク

https://aclanthology.info/papers/D18-1164/d18-1164

著者/所属機関

Q. Li, J. Fu, D. Yu, T. Mei, J. Luo
University of Science and Technology of China, Microsoft Research, Beijing, China, JD AI Research, Beijing 100105, China, University of Rochester, Rochester, NY

投稿日付(yyyy/MM/dd)

概要

Visual QA は CNN とかを使って結構いい感じに実現している．しかしながらその過程はブラックボックスである．本研究では VQA を説明と推論の2つのステップに分ける．こうすることで，システムが画像からどのような情報を抽出しているのかを確認することができる．また，このような中間結果は予想された回答が間違いだった場合それがなぜ起こったのかを知る手がかりとなる．

新規性・差分

本研究の3つの貢献

VQA プロセスを2段階に分けた
説明プロセスをいくつかの尺度で評価し、説明プロセスの品質が VQA の精度と強く相関することを示した
実験から提案手法の強いところと弱点を分析した

手法

説明ステップ

画像から関連語彙を予測
画像からキャプションを生成

解答予測ステップ

質問文と，説明ステップの結果を受け取り解答を予測．先行手法と同様に解答群からの分類問題として解く．

結果

関連語彙やキャプションが質問文と関連している場合は VQA の解答も正解しやすい．
他の手法と比べると、だいたい勝ってた．ただ，MCB っていうめっっっっちゃ重いモデルには勝てなかった

実際の例

見通しのいい綺麗な研究だと思いました。精度はそこそこでも実用上ありがたい特性を持つこっちのほうが使いたいなって思いました。

Improving Neural Machine Translation by Incorporating Hierarchical Subword Features

Personalizing Lexical Simplification

一言でいうと

ユーザーのレベルに合わせた語彙平易化システムの提案

論文リンク

Personalizing Lexical Simplification

著者/所属機関

John Lee (Department of Linguistics and Translation)
Chak Yan Yeung (City University of Hong Kong)

会議日付

2018/08/20-26

概要

既存のLexical Simplification（LS）はユーザーによらず難解な単語と平易な単語を区別してきた。しかし、ユーザーによってその単語の難易度は異なるため、真に必要なLSはユーザー依存でなければいけない。
そこで、40の単語の既知未知をユーザーにつけてもらうことでユーザーのレベルを推定し（全4段階）それらを元にユーザー依存の「平易」「難解」を決定する。

LSシステムに組み込むことで

ユーザーにとって平易な単語の言い換え
ユーザーにとって難解な単語への言い換え
を減らすことに成功した。

新規性・差分

LSシステムにユーザーのレベルを追加
ユーザーに依存したSimplificationのデータを用いた評価

比較

比較対象

nil：ベースライン。ユーザーのレベルを考慮しない
auto：提案手法。ユーザーのレベルを考慮
gold：ユーザーの「平易」「難解」の正解データ

評価指標

Precision：うまく平易化できている割合
Accuracy：平易化すべき単語のうちうまく平易化できている割合
Readability：平易化後の単語がユーザーにとって平易な単語である割合

手法

40個の単語についてユーザーが既知未知をつける
それらを元にユーザーのレベルを4段階に振り分ける
レベルの語彙内の単語は「平易」、語彙外の単語は「難解」とする

結果

言い換え候補はBenchLSで付与されている単語のみ

言い換え候補は生成する（生成したものが正しいとは限らない）

A Word-Complexity Lexicon and A Neural Readability Ranking Model

一言でいうと

2単語間の難易度推定をする新たなモデルの考案
アノテーションで単語の難易度データセット作成

論文リンク

A Word-Complexity Lexicon and A Neural Readability Ranking Model

著者/所属機関

Mounica Maddela (Department of Computer Science and Engineering)
Wei Xu (The Ohio State University)

会議日付

2018/10/31-11/04

概要

2単語間の難易度を推定する新しいモデルの提案
15000単語の難易度をアノテーション
SimplePPDB++の制作

Lexical Simplification(LS)のための新たなモデルの提案とデータセットの作成。
平易な順に並べ替えるタスクで既存手法より高い性能を示し、作成した単語の難易度辞書を用いることで、文中の難解な単語を特定する精度が上がった。

新規性・差分

ニューラルネットワークにGaussian-based Feeture Vectorization Layerを適用
2単語間の難易度の差をアノテーション
SimplePPDB++の作成

比較

Substitution Ranking

単語を平易な順に並べ替えるタスク

Substitution Generation

難解な単語から、平易な言い換え候補を生成する

Complex Word Identification

文中から難解な単語を特定する

結果

Substitution Ranking

Substitution Generation

Conplex Word Identification

Recurrent Neural Networks as Weighted Language Recognizers

一言でいうと

RNNを計算論的？に分析した。

論文リンク

http://aclweb.org/anthology/N18-1205

著者/所属機関

1)Yining Chen, 2)Sorcha Gilroy, 3)Andreas Maletti, 4)Jonathan May, 4)Kevin Knight
( 1)Dartmouth College, 2)ILCC University of Edinburgh, 3)Institute of Computer Science Universität Leipzig, 4)Information Sciences Institute University of Southern California)

投稿日付(yyyy/MM/dd)

概要

RNNを「文が入力されるとその文に対応した数値」を返す計算機構として捉えることで、RNNを計算論的？に分析した。
特にこの論文では

Consistency
Highest-weighted string
Equivalence
Minimization

の4つの問題について分析している。

新規性・差分

None

手法

None

結果

(著者のConclusionから)

とのことでした。

すみません、全然分からなかったので、もし興味がある人は自分で読んでみてください（内容をご教授頂ければ幸いです）

Towards Robust Neural Machine Translation

一言でいうと

単純に学習を行った機械学習モデルは、入力を少し変化すると出力が大きく変化してしまうことが知られており、NMTも例外ではない。この論文では入力に対して頑健なNMTの訓練法を提案する。

論文リンク

http://aclweb.org/anthology/P18-1163

著者/所属機関

1)Yong Cheng, 1)Zhaopeng Tu, 1)Fandong Meng, 1)Junjie Zhai, 2)Yang Liu
1)Tencent AI Lab, China
2)State Key Laboratory of Intelligent Technology and Systems Beijing National Research Center for Information Science and Technology Department of Computer Science and Technology, Tsinghua University, Beijing, China Beijing Advanced Innovation Center for Language Resources

投稿日付(yyyy/MM/dd)

概要

Attentionモデルをベースに、元の入力xと少し変えたx'の隠れ層の表現が近づくようにadversarial stability trainingを行う。中英、英独、英仏翻訳タスクで精度が向上することを示した。

新規性・差分

NMTの関連研究ではadversarial attackに関する分析などが主にされているが、他のタスクでは頑健性を高めるような訓練が提案されている。この論文ではNMTに対してadversarial stability trainingを用いて頑健なモデルの訓練を行うことを提案している。

手法

Attentionrモデルをベースにして学習を行う。Encoderの隠れ層表現を用いて、Decoderはxとx'に対する正解の翻訳yを学習する。Discriminatorはxとx'のEncoderでの隠れ層表現を区別するように学習を行う。x'は、似た単語に置き換える手法、embeddingに小さな値を加える方法の2種類を用いている。このような学習を行うことで、xとx'の翻訳が同じになり、かつ内部表現も似たものとなる。

結果

NMTの性能が上がり、頑健さも向上した。

embeddingに与える値を適当なサンプリングによる値ではなく、勾配など計算して与えたい気持ちになった（けど、とても難しそう）。事前並び替えの学習で使えそう。対話とかの学習でも使えるかも？（ただ、多対一での学習となっている気がするので、使うならもうちょっと方法を変えた方がいい気がする）

Multi-turn Response Selection for Chatbots with Deep Attention Matching Network

一言で言うと

Transformer を応答選択の分野に応用すると良い結果が得られた．

論文リンク

Multi-turn Response Selection for Chatbots with Deep Attention Matching Network

著者/所属機関

Xiangyang Zhou, Lu Li, Daxiang Dong, Yi Liu, Ying Chen,Wayne Xin Zhaoy, Dianhai Yu and Hua Wu

Baidu Inc., Beijing, China

投稿日付(yyyy/MM/dd)

2018/07

概要

人の会話は文脈に依存するが，その依存の仕方には2種類ある．１つは名詞の複数形などの表層的な依存性．もう１つは共参照などの文の構造的な依存性である．RNNベースの手法では表層的な依存性のみを考慮できているが構造的な依存性を考慮しきれておらず，学習コストも高い．そこで，本研究ではそれらの問題を解決する新しい応答選択モデルの提案を目的とし，既存のRNNベースの手法と比較した結果，最も優れた結果を達成した．

新規性・差分

Transformer のアテンション構造を応答選択の分野に応用した新しいモデルの提案
RNNベースの既存手法を上回る精度を達成
学習の高速化にも成功

手法

アテンション機構を用いて文の表現を得る．
このアテンションを以後AttentiveModule(Q, K, V)と表す．

self-attention
cross-attention
scoring
self-attentionとcross-attentionを連結して3D Matching Imageを得る．
Maxpooling によって3D Matching Image 2次元に落とし込み，NNを用いてスコアリングをする．

結果

使用データ

Ubuntu Corpus V1
Douban Conversation Corpus

評価指標

Rn@k

結果

Transformer 万能説

Query and Output: Generating Words by Querying Distributed Word Representations for Paraphrase Generation

一言でいうと

論文リンク

http://www.aclweb.org/anthology/N18-1018

著者/所属機関

Shuming Ma, Xu Sun, Wei Li, Sujian Li, Wenjie Li, Xuancheng Ren
MOE Key Lab of Computational Linguistics, School of EECS, Peking University
Deep Learning Lab, Beijing Institute of Big Data Research, Peking University
Department of Computing, The Hong Kong Polytechnic University

投稿日付(yyyy/MM/dd)

NAACL2018

概要

Seq2Seq の decoder における output layer で softmax に代えて軽量なベクトル類似度計算による出力単語の決定手法を提案。具体的には hidden layer の出力ベクトルと encoder へのattentionで計算したコンテキストベクトルから計算したベクトルと、単語ベクトルとの類似度を計算しスコア最大の単語を出力する。

Strongness：

output layer のパラメータ数を大きく削減。
Text simplificationとsummarizationのデータセットで既存手法を上回る性能を達成。

疑問点：

Hidden vector と word embedding が似るような学習になっているので、Text simplification のようにほぼ単語の置き換えでいけるタスクに特化している？
~~大きな性能改善を示したText simplificationの実験データがSeq2Seqを学習するには小さすぎる？~~ Text simplificationではほとんど内容を変えないので、小さいデータセットでも良い。

新規性・差分

Output layerの新たな設計（シンプルかつSoftmaxに比べ軽量）を提案。

手法

結果

Text simplification で顕著な性能改善

LearningWord Meta-Embeddings by Autoencoding

一言で言うと

手法やコーパスの違う事前学習した単語分散表現を組み合わせることでいい分散表現を生成

論文リンク

http://aclweb.org/anthology/C18-1140

著者/所属機関

Cong Bao and Danushka Bollegala
Department of Computer Science
University of Liverpool

投稿日付(yyyy/MM/dd)

2018/

概要

単語分散表現はword2vec等の手法によって大規模コーパスから事前学習される。
手法、コーパスによって分散表現に含まれる情報が異なるので、それらの情報を
共有する分散表現(meta-embedding)を作りたい
meta-embeddingを作ることで既存の分散表現より性能向上
オートエンコーダーを利用することで既存のmeta-embeddingより性能向上

新規性・差分

オートエンコーダーを利用してmeta-embeddingを生成する手法を提案

手法

Decoupled Autoencoded Meta-Embedding (DAEME)

E1,E2,D1,D2は一層のfeed-forward、デコーダに入る中間層はそれぞれ別

Concatenated Autoencoded Meta-Embedding (CAEME)

デコーダへの入力は共通

Averaged Autoencoded Meta-Embedding (AAEME)

結果

2つの分散表現の特徴をうまく合わせることでよりいい分散表現を生成
オートエンコードを利用することでさらにいい結果

性能があまり良くならなかったと感じた

Learning Semantic Sentence Embeddings using Pair-wise Discriminator

一言でいうと

言い換え生成モデルを改良していい感じの文 Embedding が得られるようにしたよ（Sentiment Analysis で SOTA）

論文リンク

https://aclanthology.info/papers/C18-1230/c18-1230

著者/所属機関

Badri Narayana Patro, Vinod Kumar Kurmi, Sandeep Kumar, Vinay Namboodiri
Indian Institute of Technology

投稿日付(yyyy/MM/dd)

2018

概要

Seq2Seq を用いたベーシックな言い換え生成モデルに対して，生成文の Embedding が参照文の Embedding に近くなるように学習する機構（Discriminator）を追加することで，意味的に類似する文同士が似た Embedding になるように改良．

ロス関数は local（通常の Seq2Seq の Construction-loss）と global（Discriminator 部分のロス）の足し合わせ．
global loss は下式の通りで，生成文と参照文の類似度の最大化・生成文と擬似負例（バッチ内の参照文以外の文）の類似度の最小化を同時に行う（類似度は Embedding 同士の内積で定義）．

Sentiment Analysis (Stanford Sentiment Treebank fine-grained) で SOTA

新規性・差分

Discriminator 機構の提案

結果

VAE にこの Discriminator 的な機構を付け足したら KL collapse 対策になりそう？（エンコーダがそんなにサボらなくなりそう）
SST データセットで SOTA と報告されているが，なぜ binary-classification の結果は載せずに fine-grained だけ載せたのかが疑問
QuickThought あたりとの比較が見たかった（QuickThought の論文は SST-binary で実験している）

Self-Attentive Residual Decoder for Neural Machine Translation

一言でいうと

機械翻訳において翻訳元にアテンションを張り，翻訳元の文脈を大域的に考慮することは一般に行われる．
提案手法では訳出済みの文の要約を用いて次の単語を予測することで翻訳先の文脈も大域的に考慮する．
3つの言語対において類似の手法を超える翻訳性能を達成．

論文リンク

https://arxiv.org/abs/1709.04849

著者/所属機関

Lesly Miculicich Werlen, Nikolaos Pappas, Dhananjay Ram, Andrei Popescu-Belis

Idiot Research Institute, Switzerland
E´ cole polytechnique f ´ ed´ erale de Lausanne (EPFL), Switzerland
HEIG-VD/HES-SO, Switzerland

投稿日付(yyyy/MM/dd)

2017/09/14

概要

機械翻訳においてデコーダはアテンション機構を通じて全ての翻訳元の文脈にアクセスするが，
翻訳先における文脈情報は隠れ状態の固定長のベクトルで表現される．これが長期の情報保持を学習する上でボトルネックになる．
seq2seqでは，直近の単語にバイアスがかかることと構造的な組成を十分に捉えられないことがネックである．
これを避けるために著者らはself-attentive residual recurrent decoderを提案している.

この論文における貢献は以下である．

self-attentive residual learning のいくつかのオプションの提案および比較
言語に依らず一貫した性能向上の実証（en2ch, sp2en, en2ge）
アブレーション（切除）研究を通じた提案手法の分析

新規性・差分

翻訳先の文脈情報を考慮する簡潔なモデル Self-attentive residual connections を提案

手法

過去の全訳出語という可変長の入力を扱うために，ターゲット側の要約ベクトルd_tを定義．
d_tはtまでの訳出文の表現と見ることができる．
d_tの構成の仕方には以下の2つがある

Mean Residual Connections

tまでの訳出語{y_1, ..., y_t}の平均

Self-Attentive Residual Connections

tまでの訳出語{y_1, ..., y_t}の重み付き平均
重みはアテンション機構 (shared self-attention mechanism) によって決定される
アテンション機構は単語間の非連続的な依存関係をモデル化することを目的とし，recurrent層の補完的なメモリとして機能する．

結果

memory RNN はベースラインとほとんど同じBLEUを示し，また，アテンションはほとんどt-1に張られる．
self-attentive RNN はベースラインに劣る．
これは隠れ層が反復表現とアテンションを同時に学習しなければならないというオーバーヘッドに起因すると考えられる．
提案手法はベースラインを超え，self-attentive residual connections が最高スコアを出している．
手法が単純でパラメータ数がほとんど増えていないことにも注目すべきである．

意外とただ平均をとっただけでもいいスコアが出ているのは面白いと思った．

Simple and Effective Text Simplification Using Semantic and Neural Methods

一言でいうと

テキスト分割したい
semantic parser と NMT 両方使ったら既存研究より良くなった

論文リンク

https://aclanthology.info/papers/P18-1016/p18-1016 [PDF]

著者/所属機関

Elior Sulem, Omri Abend, Ari Rappoport
Department of Computer Science, The Hebrew University of Jerusalem

投稿日付(yyyy/MM/dd)

2018/07

概要

文を分割するテキスト平易化をしたい
structural semantics と neural methods を 組み合わせる、文分割の中間的な方法

新規性・差分

structural semantics と neural methods を 組み合わせた

手法

意味で分割して、
NTS built using the OpenNMT

結果

人手評価

自動評価

Improving Neural Machine Translation by Incorporating Hierarchical Subword Features

一言でいうと

複数単位のsubwordを使ってNMTのembedding層をよくする

論文リンク

http://aclweb.org/anthology/C18-1052

著者/所属機関

Makoto Morishita, Jun Suzuki, Masaaki Nagata/NTT

概要

BPEのmerge操作数を予め複数決めて、粒度の違う複数単位のsubwordをNMTで使わせる

新規性・差分

複数単位のsubwordを使うのが新しい

手法

結果

encoderに複数単位のsubwordを入れた方が良い

タイトルは階層的と書いてあるが、手法的には階層的になっていない

Structured Multi-Label Biomedical Text Tagging via Attentive Neural Tree Decoding

一言で言うと

木構造をしたラベル空間をrootから探索することで、任意の数のラベル付けを行った。

論文リンク

http://aclweb.org/anthology/D18-1308

著者/所属機関

Gaurav Singh / University College London
James Thomas / University College London
Iain J. Marshall / King’s College London

新規性/差分

木構造を出力するようなseq2seqモデルを提案

手法

encoderとdecoderからなる

encoder
- 入力文をembedding layerを通した後にGRUへと入力
decoder
- rootから木構造の探索を行う
- 各ステップで、context vectorとhidden state vectorを計算し、
  　子ノードがprediction setに入るかどうかの確率を計算
- 最終的にprediction setに入っているノードがラベルの予測結果となる

結果

deepQuest: A Framework for Neural-based Quality Estimation

一言でいうと

MTの品質推定（Quality Estimation, QE）を neural network-based で手軽にやるためにいろいろと試してみた。

論文リンク

deepQuest: A Framework for Neural-based Quality Estimation

著者/所属機関

Julia Ive, Frederic Blain, Lucia Specia
King’s College London, IoPPN, UK
Department of Computer Science, University of Sheffield, UK

会議日付

COLING 2018

概要

QEは、BLEUなどとは異なりreferenceを参照せずにMT出力文の翻訳品質を推定する手法。
Word/phrase、sentence、documentと異なるユニットに対する評価が可能。
Neural MTに適したモデルを創出するため盛んに研究されている。
本研究では、neural networkをベースにしたシンプルなアルゴリズムを用いて主に以下の2点を検討した。

document-levelのQEが可能か
現行のstate of art (POSTECH) と比較して推定性能はどの程度か

併せてBLEUのvariantによる指標の有用性や、attentionのQEに対する寄与度を検討した。

新規性・差分

NMTに対して初めてdocument-levelのQEを試み、有望な結果を得た。
SoTAのモデルに対して、大幅に少ない計算量でcomparableな性能を示した。

方法

シンプルなBi-RNNによる推定モデルを提案。
sentence-levelとdocument-levelのそれぞれで提案手法とPOSTECH、さらにbaselineとしてneural-basedでない手法を比較。
HTER (sentence-level) およびBLUE (document-level) との相関性を指標とした。
英語 vs 2言語 (sentence-level) および 4言語 (document-level) のparallelデータをtrain/dev/testに使用
document-levelの評価では、様々な観点での比較も併せて実施。
　- BLEUのdocument-level用variantとして、lengthや単語出現頻度などを考慮した指標も設計して比較
　- Attentionの寄与度を確認するため、最終hidden layerの生の出力との比較
　- MTの性能の影響をどれだけ受けるかを調べるため、BLEUの良いデータセット（FILT）だけを使った比較

結果

Sentence-level
Document level
　- Baseline

　- 提案手法およびPOSTECH

結論

提案手法はsentence-levelでもdocument-levelでもPOSTECHに匹敵する結果を示した。
POSTECHはpre-trainが必須であり、軽いモデルである提案手法にアドバンテージがある。
Attentionによる寄与は明確に認められた。
MTの性能によるフィルタリングにメリットはなかった。
Language setによって結果にばらつきがあったのが今後の課題。

onizukalab / conferenceproceedings Goto Github PK

conferenceproceedings's People

Contributors

Stargazers

Watchers

Forkers

conferenceproceedings's Issues

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

結果

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

画像エンコーダ

トピック抽出器

マージングデコーダ

結果

他の手法との比較

出力例

アテンションの可視化

コメント

一言で言うと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

Sの決定方法

結果

コメント

一言でいうと

論文リンク

著者/所属機関

概要

新規性・差分

手法

結果

コメント

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

一言で言うと