tm4roon / survey Goto Github PK

Survey on machine learning.

literature-review machine-learning natural-language-processing

survey's Introduction

Survey on Machine Learning

This repository manages summary of literature reviews about machine learning (mainly, computational linguistics).
Welcome new contributions !

Red Queen "It takes all the running you can do, to keep in the same place."
Through the Looking-Glass, and What Alice Found There

🚧 So far, I write summaries in Japanese only. I am going to add summaries of English version in the future.

Content

Conferences on machine learning

Conferences on computational linguistics

Conferences on computer vision

Computer Vision and Pattern Recognition (CVPR)

Others

arXiv
Others

How to contribute

📂 Open a new issue.
✏️ Select a template and write summary of a literature.
📌 Choose labels for related tasks.

Contact

Any comments and questions are welcome!

survey's People

Contributors

Stargazers

Watchers

survey's Issues

Neural Word Embedding as Implicit Matrix Factorization

負例サンプリングを伴うskip-gramによって得られるベクトルが、PMI行列を特異値分解(SVD: Singular value decomposition)することによって得られるベクトルと等価であることを示した論文。

文献情報

著者: Omer Levy, Yoav Goldberg
リンク: https://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf
学会: NeurIPS2014

Controlling the Output Length of Neural Machine Translation

文長制御可能な機械翻訳モデルを提案。次の2つのアプローチによって制御を行う。

Length token method: コーパスを文長に応じて、, , の3段階に分割する。それぞれのラベルを入力文頭に追加する。
Length encoding method: 出力をする際に、目的の出力文長lenと現在の出力文長posの差(absolute:len-pos, relative:len/pos)をpositional embeddingとして入力する。

文献情報

著者: Surafel Melaku Lakew, Mattia Di Gangi, Marcello Federico
リンク: https://arxiv.org/abs/1910.10408
学会: IWSLT2019

An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction

文法誤り訂正のタスクにおいて、擬似データ拡張手法について調査した研究。特に次の3つの点に注目して調査を行なっている。(i) データ拡張手法による違い: BACKTRANS(逆翻訳)かDIRECT NOISE(単語の追加・挿入・削除・マスク) (ii) 事前学習するデータによる違い: SimpleWiki, Wiki, Gigaword (iii) 学習方法による違い: JOINT (擬似データ+学習データを同時に学習), PRETRAIN(擬似データを学習後に、学習データでfine-tuning)。結果として、Gigwaword corpus + BACKTRANS pre-training が最も効果的であることがわかった。また、CONLL2014やJFLEG, BEAのタスクにおいて、モデル自体に改良を加えることなく性能を改善した。

文献情報

著者: Shun Kiyono, Jun Suzuki, Masato Mita, Tomoya Mizumoto, Kentaro Inui
リンク: https://arxiv.org/abs/1909.00502
学会: EMNLP2019

Domain Control for Neural Machine Translation

機械翻訳において、学習データと異なるドメインのテストデータに用いた場合には、性能が低い傾向にある。ここでは、学習データのドメインを文末にタグとして挿入する手法と、ドメイン埋め込みを導入し、token-levelでモデルに入力する手法の2つを用いて翻訳性能の改善を試みている。各ドメインのコーパス単体で学習させたモデルよりも、あらゆるドメインを同時に学習させたモデルの方が、全てのドメインで高い性能を達成した。また、ドメインタグを挿入するよりも、ドメイン埋め込みを用いた方が性能を改善できることを示した。

ドメインタグ

ドメイン埋め込み

文献情報

著者: Catherine Kobus, Josep Crego, Jean Senellart
リンク: https://arxiv.org/abs/1612.06140
学会: RANLP2017

Learning Simplifications for Specific Target Audiences

テキスト平易化において、対象となる読者に合わせて平易さ度合いを制御できるようにすることを試みた研究。平易さの度合いを制御するために、入力文頭に、「どのくらいのレベルに平易化したいか」と「その操作」をラベルとして加える。平易レベルとして、Flesch-Kincaid Grade Level scoreを利用している。また、操作のラベルとしては、次の4つを利用している。

<identical>:何も変換を行わない ( 入力文と平易文が一致)。
<elaboration>: 入力文1文を平易文1文に変換する。
<one-to-many>: 文分割を行う。
<many-to-one>: 文融合を行う。

また、Zero-shot text simplificationにも対応できることを示した。

文献情報

著者: Carolina Scarton, Lucia Specia
リンク: https://www.aclweb.org/anthology/P18-2113/
学会: ACL2018

Controllable Text Simplification with Lexical Constraint Loss

テキスト平易化において、出力語彙の語彙的な制約を設けることにより、平易さの度合いを制御しようとした研究。平易さ度合いを表すラベルを入力文頭に付与するほか、損失関数 L' の計算時に、各平易さ度合い l に対応する平易語 w を効果的に学習するための重み付けを行なっている。TFIDF, PPMIの2つの方法によって重み付けを行なっている。

TFIDF

PPMI

##結果

文献情報

著者: Daiki Nishihara, Tomoyuki Kajiwara, Yuki Arase
リンク: https://www.aclweb.org/anthology/P19-2036/
学会: ACL2019

RoBERTa: A Robustly Optimized BERT Pretraining Approach

BERTの学習方法について詳細に調査した研究。

学習データサイズやバッチサイズは、大きくすればするほど良い。
学習は時間をかければかけるほど良い。
Next Sentence Prediction (NSP)は行わない方が良い。
マスク単語予測は動的に行った方が良い。

BERTに以下の変更を加えたものを、ここではRoBERTaと呼んでいる。

Dynamic masking: マスク単語を学習のたびに変更する。
FULL-SENTENCES without NSP loss: 文書中で隣接する文を結合して入力する(指定の文長となるまで複数の文を結合する)。
Large mini-batches: 論文中では、バッチサイズを8Kに設定。
Larger byte-level BPE: 論文中では、語彙サイズを30Kに設定。

GLUE, RACE, SQuADでstate-of-the-artを達成。

文献情報

著者: Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov
リンク: https://arxiv.org/abs/1907.11692
学会: arXiv2019

Soft Contextual Data Augmentation for Neural Machine Translation

ニューラル機械翻訳(NMT)におけるdata augmentationの手法を提案。言語モデルの出力分布をNMTの入力として利用する。NMTへの入力は基本的にone-hot表現の入力であるが、ここでは、確率的に言語モデルの出力分布を入力する。データが少ない場合、多い場合どちらにおいても、提案手法により性能を改善することが可能。

文献情報

著者: Fei Gao, Jinhua Zhu, Lijun Wu, Yingce Xia, Tao Qin, Xueqi Cheng, Wengang Zhou, and Tie-Yan Liu
リンク: https://arxiv.org/abs/1905.10523
学会: ACL2019

Fine-tune BERT for Extractive Summarization

BERTを抽出型要約にfine-tuningする手法を提案。BERTでは、トークンレベルのタスク(マスク単語予測)を解いているので、これを文レベルに拡張するために、下図のように、各文の先頭に[CLS]、末尾に[SEP]を挿入することによって文境界の情報を与えている。[CLS]の位置に対応する出力ベクトルを文のベクトルとみなす。BERTの上に、Summarization Layersをのせることで二値分類を行う。Summarization Layersは、3種類 (Linear layer, Inter-sentence Transformer, RNN)用いて比較を行っている。

文献情報

著者: Yang Liu
リンク: https://arxiv.org/abs/1903.10318
学会: arXiv

Character-based Bidirectional LSTM-CRF with words and characters for Japanese Named Entity Recognition

固有表現抽出においてstate-of-the-artなモデル(BiLSTM-CNNs-CRF)を日本語に適用。日本語の特徴に合わせて単語の入力に合わせて、文字ベースの入力を加える。提案手法(Char-BiLSTM-CRF)により日本語固有表現抽出においてstate-of-the-artを達成。

文献情報

著者: Shotaro Misawa, Motoki Taniguchi, Yasuhide Miura and Tomoko Ohkuma
リンク: https://aclweb.org/anthology/W17-4114
学会: Proceedings of the First Workshop on Subword and Character Level Models in NLP

Low-Resource Neural Headline Generation

Neural headline generation modelにおける事前学習の効果を検証した論文。EncoderやDecoderを言語モデル的に事前学習させる他に、言語モデルを利用して、元の記事データから擬似的なheadlineを抽出し、学習データに加えるDistant Supervisionを利用し、性能を改善。

文献情報

著者: Ottokar Tilk, Tanel Alumäe
リンク: https://www.aclweb.org/anthology/W17-4503
学会: Proceedings of the Workshop on New Frontiers in Summarization

Non-Autoregressive Neural Machine Translation

単語を順次出力させるのではなく、並列して出力させることにより推論時の計算時間を削減した翻訳モデルを提案。WMT 2016のRomanian→EnglishではBLEU 29.8でstate-of-the-artを達成。

Decoder inputs: 以下の2つを入力とする。

Copy source inputs uniformly: Round(T't/T)でsource inputsをコピーする。
Copy source inputs using fertilities: 上図にあるように、encoderの出力でどの単語を何回連続でコピーするかを予測させる。

Positional attention: Encoderのpositional embeddingをquery及びkey、decoderのpositional embeddingをvalueとしたattention。

文献情報

著者: Jiatao Gu, James Bradbury, Caiming Xiong, Victor O.K. Li, Richard Socher
リンク: https://arxiv.org/abs/1711.02281
学会: ICLR2018

Global Optimization under Length Constraint for Neural Text Summarization

要約文生成では、実用上、出力文長に制約がある場合が多い。従来の出力文長制御における研究では、ユーザが指定した文長を超えた出力となる事例が多かった。ここでは、ROUGEを直接最適化するMinimum risk trainingに、指定文長を上回ったことによるペナルティを設けることにより、要約の品質を落とさず、出力文長による制約を与えることを目指している。結果として、従来の手法に比べて、高い品質かつ指定した文長以内に要約文を収めることが可能となった。

文献情報

著者: Takuya Makino, Tomoya Iwakura, Hiroya Takamura, Manabu Okumura
リンク:
- https://www.aclweb.org/anthology/P19-1099/
- https://www.anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A3-6.pdf
学会: ACL2019

Clustering of Deep Contextualized Representations for Summarization of Biomedical Texts

医療テキストの抽出型要約。入力テキストを文単位に分割して、BERTに入力。トークンの平均ベクトルを文ベクトルとみなして、文をクラスタリングする。下記のwithin-cluster scoreが上位の文を抽出して、要約文を生成する。

within-cluster score

文献情報

著者: Milad Moradi, Matthias Samwald
リンク: https://arxiv.org/abs/1908.02286
学会: arXiv

Sequence-to-sequence Pre-training with Data Augmentation for Sentence Rewriting

文書き換えタスク(論文では、文法誤り訂正とスタイル変換)におけるデータ拡張手法を提案。生成した擬似データと教師データを同時に用いて学習させるのではなく、擬似データを学習したのちに、教師データでfine-tuningを行っている。

擬似データは逆翻訳によって生成を行うが、言語モデル(文法誤り訂正)や二値分類器(スタイル変換)を用いてフィルタリングすることで、学習に効果的なデータのみを抽出している。

文献情報

著者: Yi Zhang, Tao Ge, Furu Wei, Ming Zhou and Xu Sun
リンク: https://arxiv.org/abs/1909.06002
学会: arXiv2019

Controllable Sentence Simplification: Employing Syntactic and Lexical Constraints

テキスト平易化において、語彙や構文に制約を加えることで出力を制御しようと試みた研究。語彙的制約では、入力単語のベクトルに加えて、その単語が言い換えるべきかどうかのラベルを同時に入力することで制御している。また、構文的制約では、テンプレート(構文解析の結果)を用いて、出力を制限している。結果として、WikiLargeにおいてSoTAを達成。また、平易さ度合いを制御することも可能とした。

文献情報

著者: Jonathan Mallinson and Mirella Lapata
リンク: https://arxiv.org/abs/1910.04387
学会: arXiv

Tagged Back-Translation

文頭に逆翻訳によって生成されたことを明示する＜BT＞というタグを挿入し、学習データに追加するTagged Back-Translationを提案。従来のNoised Back-Translation (逆翻訳後に単語の並び替えや削除・マスクを行う手法)に比べて、提案手法によりWMT English-Romanian, English-GermanにおいてSoTAを達成。

文献情報

著者: Isaac Caswell, Ciprian Chelba, David Grangier
リンク: https://arxiv.org/abs/1906.06442
学会: WMT2019

Understanding Back-Translation at Scale

逆翻訳により擬似的にデータを生成する際に、beam search + noise (単語の削除, マスク, 並び替え)を行うことにより、WMT2014 En-GeでBLEU 35ptを達成。(データセットが少ない場合はノイズは加えない方が良い。)

文献情報

著者: Sergey Edunov, Myle Ott, Michael Auli, David Grangier
リンク: https://arxiv.org/abs/1808.09381
学会: EMNLP2018

Improving Grammatical Error Correction via Pre-Training a Copy-Augmented Architecture with Unlabeled Data

文法誤り訂正に関する研究。文中の間違った部分と正しい文を分類タスク・生成タスクのMulti-task learningを行う。文法誤り訂正タスクでは多くの場合、誤り文と訂正文の間で単語が一致する。そのため、Copy mechanismを導入している。また、コピーを学習させるために、事前学習としてノイズ除去タスクを行い、性能を改善している。

文献情報

著者: Wei Zhao, Liang Wang, Kewei Shen, Ruoyu Jia, Jingming Liu
リンク: https://arxiv.org/abs/1903.00138
学会: NAACL2019

Global Encoding for Abstractive Summarization

Attention-based seq2seq modelのencoder側を拡張。RNNの上にConvolution Gated UnitとSelf-attention layerを被せることで、n-gramレベルの局所的な特徴と文を跨ぐような長期的な特徴を捉えることによって、性能を改善。また、重複したn-gramを生成してしまう問題を軽減。

文献情報

著者: Junyang Lin, Xu Sun, Shuming Ma, and Qi Su
リンク: https://www.aclweb.org/anthology/P18-2027
学会: ACL2018

Automatic Assessment of Absolute Sentence Complexity

文の難易度推定を行うためのデータセット(文難易度:5段階評価)と、教師なしの難易度推定器を構築した。教師なしの難易度推定器では、(unigram, bigram, trigram)が出現する(各レベルのおける相対度数, 最も高い難易度, 最も低い難易度)の組み合わせにおいて、以下の8種類の特徴量を利用。また、文長も特徴量として加え、合計で73種類の特徴量を用いて、Random Forestにより難易度の推定を行う。結果として、教師ありの難易度推定手法を上回る結果を達成。また、人手評価と相関のある57種類のみで、73種類使用した場合と同等程度の性能を達成できることを示した。

* PCL: Phrase Complexity Level

文献情報

著者: Sanja Stajner, Simone Paolo Ponzetto, Heiner Stuckenschmidt
リンク: https://www.ijcai.org/proceedings/2017/572
学会: IJCAI2017

Hint-Based Training for Non-Autoregressive Machine Translation

翻訳には、翻訳文の単語を順次出力するAutoregressive translation(ART)と並列に出力するNon-Autoregressive translation(NART)がある。NARTは、推論時の計算時間がARTに比べて短いが、過去の出力情報をうまく参照することができず、翻訳品質が低い傾向にあった。そこで、ART modelのhidden states及びattention distributionとの差を損失関数に加えることによって、NARTのhidden satesやattention distributionをARTに近づけるような学習を行う。結果として、LSTM-based ARTを上回る性能を達成した。

文献情報

著者: Zhuohan Li, Zi Lin, Di He, Fei Tian, Tao Qin, Liwei Wang, Tie-Yan Liu
リンク: https://arxiv.org/abs/1909.06708
学会: EMNLP-IJCNLP2019

Neural Machine Translation of Rare Words with Subword Units

ニューラル機械翻訳で低頻度語や未知語に対応するため、単語より細かい分割単位(Sub-word)によるtokenize手法を提案。具体的にはByte-Pair-Encoding (BPE)を用いてtokenizeする。BPEの概略は次の通りである: (1) 文字レベルの分割で頻度をカウントし、それを初期辞書とする。(2) bigramを取り、頻度が高いものを連結し、一つのトークンとみなす。(3) (2)の処理を目的の語彙サイズになるまで繰り返す。BPEを用いたtokenizeにより、WMT 15において、BLEUが1.1 pt (En → Ge)、1.3 pt (En → Ru)向上。

文献情報

著者: Rico Sennrich, Barry Haddow and Alexandra Birch
リンク: https://arxiv.org/abs/1508.07909
学会: ACL2016

Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation

入力文頭に、「どの言語に翻訳するか」を表すラベルを挿入することで多言語翻訳を実現しようという試み。入力データに変更を加えるだけで、モデル自体は変更していない。WMT2014, 2015のFrench-English, German-EnglishでSoTAを達成。また、様々な言語対を同時に学習させたことにより、低資源の言語対での性能改善やZero-shot translation(e.g. Portugese-Spanishのデータが存在しなくても、Portugese-English, English-Spanishを学習していることにより、Portugese-Spanishの翻訳が可能)を実現。

文献情報

著者: Melvin Johnson, Mike Schuster, Quoc V. Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat
リンク: https://arxiv.org/abs/1611.04558
学会: arXiv

Word2Bits: Quantized Word Vectors

word2vecを8~16倍軽量化しつつ、高精度を実現する手法word2bitsを提案。word2vecの損失関数に量子化関数Qを追加することで、各要素が32bitsで表現されているベクトルを、1, 2bitsに落とし込む。

1, 2bitsの量子化関数は以下のように定義する。

文献情報

著者: Maximilian Lam
リンク: https://arxiv.org/pdf/1803.05651.pdf
学会: arXiv2018

Data Noising as Smoothing in Neural Network Language Models

言語モデルを学習させる際に、擬似的に学習データを増やすことで性能向上をはかる試み。データ拡張の方法として、次の2つの手法を提案: (1) 確率γで文中のtokenをplaceholder token "_"に置き換える。 (2) 確率γで文中のtokenを確率分布q(x) (e.g. unigram頻度分布)からサンプリングされたtokenに置き換える。

結果として、bigram Kneser-Ney noisingにより、データ拡張なしの手法に比べ、perplexityを大幅に改善。また、翻訳タスクに利用した際にも、BLEUを1.4pt改善。

文献情報

著者: Ziang Xie, Sida I. Wang, Jiwei Li, Daniel Levy, Aiming Nie, Dan Jurafsky and Andrew Y. Ng
リンク: https://arxiv.org/abs/1703.02573
学会: ICLR2017

Controllable Abstractive Summarization

要約文の長さと要約文の中心となるエンティティを制御できるモデルを提案。具体的には、要約文長と対象としたいエンティティを入力テキストの文頭にラベルとして追加する。結果として、CNN-Dailymail datasetにおいてF1-ROUGE:40.38でSoTAを達成。

文献情報

著者: Angela Fan, David Grangier, Michael Auli
リンク: https://www.aclweb.org/anthology/W18-2706/
学会: Proceedings of the 2nd Workshop on Neural Machine Translation and Generation

Improving Language Understanding by Generative Pre-Training

事前学習済みのTransformer言語モデルを、Text ClassificationやTextual Entailment, Semantic Textual Similarity, Question Answeringなど様々なタスクに適応させる方法を提案。fine-tuningの際は、目的のタスクの損失に加え、言語モデルの損失も計算する。 9つのタスクでstate-of-the-artを達成。

文献情報

著者: Alec Radford, Karthik Narasimhan, Tim Salimans and Ilya Sutskever
リンク: https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

Controllable Data Synthesis Method for Grammatical Error Correction

文法誤り訂正における擬似データ生成の研究。ここでは、ルールベースの擬似データ生成(ランダムに単語を置換, 挿入, 削除)と逆翻訳を利用した擬似データ生成の2つを用いて実験を行なっている。擬似データにおける誤り率や誤りタイプにフィルタリングをかけることにより、より効果的な擬似データ生成を試みている。結果として、誤り率40%程度で、既存のモデルの性能を最も改善できることを示した。

文献情報

著者: Chencheng Wang, Liner Yang, Yun Chen, Yongping Du, Erhong Yang
リンク: https://arxiv.org/abs/1909.13302
学会: arXiv

MASS: Masked Sequence to Sequence Pre-training for Language Generation

BERTの事前学習をEncoder-Decoderモデルに拡張した研究。BERTやGPTのような言語モデルの学習はEncoder及びDecoderのみの学習した出来なかった(Figure.2)。ここでは、入力文のある範囲をマスクした状態でエンコードし、その部分に入る語を予測するというタスクを解かせる事前学習を行う(Figure.1)。これにより、翻訳や要約、対話応答生成などの3つのタスク(8つのデータセット)で、性能を改善した。

Masked language modeling in BERT, Standard language modeling

Masked sequence-to-sequence pre-training

文献情報

著者: Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu
リンク: https://arxiv.org/abs/1905.02450
学会: ICML2019

Simple Unsupervised Summarization by Contextual Matching

言語モデルのみを利用したシンプルな教師なしの生成型要約手法を提案。ここでは、Contextual Matching ModelとDomain Fluency Modelの2つの言語モデルを利用して要約文を生成している。生成型要約および抽出型要約の2つのタスクで、提案手法の有用性を示した。

文献情報

著者: Jiawei Zhou, and Alexander M. Rush
リンク: https://arxiv.org/abs/1907.13337
学会: ACL2019
コード: https://github.com/jzhou316/Unsupervised-Sentence-Summarization

手法

要約では、次の2つの特性を満たしている必要がある。

正確性: 元テキストの意味を保持している
流暢性: 目的のドメインに関して、文法的に正しく理解可能

これらを本手法では、次式のように定式化する。
$P({\bf y}|{\bf x}) \propto p_{cm}({\bf y}|{\bf x})p_{fm}({\bf y}|{\bf x})^{\lambda}$

ここで、 $\bf x$ は入力テキスト、 $\bf y$ は要約文を表す。また、 $p_{cm}({\bf y}|{\bf x})$ は正確性の評価であり、 $p_{fm}({\bf y}|{\bf x})$ は、流暢性の評価を表す ( $\lambda$ はハイパーパラメータ)。以下で、それぞれの詳細を述べる。また、出力語彙Cは、元テキストに含まれる語及びベクトル空間上でその近傍にあるk語 (論文中では、k=6)のみに制限している。

Contextual Matching Model

正確性は、元テキストと要約文の文脈類似度によって評価する。文脈の類似度は、言語モデルの最終出力系列のコサイン類似度によって計算する。ここで、文脈の類似度を $S(x_{1:m}, y_{1:n})$ と表すこととする。このとき、 $x_{1:m}$ , $y_{1:n}$ 　はそれぞれ系列長mの入力テキスト、系列長nの要約文を表す。

$p_{cm}({\bf y}|{\bf x}) = \prod^{N}_{n=1}q_{cm}(y_n|{\bf y_{<n}}, {\bf x})$

実際に生成を行う際には、以下の手順に従う。

n=1のとき
- 出力語彙集合と元テキストの語彙集合との類似度 $s_{\omega} = max_{j\geq 1}S(x_{1:j}, \omega)$ を計算する。
- 出力分布 $q_{cm}(y_{1}=\omega|x) = softmax({\bf s})$ を計算する。
- $y_{1}$ に対応付く元テキストの単語位置 $z_{1} = argmax_{j\geq 1}S(x_{1:j}, y_{1})$ を求める。
n > 1のとき
- step1と同様に類似度 $s_{w} = max_{j>z_{n-1}}S(x_{1:j}, [y_{1:n-1}, \omega])$ を計算する。
- ただし、 $z_{n-1}$ 以降の単語しか考慮しない。これは、要約タスクにおける単調性( $z_{n-1}<z_{n}$ )を仮定しているためである。
が元テキストの末尾に対応付くまでstep2を繰り返す。

Domain Fluency Model

言語モデル確率を利用して、流暢性の評価を行う。しかしながら、事前学習済みの言語モデルの語彙Vと出力語彙Cではサイズが異なり、適切に言語モデルが計算できない。そこで、Voronoi partitionにより語彙Vを制約を設けた語彙Cにマップさせる。ここで、 $y_{n}$ のvoronoi cell ${\it N(y_{n})}$ をとしたとき、言語モデルは次のように計算される。

$p_{fm}({\bf y}|{\bf x}) = \prod^{N}_{n=1}\sum_{\omega'\in{\it N(y_{n})}}lm(\omega'|{\bf y}_{<n})$

Results

教師あり学習のモデルに匹敵する性能を達成。

Denoising based Sequence-to-Sequence Pre-training for Text Generation

ノイズ除去タスクを事前学習させることによって、モデルに変更を加えることなく、要約や文法誤りタスクの性能を改善。従来は、BERTやGPTのように、Seq2SeqのEncoder側及びDecoder側のみに対応する事前学習を行なっていた。ここでは、EncoderとDecoderを同時に学習させるために、ノイズ(単語の削除・置換・並び替え)を加えた文を入力として、元の文を復元するタスクを事前学習に用いる。

文献情報

著者: Liang Wang, Wei Zhao, Ruoyu Jia, Sujian Li and Jingming Liu
リンク: https://arxiv.org/abs/1908.08206
学会: EMNLP-IJCNLP2019

GLOSS: Generative Latent Optimization of Sentence Representations

Generative Latent Optimization (GLO)をベースとした教師なし学習の文埋め込みを獲得する手法を提案。モデルは下図のように、Sentence IDによってLatent Vector zを獲得し、そこから埋め込みたい文のBack-of-Wordを予測するような構造となっている。推論時には、Latent Vector zをランダムに初期化し、reconstruction lossが最小となるzを探索する。Semantic Textual Similarityのタスクで、uSIFを上回る性能を達成。また、Supervised Task(MR, CR, SUBJ, MPQA, TREC)においても、従来の手法に匹敵する性能を達成。

文献情報

著者: Sidak Pal Singh, Angela Fan, and Michael Auli
リンク: https://arxiv.org/abs/1907.06385
学会: arXiv2019

EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing

翻訳モデルを用いたテキスト平易化に加え、単語毎の平易化操作(KEEP, ADD, DELETE)の予測タスクを加えることで、モデルに平易化時を学習させる。平易化操作の教師ラベルを生成する際には、原文と平易文のLevenshtein distanceにより、KEEP, ADD, DELETEのいずれかのラベルを付与する。結果として、SoTAのモデルに比べ平易さの評価尺度であるSARIが向上。

文献情報

著者: Yue Dong, Zichao Li, Mehdi Rezagholizadeh, Jackie Chi Kit Cheung
リンク: https://arxiv.org/abs/1906.08104
学会: ACL2019

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Wikipedia, BooksCorpusで学習したBERTをさらに、医療関係の大規模なテキスト(PubMed, PMC)で学習したモデルBioBERTを提案。医療ドメインのNER, Relation extraction, Question answeringで、BERTを上回る性能を達成し、医療ドメインテキストによる事前学習の有用性を示した。

文献情報

著者: Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So and Jaewoo Kang
リンク: https://arxiv.org/abs/1901.08746
学会: arXiv2019

Controlling Text Complexity in Neural Machine Translation

翻訳する過程において、出力文の難易度を制御することを試みた研究。Newselaのデータ(1文に対して想定読者の学年を付与している)を用いて、英語-スペイン語間の翻訳を行う。Table1にコーパスの例を示す。出力制御を行うために、出力文の難易度を入力文の先頭にラベルとして付与するといった手法を採用。また、翻訳タスクと平易化タスクのマルチタスク学習を行うことで、さらに性能が改善される。

文献情報

著者: Sweta Agrawal, Marine Carpuat
リンク: https://arxiv.org/abs/1911.00835
学会: EMNLP-ICJNLP2019

Iterative Back-Translation for Neural Machine Translation

原言語側と目的言語側の単言語コーパスを用いて、逆翻訳を繰り返すことでデータ拡張を行うIterative Back-Translationを提案。WMT2017 German-English, English-GermanのタスクでBLEUの性能を大きく改善。また、低資源言語対においても性能は改善するが、German-Englishほどの改善はない。

文献情報

著者: Vu Cong Duy Hoang, Philipp Koehn, Gholamreza Haffari, Trevor Cohn
リンク: https://www.aclweb.org/anthology/W18-2703/
学会: Proceedings of the 2nd Workshop on Neural Machine Translation and Generation

What makes a good conversation? How controllable attributes affect human judgments

「良い対話システムとは何か?」について、モデルによる出力制御と人手評価の関係性を調査した研究。出力制御では、次の4つの項目について制御を行なった: 応答の繰り返し, 応答の具体性, 発話と応答の関係性, 質問と応答のバランス。結果として、繰り返しの抑制が良い対話システムを構築するための重要な要素の一つであることを示した。また、人手評価において、interestingness, listeningなどとrepetitive, fluency, making senseなどにはトレードオフの関係があることを示した。対話システムによる評価では、engagingnessとhumanessは同一のものと見なされて評価されているが、今回の実験から、engagingnessとhumanessは全く別物であり、humanessの評価にはengagingness以外の要素も必要であることを示した。

文献情報

著者: Abigail See, Stephen Roller, Douwe Kiela, Jason Weston
リンク: https://arxiv.org/abs/1902.08654
学会: NAACL2019

Simple Unsupervised Keyphrase Extraction using Sentence Embedding

教師なしのキーフレーズ抽出手法を提案。文書ベクトルとフレーズベクトルを同じベクトル空間上にマップし、以下の2つの方法でキーフレーズ候補をランキングする。

文書ベクトルとフレーズベクトルのコサイン類似度 (EmbedRank)
EmbedRank + 抽出されたキーフレーズ中の多様性を考慮 (EmbedRank++)

多様性を考慮することにより、ユーザによる評価において、高いスコアを獲得。

文献情報

著者: Kamil Bennani-Smires, Claudiu Musat, Andreaa Hossmann, Michael Baeriswyl, and Martin Jaggi
リンク: https://arxiv.org/abs/1801.04470
学会: CoNLL2018

Cross-lingual Transfer Learning for Japanese Named Entity Recognition

固有表現抽出タスクにおいて英語→日本語に転移学習させる手法を提案。モデルの構造は、下図に示すBiLSTM (char+word) + CRFであるが、characterを入力する際は、ローマ字に変換したのちに入力する。転移学習及びローマ字化させることにより、有意な改善ができることを示した。また、モデルのどの部分(Character weights, Word weights, Dence weights)を転移学習すべきかを調査している。

文献情報

著者: Andrew Johnson, Penny Karanasou, Judith Gaspers, and Dietrich Klakow
リンク: https://www.aclweb.org/anthology/N19-2023
学会: NAACL2019

PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification

PAWSをフランス語・スペイン語・ドイツ語・**語・日本語・韓国語の6つの言語に翻訳にすることで、cross-lingualのPAWS (PAWS-X)を構築。

文献情報

著者: Yinfei Yang, Yuan Zhang, Chris Tar, Jason Baldridge
リンク: https://arxiv.org/abs/1908.11828
学会: EMNLP2019
データセット: https://github.com/google-research-datasets/paws

Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization

既存の要約データセットよりもさらに抽象度の高いデータを利用した要約に挑戦。 LDAによって得られたtopicをもとに、単語と文書のtopic embeddingを構築。このtopic embeddingを導入したConvolutional sequence-to-sequence learningを利用して、人手評価において高い評価を獲得。また、オラクル要約や既存の最高性能の手法よりも高いスコアを獲得。

文献情報

著者: Shashi Narayan, Shay B. Cohen, and Mirella Lapata
リンク: https://aclweb.org/anthology/D18-1206
学会: EMNLP2018

Retrieve, Rerank and Rewrite: Soft Template Based Neural Summarization

生成型要約に関する論文。入力文とそれに相応しいtemplateの2つを利用して要約文を生成するモデル。 templateを利用することで、より流暢かつ意味のある要約文を生成できるようになった。imformativenessに関して、state-of-the-artの手法よりも優れた結果が得られた。また、生成される要約文の頑健さと可読性を改善した。

提案手法では、次の3ステップで要約文を生成する。

Retrieve: 入力文をキーとして、トレーニングコーパスから入力文と類似度の高い上位30文を選択する。これらの参照文をtemplatesと呼ぶ。
Rerank: Retrieveで得られたtemplatesをランキングする。入力文のhidden vectorとtemplateとhidden vectorをBilinear networkに入力して、saliencyを計算する。(教師データは、templateと正解文のROUGEスコア)
Rewrite: 入力文とRerankによって得られた最も相応しいtemplateのhidden vectorを利用し、attentionalRNN decoderにより要約文を生成。

文献情報

著者: Ziqiang Cao, Wenjie Li, Furu Wei, and Sujian Li
リンク: https://www.aclweb.org/anthology/P18-1015/
学会: ACL2018

Reducing Transformer Depth on Demand with Structured Dropout

Transformerのレイヤ自体をDropoutさせる方法LayerDropを提案。学習時には確率pでDropoutさせる。推論時には、レイヤ $d \equiv 0 (\lfloor{mod(1/p)\rfloor})$ でdropoutさせる。機械翻訳や要約, 言語モデル等のタスクにおいて、モデルを軽量化しつつ、性能を改善できることを示した。

文献情報

著者: Angela Fan, Edouard Grave, Armand Joulin
リンク: https://arxiv.org/abs/1909.11556
学会: arXiv

Contextual String Embeddings for Sequence Labeling

文字レベルを入力とした言語モデルから単語ベクトルを獲得する手法を提案。双方向のLSTMに文字レベルで入力。forward, backwardそれぞれLSTMから単語の末尾, 先頭の隠れ状態を獲得し、結合する。これを単語のベクトルとみなす。CoNLL2003 shared taskでstate-of-the-artを達成。また、文字レベルで入力することから、rare wordやmisspell wordなどにも対応可能。

文献情報

著者: Alan Akbik, Duncan Blythe and Roland Vollgraf
リンク: https://www.aclweb.org/anthology/C18-1139
学会: COLING2018

ERNIE: Enhanced Representation through Knowledge Integration

BERTにおけるマスク単語予測を、phrase-level, entity-levelに拡張した(単語よりもまとまった単位のマスクを行う)モデルERNIEを提案。NLIやNERをはじめとする5種類のタスクで、BERTを超える性能を達成。またクローズテストにおいても、BERTに比べて、より高度な推論が可能であることを示した。

文献情報

著者: Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, Hua Wu
リンク: https://arxiv.org/abs/1904.09223
学会: arXiv2019

Controllable Sentence Simplification

テキスト平易化タスクにおいて、出力する平易さを制御する研究。制御する項目として、文長(NbChars)や入力文との編集距離(LevSim), 単語の平易度(WordRank), 構文木の深さ(DepTreeDepth)を挙げており、それらの以下のように入力文の文頭に挿入することにより、制御を行う。

文献情報

著者: Louis Martin, Benoît Sagot, Éric de la Clergerie and Antoine Bordes
リンク: https://arxiv.org/abs/1910.02677
学会: AAAI2020

Neural Text Generation with Unlikelihood Training

Neural text generationで頻繁に発生する、同じ単語を繰り返し出力してしまう問題や高頻度な単語を過剰に出力してしまう問題に対して、望まない出力に関する損失(unlikelihood)を追加すること提案。これにより、人手評価において有意に性能を改善。unlikelihoodとして、token-levelとsentence-levelの2つを定義している。