kacky24 / papers Goto Github PK
View Code? Open in Web Editor NEWmy publications and short summaries of papers I have read
my publications and short summaries of papers I have read
音声、画像、言語、強化学習など一般に使える、高次元データから分散表現を抽出する教師なし学習のアプローチContrastive Predicting Codingの提案。
CPC
Aaron van den Oord DeepMind [email protected] Yazhe Li DeepMind [email protected] Oriol Vinyals DeepMind [email protected]
https://arxiv.org/pdf/1807.03748.pdf
2018
パラレルコーパスを使わずに、単一言語のコーパスから得られるword embeddingを対応づける
Alexis Conneau∗ † ‡ , Guillaume Lample∗ † §
,
Marc’Aurelio Ranzato†
, Ludovic Denoyer§
, Herve J ´ egou ´
†
{aconneau,glample,ranzato,rvj}@fb.com
[email protected]
https://arxiv.org/abs/1710.04087
ICLR 2018
https://arxiv.org/abs/1710.09829
Sara Sabour
Nicholas Frosst
Geoffrey E. Hinton
(Google Brain, Toronto)
{sasabour, frosst, geoffhinton}@google.com
2017
画像中の複数人の2Dポーズを効率的に推定する手法の提案。
複数人の姿勢検知の難点
従来のtop-downアプローチ:画像中の人を検知し、それぞれについて姿勢検知
従来のbottom-upアプローチ:画像中の各部位の位置を推定し,つなぎ合わせる
提案手法
a. 画像を入力
b. 各部位の位置を部位ごとに予測(confidence map)
c. 部位間の関連度をlimbごとに予測(affinity field)
d. confidence mapとaffinity fieldをgreedy inferenceでつなぐ
e. 出力
ベージュのbranch: confidence mapを予測
青のbranch: affinity fieldを予測
各stageをT回繰り返す
stage1では画像をcnnでエンコードしたfeature map Fを入力にconfidence map S1, affinity field L1を生成.
stage2以降
各stage, branchごとにL2lossを適用.
Wはbinary mask,全員にannotationされていないことがあるのでその場合W(p)=0
total loss
groundtruth confidence maps S*をアノテートされた部位から作成
annotationされた点にピークを持つ以下の分布でconfidence mapを表現
複数人が画像に含まれる場合は複数のピークを持つ,それぞれの分布のmaxをとる
複数人の検知された部位から全身の姿勢を組み立てるには部位間の関係の指標が必要,どの部位が同じ体のものか
⇒ PAF: limb領域について位置と向きの情報両方をもつ
limb上でのgroundtruth affinity filed L*はj1からj2へののunit vector
groundtruth affinity fieldは,画像内の全員のaffinity fieldの平均
テスト時,部位候補間の関係を,間のPAFのline integralを計算することで測る.
https://arxiv.org/pdf/1611.08050.pdf
Zhe Cao
Tomas Simon
Shih-En Wei
Yaser Sheikh
The Robotics Institute, Carnegie Mellon University
{zhecao,shihenw}@cmu.edu {tsimon,yaser}@cs.cmu.edu
QAは、factoid QA(事実・事象を返す)とnon-factoid QA(説明などの複雑なテキストを返す)に大別できる。
この論文では、non-factoid QAにおける2段階のフレームワークを提案。
Answer Retriever
回答の候補から、検索により一定数まで大雑把に絞りこむ。この論文ではbm25を使っている。
Answer Ranker
上位により正解に近い者が来るように並び替える。
Rankerの種類として、siamese networkベースのSRankerと、compare-aggregate modelベースのCRankerを使っている。
モデル全体の流れ
SRanker
CRanker
Ranker自体はSOTAレベルに匹敵する精度
ただ、bm25によるfirst stepで正解を拾えずに全体としては精度が落ちてしまうので、first stepにおける改善は必要
Nam Khanh Tran, Claudia Niederée
L3S Research Center, Leibniz Universität Hannover
Hannover, Germany
{ntran,niederee}@L3S.de
https://dl.acm.org/citation.cfm?id=3191830
www2018 challenge#4
Neural Machine Translation (NMT)、Phrase-based Statistical Machine Translation (PBSMT)それぞれについて、monolongualのコーパスでの教師なしで学習する手法を提案。WMT'14 English-FrenchとWMT'16 German-EnglishでBLEU28.1, 25.2を記録し、教師なし学習の盆脈では11 point以上更新しSOTA。一昔前の教師ありに匹敵。
※参考文献
PBSMT
基本的には、encoder-decoderモデルを
sourceとtargetそれぞれのmonolingualコーパスに対して、一緒にbyte-pair encoding (BPE) をかける。
BPEの、vocablary sizeを減らせる、未知語をなくせるという利点に加え、一緒にBPEにかけることで、2言語間で。BPE toeknを共有する(この時、英語とフランス語などアルファベットで構成されている言語同士だと大部分のtokenを共有できるが、日英とかだと、共有できるtokenがだいぶ限られてしまう)。
手順
一度翻訳したものを、もう一度逆方向に翻訳し、元の文と比較して学習する。
ただこの操作を行うと、翻訳したnoisyな文から、さらに翻訳して元に戻すのでうまくいかないが、上記のように、encoder, decoderは言語モデルとしてノイズを除去するように学習されているので、decoderはできるだけ綺麗な文を生成し、encoderは入力がnosiyだったとしても文意を捉えた潜在表現を抽出することが期待できる。
これら3つは、先行研究でも行われていたが、これらだけではうまくいかない。
→ 言語Aに対するencoderが抽出する潜在表現と、言語Bに対するencoderが抽出する潜在表現の分布、空間が違うと、例えば言語Aに対するdecoderは、言語Bに対するencoderからの表現の分布に対しては、ノイズを除去するようには学習していないため、結局言語モデルによるノイズ除去がうまく働かない。
→ 2言語からのencoderの出力の分布が近いものになる必要がある。
先行研究でも、adversarial lossの導入などにより近づけようとしたが、あまりうまくいかなかった。
そこで、この論文では、2言語間でencoder, decoderのパラメータを共有することで、分布を近づけ、encoderが言語によらない中間表現を抽出できるように試みた。
特にencoderの共有は必須。
教師なし翻訳では、リソースが少ない場合パフォーマンスが相対的に良いPBSMTをニューラルベースの代わりに使うのも合理的かも。
普通PBSMTでは、phrase table(2言語間の双方向のフレーズの対応表)を教師ありで作成するが、これを教師なしで行う。
以下の式で、2言語の各単語(phrase)をエンコードし、2言語間の埋め込みの変換行列Wで変換し、cosine類似度を取ることでphrase間のスコア(対応確率)を求める。(詳細は、https://arxiv.org/abs/1710.04087)
KenLMを用いたが、ニューラルベースでも良い。学習中は固定。
PBSMTでは、基本的には、phrase tableでtarget languageに変換した候補とそのスコアに、language modelによるスコアを加味してデコードし、変換するphraseや語順が決まる。
まず、source(S)からtarget(T)にphrase tableとlanguage modelを用いて翻訳し、T'を生成
次に、T'とSのペアからT→Sのphrase tableを更新する。
まず、TからSにphrase tableとlanguage modelを用いて翻訳し、S'を生成
次に、S'とTのペアからS→Tのphrase tableを更新する。
の1, 2を繰り返す。
phrase tableの中の多くは、あまり正しくない可能性があるが、翻訳時に言語モデルのスコアリングによるフィードバックが入ることで、生成文のnoisyな部分を緩和していき、phrase tableも改善するというサイクルに入ることが期待できる。
大きくSOTA更新。
Guillaume Lample†
Facebook AI Research
Sorbonne Universites´
[email protected]
Myle Ott
Facebook AI Research
[email protected]
Alexis Conneau
Facebook AI Research
Universite Le Mans ´
[email protected]
Ludovic Denoyer†
Sorbonne Universites´
[email protected]
Marc’Aurelio Ranzato
Facebook AI Research
[email protected]
https://arxiv.org/abs/1804.07755
EMNLP2018
Hardik Goel
Dept of Computer Science & Engineering
University of Minnesota, Twin Cities
[email protected]
Igor Melnyk
IBM Research, T. J. Watson Research Center
Yorktown Heights, NY
[email protected]
Arindam Banerjee
Dept of Computer Science & Engineering
University of Minnesota, Twin Cities
[email protected]
September 12, 2017
https://arxiv.org/pdf/1709.03159.pdf
2017
online informationにおける時系列の"burst", "peak", "fade"の予測.
データにはtwitterのhashtagを使用.
特徴量は,ある一定のpopularityまで達する時間と,average local clustering coefficientとして,SVRで予測.
accuracyに加え,promptnessも考慮した評価指標の導入.
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0168749
Ying Hu, Changjun Hu, Shushen Fu, Mingzhe Fang, Wenwen Xu
Department of Computer and Communication Engineering, University of Science and Technology Beijing,
Beijing, China
NMTモデルのパラメータを、尤度最大化ではなく、評価指標(微分可能である必要なし、BLUEなど)に関して直接的に更新する手法の提案。
NMTの問題点の1つ:翻訳の質を評価する指標ではなく、訓練データの尤度最大化によって最適化される
よって、minimum risk training(MRT)を、NMTに導入し、問題の解決を試みる。
MRTにおけるロス(risk)は以下の式で求められる
(Δの部分が生成文yと正解ysのBLUE値、METEOR値など)
しかし、これでは全candicates(Y(xs))を考慮しなければならず、候補が多い場合難しい
よって、全candidatesの中からsubsetをサンプリングする。
実験において、サンプル数は100程度あれば十分だった
attention base のRNNモデルのMLEをMRT(BLUE)に置き換えることで、BLUEだけでなく他の指標でもスコア向上
また、人の評価でも向上
http://aclweb.org/anthology/P/P16/P16-1159.pdf
ACL 2016
labelもwordのembeddingと同じ空間に埋め込み、labelのembeddingとwordのembeddingの親和性からattentionをかけることで効果的にテキスト分類を行うモデルLEAMの提案。2つのデータセットでSOTAで、3つのデータセットでは他のモデルに少し及ばない結果となったが、計算コストは非常に低い。
各ラベルのembeddingを表す行列Cと文章のembeddingを表す行列Vをかけて"compatibility" Gを導出し、Gからsoftmaxを用いて各単語へのattentionを計算し、Vに掛け合わせてdocument embedding z を出力する。
PTEと概念は似ているが、weightの柔軟性や非線形性の考慮などからこちらのほうがよいらしい
Guoyin Wang, Chunyuan Li∗
, Wenlin Wang, Yizhe Zhang
Dinghan Shen, Xinyuan Zhang, Ricardo Henao, Lawrence Carin
Duke University
{gw60,cl319,ww107,yz196,ds337,xz139,r.henao,lcarin}@duke.edu
http://aclweb.org/anthology/P18-1216
https://github.com/guoyinwang/LEAM
ACL2018
ネットワークのノードや単語などのシンボリックデータをword2vecのようなユークリッド空間ではなく双曲空間に埋め込むことで分散表現を獲得する手法の提案.
ユークリッド空間では,潜在的な階層構造を埋め込むのみ莫大な次元を必要とし,あまりうまくいかない.双曲空間では,はるかに小さい次元で,精度高く埋め込むことができる.
https://arxiv.org/pdf/1705.08039.pdf
Maximilian Nickel
Facebook AI Research
[email protected]
Douwe Kiela
Facebook AI Research
[email protected]
2017
魅力的なキャプションを異なるスタイル(romantic, humorous)で生成するモデル(StyleNet)の提案.
StyleNetでは,モノリンガルのスタイルを持ったcorpusと通常の画像/動画・キャプションペアを用いて,スタイルを持ったキャプションを生成する.
具体的には,factored LSTM modelを新しく導入し,マルチタスク学習によって,文からfactual, style factorを取り出す.
要は,スタイルを持ったキャプションと画像のセットを用いずに,style factorをテキストのみから抽出し,それを利用しスタイルを持ったキャプションを生成できる.
factored LSTMでは,普通のLSTMの入力 に作用させるWxを以下のように因子分解する.
hに作用させる重み行列は,そのまま.
すなわち,キャプションの中身やスタイルに直接影響を与える部分Wxは変形し,ロングスパンの構文的な依存関係を主にとらえる部分Whは変形しない.
よって,factored LSTMは以下のように表される.
上記のU, V, Wは,テキストの一般的な事実説明をモデル化しているとして,異なるスタイル間でシェアする.
そして,Sをstyle factorを抽出しているものとして,変更する.
Chuang Gan1 Zhe Gan2 Xiaodong He3
Jianfeng Gao 3 Li Deng3
1 IIIS, Tsinghua University, China
2 Duke University, USA
3 Microsoft Research Redmond, USA
災害時に必要な情報をユーザに届けるためのtwitterの投稿のクラスタリング手法の提案.
テキストデータは使わず,ある投稿をリツイートした人はその投稿に興味があるという前提の下で,リツイート情報から似た興味を持つユーザに必要とされているツイートを分類している.
まず,ツイートとそれらをリツイートしたユーザからなる二部グラフを構築する.
2つのツイートA,Bをリツイートしたユーザ群が似ている場合,A,Bは同じトピックを有している確率が高いとして,A,Bをリンクでつないでいき,トピックが似たツイートがつながったリツイートネットワークが構築できる.
ツイートA,Bの類似度は,Jaccard coefficientで測り,この論文では0.05を超えた場合にリンクを張っている.
構築したリツイートネットワークをModularityに基づきクラスタリングすることで,トピックごとにツイートを分類できる.
この手法では,テキストデータを使わず,リツイート情報のみを用いているので,意味が近くても言語的に形が全然違うツイートも効果的に分類できる.
http://syrinx.q.t.u-tokyo.ac.jp/tori/paper/swdm17-babaSeigo.pdf
Seigo Baba,
Fujio Toriumi,
Takeshi Sakaki
The University of Tokyo
7-3-1, Hongo, Bunkyo-ku,
Tokyo, Japan 113-8654
[email protected],
[email protected],
[email protected]
Kosuke Shinoda,
Satoshi Kurihara
The University of
Electro-Communications
1-5-1, Tyohugaoka, Tyohu-shi
Tokyo, Japan 182-0021
[email protected],
[email protected]
Kazuhiro Kazama
Wakayama University
930, Sakaedani,
Wakayama-shi
Wakayama, Japan 640-8441
[email protected]
Itsuki Noda
The Nastional Institude of
Advanced Industrial Science
and Technology
1-1-, Umesono, Tsukuba-shi
Ibaraki, Japan 305-8568
[email protected]
RNNがsequenceの各ステップごとに異なる計算量で計算を行えるようにする手法(ACT)の提案。
従来の機械学習のアルゴリズムは、計算量をタスクの複雑さに合わせて調整できない。
しかし、効率的かつ精度高く出力するには、闇雲に深いネットワークを作るのではなく、必要な箇所で計算量を増やす(熟考する=ponder)ことが望まれる。
そこで、RNNが、各タイムステップで、複数回計算を行えるようにし、計算回数を学習に組み込むということを行う。
計算回数は、上図の各hにシグモイド関数を通して求められる注目度の分布の和が1 - εより大きくなればiteration終了とする。
各ステップの出力は、各iterationの出力に注目度を掛けたものの和になる。
ロス回数に、計算回数が多くなりすぎないように、計算回数の各ステップの総和を組み込むが、これにかかる係数に結果が大きく依存するのが難点。
Alex Graves
Google DeepMind
[email protected]
https://arxiv.org/pdf/1603.08983.pdf
2016
文中の、主語と目的語(subject and object)の関係を分類するタスクであるrelation extractionに、graph convolutionを適用した論文。(ex, 文中のpersonとorganizationをemployed_atという関係に分類する)
GCNのdependency treeへの適用によるentity-centricな表現抽出に加え、主な係り受け関係以外の枝刈りを工夫することで、TACREAD datasetでSOTA.
通常のgraph convolution operation
しかし、これだと
そこで、次のように改良
self-loopを加え、非線形変換を加える前に次数で割って平均をとっている。
行列表現
前述のGCNにはまだ不十分な点がある。
そこで、まず、bi-directional lstmに通してcontextを考慮した表現を得たのち、それをGCNの入力とする。
https://arxiv.org/abs/1809.10185
https://github.com/qipeng/gcn-over-pruned-trees
Yuhao Zhang,* Peng Qi,* Christopher D. Manning
Stanford University
Stanford, CA 94305
{yuhaozhang, pengqi, manning}@stanford.edu
EMNLP 2018
文生成のための、構文を考慮したganであるTreeGanの提案。
文を直接生成する代わりに、構文木(actionの系列)を生成することで、文法情報を考慮する。
sequence dataにganを適用する際、Gが生成するのは離散的なシンボルなので、Dのロスの勾配から誤差逆伝搬はできない。
よって、seqganと同様にpolicy gradientを用い、Gに関しては以下を最大化。
rootノードから始まり、異なる生成ルールを選んでいくことで木を拡大し、葉において終端記号を生成し枝を閉じる。
LSTMへの入力xは、1つ前のactionのembeddingと、親(t2, t3, t8から見たt1)のembeddingをconcatしたもの。
LSTMの出力には、現在のノードから文法的に正しいものだけが選ばれるようにマスクをかける。
生成の際に構造をうまく扱うために、pushdown automata(PDA)のようにstackをうまく使う。
親用のstackと子用のstackを用意する。
生成時には、
構文木の構造と意味をとらえるために、Tree LSTMを用いる
ganの学習前に、Gはmaximum likehood estimation(MLE)で、Dは本物の構文木とsub treeを入れ替えた木とを判別するタスクで事前学習する。
SQLやpython code generation(Django)において、seqganやLSTMを大きく上回る精度。
文法的に正しい文章が出力される
Xinyue Liu
Worcester Polytechnic Institute
[email protected]
Xiangnan Kong
Worcester Polytechnic Institute
[email protected]
Lei Liu
Apple
[email protected]
Kuorong Chiang
Huawei
[email protected]
https://arxiv.org/pdf/1808.07582.pdf
2018
information cascadeの将来のサイズの予測のための、end-to-endのdeep learningによる手法DeepCasの提案。(この問題における初のend-to-endのdeep learningによる試み?)
*information cascade (from wikipedia)
"information cascades happen when Internet users start passing on information they assume to be true, but cannot know to be true, based on information on what other users are doing"
information cascadeの予測では、特徴量を作り込んでから機械学習手法を適用していたが、deepなフレームワークにより、自動的にこれらの特徴量を抽出しつつ、且つデータの種類に寄らず使える。(特徴量を作り込む方法だと、データ依存性がある)
cascade graphから任意の始点からのランダムウォークのマルコフ連鎖を複数取り出し、それらをGRUにかけ、attentionによりグラフの表現を足し合わせ、FC層に通して予測値を得る。
cascade graph : document, path: sentence, node: word的なイメージ
node2vec, deepwalkなどでは、は固定だったが、attentionによる重み付けで、pathの長さTとサンプリング数Kも学習するような効果を与える。
結果は既存の特徴量ベース、node2vecなどを含む8つのベースラインを上回った。
特徴量ベースに比べると、中身は見辛く分析面では劣るので、特徴量ベースで精度を出す際の目標(差が特徴量の工夫により埋められる余地)として使うのがいいかもと述べられている。
比較実験を通して、特徴量の重要性の検証や可視化など、多くの確認、知見を得ている。
Cheng Li1
, Jiaqi Ma1
, Xiaoxiao Guo2
, Qiaozhu Mei1,2
1School of Information, University of Michigan, Ann Arbor, MI, USA
2Department of EECS, University of Michigan, Ann Arbor, MI, USA
{lichengz, jiaqima, guoxiao, qmei}@umich.edu
https://arxiv.org/pdf/1611.05373.pdf
www2017
filter bubbleに関する調査.
レコメンドシステムによって,filter bubbleが引き起こされているのかを,MovieLensのデータセットを使って検証.
結果としては,協調フィルタリングによるレコメンドシステムはむしろfilter bubbleのリスクを軽減していた.
輪講発表資料:https://www.slideshare.net/KotaKakiuchi/2017-78728159
http://wwwconference.org/proceedings/www2014/proceedings/p677.pdf
Tien T. Nguyen Pik-Mai Hui F. Maxwell Harper Loren Terveen Joseph A. Konstan
GroupLens Research
Computer Science and Engineering
University of Minnesota
Minneapolis, MN 55455
{tien,hui,harper,terveen,konstan}@cs.umn.edu
deep learningのアーキテクチャを使った教師なしのheterogeneous network embedding手法の提案。
(heterogeneous<->homogeneous, 単一の種類でないノードからなるネットワーク)
論文内では、画像とテキストの2種類のノードについて主に考えているが、拡張可能
ただ、linearであり、複雑なネットワークのつながりを表現するには心もとない。
実験結果:clustering, classification. retrievalにおいて既存手法を上回る分散表現を獲得できた。(classificationは分散表現獲得後SVM)
Shiyu Chang1, Wei Han1, Jiliang Tang2,
Guo-Jun Qi3, Charu C. Aggarwal4, Thomas S. Huang1
1 Beckman Institute, University of Illinois at Urbana-Champaign, IL 61801. 2 Computer Science and Engineering, Arizona State University, Tempe, AZ 85281. 3 University of Central Florida, Orlando, FL, 32816.
4 IBM T.J. Watson Research Center, NY, 10598.
{chang87, weihan3, t-huang1}@illinois.edu, [email protected],
[email protected] [email protected]
http://www.ifp.illinois.edu/~chang87/papers/kdd_2015.pdf
2015 KDD
dialogue state trackingのためのモデルGlobal-Locally Self-Attentive Dialogue State Tracker(GLAD)の提案。
現在の会話の状態を、現在のユーザの発言と過去のユーザ、システムの発言から推定するタスク。
DSTにおける状態とは、ユーザの目的(goal)と要求(request)から成る。
例えば、restaurant予約のタスクを考えると、毎ターン、ユーザは達成したい目的をシステムに伝える(inform(food=french)など)か、システムから情報を引き出すための要求(request(adress)など)を行う。goalとrequestにおける(food, french)、(request, address)などのslot-valueペアを各ターン予測する。
既存手法では、レアなslot-valueペアの抽出にあまりうまくいっていないが、レアなペアのどれかが会話中に出てくる確率は小さくなく、会話中のターンレベルでのエラーの重なりが会話全体としての精度を大きく下げるので、問題である。
GLADでは、各slotに対する推定器がパラメータを共有したglobal moduleと、slot毎に独立な推定器を用いるlocal moduleを芸陽することで、レアなslot-valueペアに対しても数個の訓練サンプルで予測できるようになりSOTA達成。(既存のものはslot-valueペア毎に独立に推定)
問題設定:ターンの状態を、ユーザの発言と、1つ前のシステムの出力から推定。
既存手法と同様に、マルチラベルの状態推定問題を、slot-value毎に異なる推定器を用いることで2値推定問題の集合に置き換える。
GLADは、encoder moduleとscoring moduleからなる。
DSTC2とWoZ taskに置いてSOTA.
globalとlocalを組み合わせることでレアなslot-valueペアに対して精度が上がっている。
Victor Zhong, Caiming Xiong, Richard Socher
Salesforce Research
Palo Alto, CA
{vzhong, cxiong, rsocher}@salesforce.com
https://arxiv.org/pdf/1805.09655.pdf
https://github.com/salesforce/glad
ACL 2018
文修正(Grammatical Error Correction, GEC)のタスクにおいて、新しいfluency based boost learning, inference mechanismをseq2seqベースの手法に導入することで、人レベルに達した初のGECシステムの提案論文。
ニューラルネットのアプローチだと、GECはNMTを応用して、seq2seq + attention + beam searchが典型的なやり方。
ニューラルモデルの訓練には、大量のerror-corrected sentence pairが必要だが、用意するのは難しい。
よって、augmentationが有効。
ここで、fluencyは、言語モデルによって、以下のように計算されれ、0〜1をとる。
(言語モデルはcommon crawlで訓練された5-gram language model)
上図の(a)
通常は、エラー文→正解文だが、正解文→エラー文を生成するseq2seqモデルを用意する。
正解文→エラー文で、精度の高い候補上位n個を取ってきて、その中から、fluencyが正解文より一定割合以上下がったものを抜き出し、新たなerror-corrected sentence pairとする。
上図の(b)
エラー文→正解文を生成するseq2seqモデルにおいて、精度の高い候補上位n個の中から、まだfluencyが正解文よえい一定割合以上低いものを抜き出し、新たなerror-corrected sentenhce pairとする。
上図の(c)
back-boost, self-boost learningは、それぞれ違う観点からdisfluency candidatesを生成するので、両者を組み合わせることで、より多様なaugmentationを行う。
このfluency boost learningでは、エラー文とpairになっていない大量の正しい文を活用できる。
(C:(corrected, corrected), ...)
同じ正解文と正解文のペアとして、入れられる。
一文に複数のエラーがあるような場合などは特に、一回のseq2seqによる変換だけでは直しきれないといことが起きる。そのため、fluencyが改善されなくなるまで、複数回変換する。(nulti-round error correction)
multi-round error correctionの改善版:round-way error correction
left-to-rightのseq2seqモデルとright-to-leftのモデルは、それぞれ違う強みを持つので、同じモデルで複数回変換するのではなく、これらを順番に適用する。(上図)
seq2seqのモデル:7-layer convolution seq2seq model (https://github.com/pytorch/fairseq)
前処理として、既存のソフトウェアでスペルミスは直している。
結果として、既存のシステムを上回り、人間のスコアと同等以上のスコアを残した、
(データは、既存研究より増やしているので、そもそも比較が同条件ではない?)
https://arxiv.org/abs/1807.01270
Tao Ge, Furu Wei, Ming Zhou
Natural Language Computing Group, Microsoft Research Asia, Beijing, China
{tage, fuwei, mingzhou}@microsoft.com
ACL 2018 "Fluency Boost Learning and Inference for Neural Grammatical Error Correction"に追加実験を加えたもの
transition-based dependency parsingにおいて、stack LSTMを含む、parserの状態を表す表現を学習する手法の提案。
pop: stack pointerを1つ前のcellに移動する
push: stack pointerが付いているcellに新しく入力する
shift処理では、bufferから1単語取ってきてstack LSTMに入力する(push)
reduce処理では、stackの上から2つ(head, dependency or dependency, head)取り出して以下のcomposition functionを適用
その後、その2つのcellの前のcellに対してcompositionしたcを入力する(pop, pop, push)
これを繰り返すことで、bottom upにrecursive neural networkのような処理を行っている。
https://github.com/neubig/nn4nlp-code/blob/master/12-transitionparsing/stack_lstm.py
Chris Dyer♣♠ Miguel Ballesteros♦♠ Wang Ling♠ Austin Matthews♠ Noah A. Smith♠
♣Marianas Labs ♦NLP Group, Pompeu Fabra University ♠Carnegie Mellon University
[email protected], [email protected],
{lingwang,austinma,nasmith}@cs.cmu.edu
http://aclweb.org/anthology/P/P15/P15-1033.pdf
ACL 2015
教師無し学習による文表現学習手法quick thoughtsの提案。
従来は文から前後の文を構築するタスクを解くことにより学習(skip thought)
quick thoughtでは、候補の中から前後の文を当てるというタスクを解く
← 文の構造に影響されず意味だけを評価したい
大半のNLPタスクでstate of the artかつより効率的
Lajanugen Logeswaran
∗ & Honglak Lee†∗
∗University of Michigan, Ann Arbor, MI, USA †Google Brain, Mountain View, CA, USA {llajan,honglak}@umich.edu,[email protected]
https://arxiv.org/pdf/1803.02893.pdf
ICLR2018
テキストデータに対する半教師あり表現学習手法predictive text embedding(PTE)の提案。
skip-gramやparagraph vectorなどの教師なし学習による分散表現は、特定のタスクにおいてはCNNのようなend-to-endのdeep learningフレームワークよりパフォーマンスが落ちる(CNNなどでは、タスクにおけるラベル情報を学習している)
一方、deep learning modelでは、計算コスト、大量のラベル付きデータがいる、多くのパラメータチューニングが必要といった問題がある。
⇒ PTEは教師なし学習の利点を生かしつつ、ラベル情報も表現学習に利用する。
以下のネットワークを用意
heterogeneous text networkは、3つの2部グラフから構成されているととらえられる。(wordは共有)
2部グラフのembeddingは、LINEを適用して行う。
heterogeneous text networkのembeddingは、3つの2部グラフのembeddingの目的関数の和を最小化するように行う。
テキストの埋め込みは、単純に単語の和をとる。
テキスト分類タスクにおいて、教師なし学習によるSOTAは大きく上回った。
CNNとの比較では、長い文章では上回り、短文章では同程度だった。
ただ、より効率的で、モデルパラメータの影響が少ない。
Jian Tang
Microsoft Research Asia
[email protected]
Meng Qu∗
Peking University
[email protected]
Qiaozhu Mei
University of Michigan
[email protected]
https://arxiv.org/pdf/1508.00200.pdf
2015
相互作用システムにおいて、教師なしで関係性の構造を推測しつつ、各ノードのダイナミクスを学習するNRIモデルの提案。
モデルはVAEの構造をしており、encoderで関係性(ノード間のエッジタイプ)を教師なしで抽出、decoderで抽出した関係性を条件としてGNNにより各ノードのダイナミクス(位置・速度など)を予測する。
Thomas Kipf, Ethan Fetaya, Kuan-Chieh Wang, Max Welling, Richard Zemel
https://arxiv.org/pdf/1802.04687.pdf
ICML 2018
赤ちゃんの声の周波数分析により,赤ちゃんの泣いている原因を推定するルールベース手法の提案.(空腹,眠気,不快の3種類)
ここで,不快は,おむつが湿っているまたは姿勢を変えたいことにより赤ちゃんが不快に感じていると思われる状態を指す.
http://ieeexplore.ieee.org/document/4212215/
MOOCs (massive open online courses, Courseraなど) において、生徒のconfusionとコースの継続、離脱の関係を分析した論文。
※ confusion: 生徒が、壁にぶち当たりどうすればわからない状態
まず、生徒のフォーラムでのpost (投稿) とクリックストリームから生徒のconfusion度合いを測定する分類器を作る。
そして、confusionと継続の関係を、confusionの解決、postに対する返信も踏まえて明らかにしている。
Courseraの線形代数とミクロ経済のコース
教師データ:AMTで作成、confusion度合いを4段階で表す。
特徴量
手法
使う特徴量の組み合わせで精度を比較したり、2コース間の比較を行なっているが、8割ぐらいの精度で予測できている。
Stata(統計ツール)の利用
従属変数:ドロップアウトするか否か
説明変数:種々のconfusion、解決したか、返信されたかなど
結果
その他MOOCsがどうあるべきか的なことも考察
Diyi Yang, Miaomiao Wen, Iris Howley, Robert Kraut, Carolyn Rose´
Carnegie Mellon University, Pittsburgh, PA 15213
{diyiy, mwen, ihowley}@cs.cmu.edu, [email protected], [email protected]
2015
doc2vec(paragraph vector)に関する元論文.
PV-DM( the Distributed Memory Model of Paragraph Vectors)
woed vectorとparagraph vectorをaverage/concatenateして,次の語を予測するタスクを解かせ,学習.
PV-DBOW(the Distributed Bag of Words version of Paragraph Vector)
paragraphからランダムにサンプリングした語を,paragraph vectorのみから予測させ,学習.
サンプリングは,まずtext windowをsampleし,そのtext windowからさらにランダムに単語をsampling.
シンプルなため,メモリ消費が少ない.
大体のタスクにおいては,PV-DMの方が良いが,PV-DBOWと組み合わせると,より安定する.
https://cs.stanford.edu/~quocle/paragraph_vector.pdf
Quoc Le [email protected]
Tomas Mikolov [email protected]
Google Inc, 1600 Amphitheatre Parkway, Mountain View, CA 94043
従来の多くのニューラルネットワークにおけるアプローチを一般化、もしくは拡張したGraph Networkを提示。
人間は、少数のものを組み合わせて無数のものを生み出す(combinatorial generalization)が、現在のDLにおける主流のend-to-endなアプローチではそれは難しく、Graph Networkにおける、relational inductive biasによるstructured representationの利用とDLによる柔軟な学習の組み合わせが有効であるとしている。
1DeepMind; 2Google Brain; 3MIT; 4University of Edinburgh
https://arxiv.org/pdf/1806.01261.pdf
2018
CNNによる回帰問題として姿勢推定を行った最初の論文。
かつては各関節それぞれについて特徴量設計、検出器設計、相互作用考慮などを行っていたが、CNNを使うことでうまく全体をみて推測してくれる。
姿勢推定は、関節の位置の特定問題として定義される。
画像データをx、ラベルをy = ( ... , yi, ...) (yiは各関節の座標)として、(x, y)のペアで学習する。
関節の座標は、画像内の絶対位置なので、人物領域を切り出したboxの中心からの位置を表すように正規化。
よって、元画像x中の座標yの予測は、
画像全体を入力とすると,うまく全体を見てくれるアドバンテージはあるが,画像サイズが決まっている(220*220)細かいところは見れない ⇒ 粗い
⇒ カスケード(同じCNNモデルを複数,直列に接続して多段stage化)
stage 1では入力画像から全関節の位置を推定.
stage 2以降では各関節ごとにそれぞれ以下の処理
stage 2以降では、ただ1つ前のstageで推定した位置のみを使用するのではなく、シミュレーションによる予測値を用いることでdata augmentationする。
具体的には、1つ前のstageの予測結果のずれ(y_i^(s-1) - yi)による分布の平均と分散を求め、この平均、分散をもつ正規分布から生成したノイズを、真の関節位置yiに加えた値を、予測値とする。
https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/42237.pdf
Alexander Toshev
[email protected]
Google
Christian Szegedy
[email protected]
Google
node2vecに関する元論文.
ネットワークにおけるノードでは,homophily equivalence, structural equivalenceの2つの同等性を考慮(所属しているコミュニティ,ネットワークにおける構造的な役割⇒hub, bridge, etc)
feature learningのフレームワークとしては,skipgramのように隣接ノードとの内積を大きくし,他のノードとの内積を小さくする.隣接ノードはstrategy Sに基づいてsampling.
strategy Sとしては,Breadth-first Sampling(BFS)⇒幅優先と,Depth-first Sampling(DFS)⇒深さ優先が考えられる.
BFSはhomophily equivalenceを,DFSはstractural equivalenceをより強く反映する.
node2vec(提案手法)⇒biased random walkによりBFSとDFSを柔軟に取り入れる.
random walkは2次のマルコフ過程を採用.
flexibilityのカギとなるパラメータp, q
p : 一回違うノードに移動したのちまた元のノードへの移動のしにくさ(Return parameter)
q : コミュニティの外への移動のしにくさ(In-out parameter)
ランダムウォークを採用することで,時間もメモリも効率的
リンク予測などに応用できるエッジのfeatureは,ノードのペアのfeatureから求める.
実行例)レミゼラブルのネットワークをnode2vec⇒kmeansでクラスタリング
(top)p=1, q=0.5
(bottom)p=1, q=2
上の図ではコミュニティ同一性で,下の図では構造的な同一性でクラスタリングできている.
http://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf
Aditya Grover
Stanford University
[email protected]
Jure Leskovec
Stanford University
[email protected]
Lightweight convolution, Dynamic convolutionという機構を提案し、self attentionを使わなくても、よりシンプルで効率的な構造で、翻訳だけでなく、言語モデルや要約タスクにおいてもself attentionベースの手法に匹敵する・しのぐ結果を出した。(transformerのself-attention部分を提案モジュールに置き換える感じで)
わかりやすい資料URL
https://qiita.com/koreyou/items/328fa92a1d3a7e680376
Dynamic convolution
において、f(Xi)は、
Felix Wu∗
Cornell University
Angela Fan, Alexei Baevski, Yann N. Dauphin, Michael Auli
Facebook AI Research
https://openreview.net/pdf?id=SkVhlh09tX
ICLR2019
Alec Radford * 1 Jeffrey Wu * 1 Rewon Child 1 David Luan 1 Dario Amodei ** 1
Ilya Sutskever ** 1
openai
2019
transformerを用いたlanguage representation modelであるBERT (Bidirectional Encoder Representations from Transformers)の提案。
タスクに特化したモデルではないのにも関わらず、大量のコーパスで教師なし学習でpre-trainした後、それぞれのタスクに対して低コストでfine tuningすることで、文レベル、トークンレベル両方の多くのタスクでSOTA達成。
language representationのpre-trainは以下の2つに大別
transformerを使用。
BERT(base)
BERT(large)
以下の2つの新しい教師なしタスクを解かせる。
BookCorpus + Wikiデータで学習。Next sentence predictionがあるので文章レベルのデータが必要。
fine-tuningの際には出力層だけを加え、3, 4epochほどタスク用のデータで教師あり学習を行う。
11のNLPタスクでSOTA。
fine-tuningするのではなく、ELMo的な使い方でも、CoNLL-2013 NER(name entity recognition)においてfine-tuningしたものとf1-scoreが0.3しか変わらず、かなり高精度。
Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova
Google AI Language
{jacobdevlin,mingweichang,kentonl,kristout}@google.com
https://arxiv.org/pdf/1810.04805.pdf
2018
大規模な複雑ネットワークにおけるノードの分散表現を獲得するための手法LINEの提案.
有向,無向や重み付きかどうかに関わらず,適用可能.
ネットワークの1次,2次の近接性を保つ.
ノードvi, vjの結合確率 (uが求めたい分散表現)
目的関数
ここで,p^はリンクijと全リンクの重みの和の比
距離関数dはKLダイバージェンスを使う
整理すると,
これらは,無向グラフにのみ適用可能
2次近接性は有向,無向どちらにも適用可能で,無向の場合は,双方向の重みの等しい有向グラフに置き換えて考える.
ノードを'context'としてもとらえ,似た'contexts'の分布を持つノードは似ているとする.
よって,各ノードは,ノードとして扱われた時の分散表現uと,contextとしての分散表現u'を持つとする.
ノードviからcontext vjが生成される確率
目的関数
ここで,p^はリンクijの重みとノードiのout degreeの比
lamdaは各ノードの重要度(次数やPageRankなどで求められる)で今回はout degree
距離関数dはKLダイバージェンス
整理すると,
1次近接性と2次近接性の結合はシンプルに分散表現をconcat
目的関数を組み合わせて学習させるのは今後の課題
2次近接性の目的関数を最適化するのは計算量多い⇒negative sampling
目的関数
最適化には asynchronous stochastic gradient algorithm(ASGD)を用いる.
更新式
上の更新式では,単語の共起などwのばらつきが非常に大きい場合,適切な学習率の設定が難しくうまく学習できない.
これを解決するために,重みは一律として,元の重みに比例する確率でリンクをサンプリングして学習を行う.
https://arxiv.org/pdf/1503.03578.pdf
Jian Tang1
, Meng Qu2∗
, Mingzhe Wang2
, Ming Zhang2
, Jun Yan1
, Qiaozhu Mei3
1Microsoft Research Asia, {jiatang, junyan}@microsoft.com
2School of EECS, Peking University, {mnqu, wangmingzhe, mzhang_cs}@pku.edu.cn
3School of Information, University of Michigan, [email protected]
2015
Marek Rei
The ALTA Institute
Computer Laboratory
University of Cambridge
United Kingdom
[email protected]
Helen Yannakoudakis
The ALTA Institute
Computer Laboratory
University of Cambridge
United Kingdom
[email protected]
http://www.aclweb.org/anthology/P16-1112
ACL2016
識別モデルとしても生成モデルとしても訓練可能なphrase structure tree (句構造)の確率モデルRecurrent Neural Network Grammars(RNNGs)の提案。
言語モデル、構文解析器(parser)として使用可能。
従来のtransition based parsingのニューラルネットワークのモデルは、bottom-upなやりだったが、RNNGsはtop-down.
識別モデルでは、入力文がinput buffer Bにある状態でスタートするが、生成モデルでは、stackに構文木を構築していくと同時にoutput buffer Tに文を生成していく。
下図:parsingと生成の例
stackからは、Stack LTSMで特徴抽出、アクション、Tからは普通のLSTMで抽出。
stackにおいて、reduceが実行された時(句の括弧が閉じられた時)、そのsub treeは"pop"される。
その際のcomposition functionとしてbiLSTMを使うが、特徴としては、頭に句のラベルを入力する(下図)
生成モデルをlanguage modelとして使うときは、p(x, y) → p(x)への周辺化を行うが、その際に識別モデルq(y|x)を利用したimportance samplingを用いる。
サンプリング この手順で、言語モデルとして入力文xに対する確率p(x)が求まる。生成モデルをparsingに用いるときは、まず識別モデルq(y|x)で入力文xに対する構文木yを複数サンプリングしてきて、それらの中から生成モデルp(x, y)でもっとも生成確率が高いyを出力とする。
parsing, language modelともに非常に良い結果。
識別モデルよりも、生成モデルの方が精度が良い。
Chris Dyer♠ Adhiguna Kuncoro♠ Miguel Ballesteros♦♠ Noah A. Smith♥
♠School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA
♦NLP Group, Pompeu Fabra University, Barcelona, Spain
♥Computer Science & Engineering, University of Washington, Seattle, WA, USA
{cdyer,akuncoro}@cs.cmu.edu, [email protected], [email protected]
https://arxiv.org/pdf/1602.07776.pdf
NAACL2016
transformerの欠点を改善したuniversal transformerの提案。
transformerは、RNNがもつ再帰的な学習に対するinductive biasを持たず、通常のLSTMで解けるいくつかのタスクで苦戦する。
そこで、transformerにおけるencoderの1ブロックを、並べるのではなく再帰的に適用する。
また、ACTの機構を入力系列の各シンボルごとに組み込んでいるが(adaptive universal transformer)、ここでは計算が終わったシンボルは次のiterationはそのまま値をコピーするということを全シンボルについてiterationが止まるまで行っている。
(transformerのmulti-head self attentionの後のFFNは、シンボルごと)
この機構により、計算量削減に加え、精度向上。
色々なアルゴリズム、言語理解タスクでいい結果、翻訳でvanilla transformer, lstmよりいい精度、bAbI
linguistic reasoning taskとLAMBADA language modeling taskでSOTA。
Mostafa Dehghani∗
†
University of Amsterdam
[email protected]
Stephan Gouws∗
Google Brain
[email protected]
Oriol Vinyals
DeepMind
[email protected]
Jakob Uszkoreit
Google Brain
[email protected]
Łukasz Kaiser
Google Brain
[email protected]
https://arxiv.org/pdf/1807.03819.pdf
2018
Yizhou Zhang1 Yun Xiong*1,2 Xiangnan Kong3 Shanshan Li4 Jinhong Mi1 Yangyong Zhu1,2
1Shanghai Key Laboratory of Data Science, School of Computer Science, Fudan University, China
2Shanghai Institute for Advanced Communication and Data Science, Fudan University, China
3Worcester Polytechnic Institute, Worcester, MA, USA
4School of Computer, National University of Defense Technology, China
https://arxiv.org/pdf/1606.09375.pdf
www2018
RNNやCNNを使わずAttention機構だけを用いたTransformerというモデルの提案。
翻訳において、SOTA(かつ計算コスト低い)を達成。
また、他のタスクへの一般化を評価するために行なったconstituency parsing(構成素解析?)でも、設定は翻訳の時のベースモデルとほぼ一緒で既存モデルを上回った。
他のタスクへの適応も期待できる。
参考
https://arxiv.org/pdf/1706.03762.pdf
Ashish Vaswani∗
Google Brain
[email protected]
Noam Shazeer∗
Google Brain
[email protected]
Niki Parmar∗
Google Research
[email protected]
Jakob Uszkoreit∗
Google Research
[email protected]
Llion Jones∗
Google Research
[email protected]
Aidan N. Gomez∗ †
University of Toronto
[email protected]
Łukasz Kaiser∗
Google Brain
[email protected]
Illia Polosukhin∗ ‡
[email protected]
2017
attentionのglobal approachとlocal approachの提案,検討.
global approachは(Bahdanau et al., 2015)をよりシンプルにしたもの.
local approachは(Xu et al., 2015)で提案されたsoftとhard attentionのblend.
https://arxiv.org/abs/1508.04025
Minh-Thang Luong Hieu Pham Christopher D. Manning
Computer Science Department, Stanford University, Stanford, CA 94305 {lmthang,hyhieu,manning}@stanford.edu
言語モデルに対してInductive transfer learningを効果的に行う手法Universal Language Model Fine-tuning(ULMFiT)の提案。6つのテキスト分類タスクにおいて、SOTAでしかも必要サンプル数が少なく効率的であることを示した。
computer visionにおいては、Imagenet, MS-COCOなどで事前学習したモデルを用いて、object detection, segmentation, classificationなどにinductive transfer learningを行うことで、大きな成果を残してきたが、NLPではこのような事前学習がうまく行われておらず、word2vecやELMoなどの特徴量としてうまく取り出す手法がインパクトを残すにとどまっている。CVにおいてのように、モデルをいい感じで初期化することで精度・効率を大きくあげることが理想。
→ ULMFiT
UNIFiTの構成
wikiなどでLMを学習させる。モデルには、AWD-LSTM (SOTA?)を用いる。
Discriminative fine-tuning
SGDを行うときに、全レイヤー学習率を同じにするのではなく、最終層から第1層に向かってだんだん小さく設定する。(最初の方の層はより一般的な性質を捉えているからあまり変えなくていい)
Slanted triangular learning rates
Jeremy Howard∗
fast.ai
University of San Francisco
[email protected]
Sebastian Ruder∗
Insight Centre, NUI Galway
Aylien Ltd., Dublin
[email protected]
https://arxiv.org/abs/1801.06146
ACL 2018
Information Retrievalの基本からニューラルネットによるモデルまでの概観を説明したチュートリアル的な論文。
※上記3項目は、基本的にはラベルは0, 1
TF-IDF
documentにおけるquery termの出現数:term frequency
そのquery termの出てくるdocumentの頻度:inverse document frequency
queryに出てくる単語がdocumentにいっぱい出てきてかつそれらが他のdocumentにはあまり出てこない時にqueryとdocumentの関連度は高いと考える。
有名なranking function:BM25
Language Model
documentを、事後確率p(d|q)でランキング。
→(10):document dからランダムにサンプルされた単語でqueryが生成される確率。
((12)では、dだけからだと母集団の単語が少ないので、Dも使ってsmoothing)
TF-IDFもLMも関連度を文書内のqueryに出てくる単語のカウントで出している。
出てくる場所や他の単語との関係は無視
以下の3つはこれらのどちらかを考慮
Translation Model
queryがdocumentから”翻訳されて”生成されると仮定
文書内のqueryには出てこない単語との関連性を”翻訳”を利用して考慮できる。
(queryの単語とdocumentの単語のペアは、SMTと同じ手法で学習できる。)
Pseudo relevance feedback (PRF)(擬似適合フィードバック)
検索を2回行うことで精度を高める。
1回目の検索で出てきた結果の文書を使ってquery(の言語モデル)を拡張し、もう1度検索を行う。
documentのスコアリングは、以下のようにKL divergenceでqueryとdocumentの言語モデルの分布を比較する。(Tは全vocabulary)
PRFなしでは(及び第一iterationでは)、
第2段階では、(RM3という有名なものの定式化)
第一項は、queryに単語tが何回出てくるか、第二項は、1回目の検索で取ってきた各文書dにtが何回出てくるか的なことを表している。
query拡張により、vocablaryのミスマッチ問題に対してロバストになる。
マイクロブログ検索に有効らしい。
上のtraditional IR modelとは違い、機械学習ベース。L2Rにおいて、query-document pairはベクトルで表され、それを入力とするモデルによって、scoreに変換される。
目的関数による3つの分類
有名な例
他にもあるが、以下の2つは特に、使う特徴量によりどちらを重視した表現となるかを意識する必要がある。
explicit representation (highly sparse and high-dimentional)からembedding (dense and low-dimentional)により、可読性は下がるが、単語関係が密になり一般化されることでパフォーマンスは上がる。
AWE ( average word embedding)
個々の単語からquery, docmentのベクトルを得る方法として、シンプルに平均をとるのがポピュラー
このとき、term embeddingがtopicalかtypicalかが効いてくる
LSA, Doc2vec : topical
word2vec, glove : topicalとtypicalのmix
(word2vecは、小さいwindow size, short textだとよりtypical)
DESM (dual embedding space model)
NTLM (Neural Translation Language Model)
sec2.5のtranslation modelのtermの関連度を求めるところにembeddingを活用
GLM (Generalized Language Model)
sec2.5のlanguage modelのアプローチをembedding用に拡張
WMD (word mover's distance)
earth mover's distanceでterm embeddingの集合としての2文書間の距離を算出
最終的に、NWT (Non-linear Word Transportation model)がこの概念を、queryとdocument間の関連度の導出に組み込んでいる。
Telescoping evaluation
embedding系はfull document collectionに対して検索するときはしばしば微妙
→ exact matchingとembeddingは間違えるところが違う
→ exact matchingなど他手法で抜き出したものをembeddingでrerank(このようなchainな手法をtelescopeという)
query expansion
embeddingを使ってqueryを拡張し、それを使って検索する。
→ 単体だとPRFより悪いが、PRFとtelescopeで組み合わせることで精度が上がる。
query specific term embeddingを使ってquery expansionするとより効果的
auto encoderで隠れ層が0, 1をとるようにして、文書が圧縮後も0, 1のベクトルで表されるようにする。
→ 検索時にqueryをhash化(0, 1のベクトル?)し、素早く検索して引っかかったものを別モデルでsort(The Semantic Hashing Model)
この手法では、IRタスクに対して最適化していないので、目的に合う表現を得るためにquery-document pairでauto encoderを訓練するという方法がある。
主に文書のタイトルなどのshort textとqueryに使われるが、最近ではlong documentに対しても結果がでてるっぽい。
siameseでもデータによってsimilarityの違いはあり、CDSSM(Convolutional Deep Semantic Similarity Model)でquery-document pairを使ったときはよりtopicalだが、queryのprefix-suffix pair(queryの前半と後半)を使ったときはtypical。
ちなみにprefix-suffixは、query-auto-completion(途中まで打ち込まれたものからその先のsuggestionをする)のスコアをつけるために、siameseを用いてprefix, suffixを別で通してマッチングさせるときなどに使われる。
neural IR modelの多くは、よりよいテキスト表現を得ることにフォーカスしているが、レアな単語の表現はうまく学習しない。
→ lexical matchもdeepなモデルにうまく組み込まれなければ
→ duet architectureでlexical matching modelとsemantic matching model両方を考慮など
traditionalなもの(lexical系?)とneural系(semantic系?)で得意領域が違う
その時々のcontextからqueryの意味を推察できるのが理想
→ モデルに全知識を詰め込むことはできない
→ ある程度の知識はもち、プラスで現在のqueryに関係のあるdocumentを読んでqueryに条件づけを加えるような仕組みが理想かも
Bhaskar Mitra
Microsoft, UCL∗
Cambridge, UK
[email protected]
Nick Craswell
Microsoft
Bellevue, USA
[email protected]
https://arxiv.org/pdf/1705.01509.pdf
2017
ある程度大規模なデータセット(One Billion Word Benchmark dataset)に焦点を当てて、Language Modelingを調査・まとめた論文(RNNベース)。
単一モデル、アンサンブルモデルそれぞれでSOTA。
語彙数が多い時、softmaxの全embedingとcontext vectorの内積の計算コストが非常に高い。
そのため、Noise Contrastive Estimation(NCE)、Importance Sampling(IS)を利用する(階層ソフトマックスはこの論文では調べてない)。
NCEとISは繋がりが強く、
ISの方がいいっぽいのでISを用いる。(NCEでは更新が各単語独立だが、ISでは互いに影響を及ぼすから)
モデルへのinputだけではなく、softmax層にもcnnによるcharacterの埋め込みを利用する。
対象の単語のembeddingを、その都度CNNでcharacterから計算し利用することでパラメータを削減できる。
ただ、そのままだとスペルが似ていて意味が違うものをうまく扱えないため、
とすることで精度が向上する。
また、out of vocabraryにも容易にスコアリングできるメリットもある。
単語の出力の際にLSTMで1つずつcharacterを出力するようにする。
これはうまくいかなかった。
Rafal Jozefowicz [email protected]
Oriol Vinyals [email protected]
Mike Schuster [email protected]
Noam Shazeer [email protected]
Yonghui Wu [email protected]
Google Brain
https://arxiv.org/pdf/1602.02410.pdf
2016
Chengyue Gong1
[email protected]
Di He2
[email protected]
Xu Tan3
[email protected]
Tao Qin3
[email protected]
Liwei Wang2,4
[email protected]
Tie-Yan Liu3
[email protected]
1Peking University
2Key Laboratory of Machine Perception, MOE, School of EECS, Peking University
3Microsoft Research Asia
4Center for Data Science, Peking University, Beijing Institute of Big Data Research
https://arxiv.org/pdf/1809.06858.pdf
NIPS2018
Zhiguo Wang and Haitao Mi and Abraham Ittycheriah
IBM T.J. Watson Research Center
Yorktown Heights, NY, USA
{zhigwang, hmi, abei}@us.ibm.com
https://arxiv.org/pdf/1602.06797.pdf
CoNLL 2016
画像から,雨・雪の影響を取り除くGAN(ID-CGAN)の提案.
skip connectionを2skipごとに
ganは訓練時不安定になりやすく,noisy or incomprehensibleな結果を出力しやすい
← 新しいinputがtraining sampleの分布から来たものでない可能性
左input, 中output without perceptual loss,右output with perceptual loss
真ん中のnornal ganによる出力では多くの人工物が生成されてしまっている.
⇒ perceptual lossの導入
⇒ pixel-to-pixel Eucilidean loss, perceptual loss, adversarial loss(loss from D)を組み合わせる
https://arxiv.org/pdf/1701.05957.pdf
He Zhang, Student Member, IEEE, Vishwanath Sindagi, Student Member, IEEE
Vishal M. Patel, Senior Member, IEEE
heterogeneous networkにおける分散表現の獲得手法matapath2vec, matapath2vec++の提案。
deepwalkやnode2vecのように、random walkでサンプリングしたcontextに対してskipgram(+negative sampling)を適用して、分散表現を獲得する。
ただ、heterogeneous networkにおけるrandom walkでは、ノード数が多いノードタイプに偏ってしまう問題があるため、meta-path-based random walkを用いる。
meta-path-based random walkでは、あらかじめ決められたノードタイプの系列であるmeta-pathにしたがってrandom walkする。
meta-pathの例として、P(paper), A(author), V(venue)とすると、APAは共著関係を、APVPAは著者が同じ学会に参加したことを表す。
また、meta-pathは対称であり、最初と最後のノードタイプは同じになる。
metapath2vecでは、softmaxにおいてノードタイプの情報を無視しており、あるタイプのノードの学習の際に全てのタイプからnegative samplingを許容している。
そこで、タイプごとに分布を分けて学習を行う。
複数の実験で既存手法を上回る結果。
Yuxiao Dong∗
Microsoft Research
Redmond, WA 98052
[email protected]
Nitesh V. Chawla
University of Notre Dame
Notre Dame, IN 46556
[email protected]
Ananthram Swami
Army Research Laboratory
Adelphi, MD 20783
[email protected]
https://ericdongyx.github.io/papers/KDD17-dong-chawla-swami-metapath2vec.pdf
2017 KDD
http://www.cs.toronto.edu/~fritz/absps/transauto6.pdf
G. E. Hinton, A. Krizhevsky & S. D. Wang
Department of Computer Science, University of Toronto
2011
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.