読んだ文献についてIssueで共有する。
eightcard / thingswesaidtoday Goto Github PK
View Code? Open in Web Editor NEWThings we said today.
Things we said today.
読んだ文献についてIssueで共有する。
Mihalcea, Rada, and Paul Tarau. "Textrank: Bringing order into text." Proceedings of the 2004 conference on empirical methods in natural language processing. 2004.
PageRankやHITSのようなグラフによるランキングをテキストに適用し、教師無しでキーワードや文抽出を行った。
キーワード抽出でよく使われる頻度ベースの手法はほとんどうまくいかない。
教師あり学習の枠組みで取り組まれており、概要から語彙や統語情報を素性として使うことで性能を向上させ、概要を扱うことが大事と言っているが、Webテキストには概要がないため全文から抽出しないといけない。
窓幅内の共起をグラフとみたてて、名詞と動詞に限って頂点を追加し、ランクを計算する。
TextRankの応用として文抽出型の要約を提案。
重複文の前処理などをした後に、ランクを計算。
概要抽出の研究と比較するために、500の概要(CSやITのジャーナル)を入力、人手でタグ付けされたキーワードを正解として評価する。
窓幅2でSOTAとなった。
文抽出は単一文書要約として評価。
NグラムベースのROUGEで評価した。
TextRankのRecallの低さは、抽出するキーワードの数をテキストごとに計算して決めているからである。
品詞情報はTextRankでは重要(すべての単語を使うとえらく性能が低下した)。
文抽出については、要約タスクで評価したところ文のみを与えてTOP5のシステムとスコアが並んでいることを示した。
教師無しなので、ドメインが変わってもうまくいくと考えられる。
教師無しでキーワードやキーセンテンスを抽出できるというのは非常に有用な手段と感じる。
この時代になかった分散表現とグラフの組み合わせ技で何かできないかと思った(おそらく誰か研究しているのだろう)
Alessandro Checco, Jo Bates, and Gianluca Demartini. "All That Glitters Is Gold — An Attack Scheme on Gold Questions in Crowdsourcing." Proceedings of the Sixth AAAI Conference on Human Computation and Crowdsourcing, HCOMP 2018. 2018.
crowdsourcing で収集した micro-task の品質を担保するための一般的な方法として gold questions (正解が既知のタスク) に基づくものがある。gold questions に基づく手法では正しく crowd workers の能力を測定できるが、複数人で結託した crowd workes が現れると、容易かつ頑健に gold questions 検知攻撃が可能になることを示し、加えてこの攻撃の経済的・社会的影響について述べている。
この論文では、 gold questions based な品質管理手法を逆手にとって、お金を稼ぐために最低限正解にする必要がある gold questions を如何に精度よく検知できるかという問題に対して、ブラウザのプラグインと外部サーバを利用した攻撃方法を用いることで如何なるバッチで与えられる micro-task に対しても容易かつ頑健に gold questions を検知できることを示した。
Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv preprint arXiv:1810.04805 (2018).
すべての層で双方向のコンテキストを考慮したプレトレインモデルとしてBERTを提案。
後段に出力層を一層追加してファインチューニングすることで、様々なタスクで state-of-the-art を達成。
学習コーパスに工夫を加えている。
従来は、分散表現が素性として使われたり、ファインチューニングするが教師信号が必要だったりした。
BERTでは、一部をマスクしたものを入力させてそれを予測させたり、ある2文が連続するかどうかを与えて学習させたため、コーパスがあれば教師が不要となる。
GLUEのタスクで評価を行う。
ファインチューニングさせて評価する。
結果、すべてのタスクで比較している他のシステムより高スコアを出した(OpenAI, ELMoなど)
これまで言われているように、モデルの大きさ(パラメータの多さ)が性能に直結した。さらにパープレキシティも下がっている。
学習方法(トレーニング回数やLM)について様々な検証をしており、データが多く単語予測と文連続予測を行った方が性能がよい。
大きいデータでかつできる限りコンテキストを学習させることと、ファインチューニングで適用させることが大事なんだと思った。
医療用語資源の語彙拡張と診療情報抽出への応用
東山 翔平, 関 和広, 上原 邦昭, 医療用語資源の語彙拡張と診療情報抽出への応用, 自然言語処理, 2015, 22 巻, 2 号, p. 77-105
用語の追従が難しい医療分野において、素性に着目した医療用語の語彙拡張と、拡張された語彙を利用した診断情報の自動抽出を行った。
医療文書が電子化されたがテキストは構造化されていないため、重要な語句抽出が応用に求められる。
複合語がよく使用されるため単純な検索が厳しく、定期的な辞書のメンテナンスはコストを要する。
Linear-Chain CRFによる系列ラベリングで、症状や診断名の構成語彙を獲得し、それを使った症状・診断名抽出手法を提案する。
罹患の肯定・否定・推量や、家族の病歴などモダリティ属性が定義されており、素性として使う。
他には辞書素性や字種素性を利用している。
機械学習による抽出結果誤りは偏りがあるため、ルールで訂正。
語彙拡張は、症状・診断名が複数の医療用語から構成されていることが多いという特徴を用いる(水痘肺炎→水痘+肺炎)
主要語(単独で症状・診断名を示す)ものと修飾語(主要語に隣接して現れる語)の2種類と仮定する。
ルールベースによるマッチングを行う。(ノイズを減らすための語彙制限などあり)
修飾語はルールベースで病名マスターから取得する。
NTCIR-10 MedNLPのタスクの一つである診療記録から症状・診断名を抽出する「症状と診断タスク」を対象に評価する。
テストセットは医師が書いた架空の患者の病歴要約50文書を対象として、F値で評価する。
品詞素性が非常に有効 → 医療用語を構成する名詞を辞書登録するのが良さそう
アノテーションの誤りが性能低下→直したら向上するのか気になる
MedNLPのタスクを知らないのでなんとも言えないが、学習データに存在する語彙の抽出精度と未知の語彙の抽出精度をそれぞれ調べると面白そう。
データが少ない領域で、いかに有用な語彙を拡張するかという観点は非常に面白いです。
知識ベースの情報を言語モデルに取り込み、教師なし固有表現抽出を行ったところ、教師ありの state-of-the-art に匹敵する性能を達成した。
固有表現にはアノテーション済みのコーパスが必要であった。
この問題に対して、コーパスと固有表現辞書を用いて、コーパス内での潜在的な固有表現らしさを学習する方法を提案し、教師データ(アノテーション済みコーパス)が無くても同様の結果を得た。
下図は論文より引用した Knowledge-Augmented Language Model の基本的な単一方向のモデルの概略図である。
レシピのデータセットとCoNLL2003のデータセットを対象とする。
レシピでは原材料名に8種類の固有表現、CoNLL2003では4種類の固有表現のタグがある。
教師ありと同等の性能を達成。
追加実験から、知識ベースの量が重要だと主張している。
手法の細部までは理解できなかったが、言語モデルを拡張して固有表現タグが付与されるかもしれないことを、コーパスを用いてモデリングするのは面白い試みである。
気になるのは、追加実験で知識ベースの量が重要だと主張していることである。
単に知識ベースに含まれる語彙に対してランダムにタグを付与した場合のスコアも比較したいところである。(Table 4ではWikiText-2でCoNLL2003の8割近くの固有表現を含んでいるようである)
言語モデルがタグを考慮して学習できているかどうかをより示せるのではないかと思う。
パープレキシティは小さいため、言語モデルとしては優秀なのだと思われる。
scene text detection のタスクにおけるアンサンブル手法の提案。
三つのモデルも用いてどれが正しい予測ができるかを学習させ、そのエンジンにだけ予測をさせることでSOTAを超える結果を得られる。
アンサンブルは有力な手法ではあるが、scene text detection は文字列座標が出力であるので分類問題のように多数決などの単純な手法が使えない。またアンサンブルは複数のモデルを動かさないといけないという実運用上の問題がある。
提案手法(Predictive Ensemble
Learningで学習させるのは X:入力画像、Y:正しい予測をしたモデルのインデックス。
複数のモデルが正解することがあるのでマルチラベル問題。いずれも不正解の場合はすべて0。
これにより、画像を教師アリ分類している効果が得られる。人手では難しいが、モデルの性能を指標として分類したことになる。
ベースはVGG16。詳細な学習パラメタが書かれていて、再現性が高そう。
正解矩形との IOU が 0.5以上のものを正解とし、precision・recall・F値で従来手法と比較。
とくにF値で安定したスコアを出して、安定感があるように見える。
計算リソースを無駄に増やさないという点であまりないアンサンブル手法。
複数OCRを使う場合に有効に思える。
アイデアが理解しやすく手法は難しくなく、応用に幅がある。
モデルの学習パラメタや、過去文献等情報が丁寧に書かれていて、scene text detection 調査の入り口の論文としていい。
例:Issueの例です。参考にしてください。
髙橋 寛治 , 糟谷 勇児 , 真鍋 友則 , 中野 良則 , 吉村 皐亮 , 常樂 諭, デジタルプラクティス,9(4),808-822 (2018-10-15) , 2188-4390
クラウド名刺管理サービスのデータ化におけるクラウドソーシングの紹介、およびワーカの作業効率や精度を上げるための施策とその効果や考察について、実際の事例をまとめたもの。
情報処理技術だけだと100%の精度を達成できずビジネスが成り立たない。
名刺データ化において、個人情報に配慮したクラウドソーシングを活用することで、課題を解決する。
スパム対策として、実際にワーカに対してダイアログを表示し、その前後の精度の確認を行う。
作業単価と処理量の関係を明らかにするために、単価に対するワーカの人数やマッチ(同じ回答が複数ワーカから得られる)が増えるかどうか評価。
マッチについて冗長化かのうかどうか、マッチ数を変化させて、ミス件数を評価。
賃金が低いほど作業をすぐやめてしまう。
今回の実験では賃金が高いほど作業を継続するという裏を示すことができた。
実際の現場で適用されているクラウドソーシングであるため改めて見ても面白い(自分で書いていてアレですが)
Chandra Bhagavatula, Sergey Feldman, Russell Power, Waleed Ammar, Content-Based Citation Recommendation, Proceedings of NAACL-HLT 2018, pages 238–251, June 1 - 6, 2018.
コンテンツベースで学会原稿の引用をレコメンドする。
入力文書をベクトル化し、文書間の比較により候補を取り出す。
メタデータを利用せずにレコメンドを行う。
似た文書の取得と、リランキングの二段階に分けて問題を解いている。
ランキングでは、ある2文書の引用され度合いを推定する。
DBLPとPubMedを対象に既存手法と比較。
評価指標はMean Reciprocal Rank, F1@20。
メタデータ無しでレコメンドできるのが重要な点。
グラフと比べて軽量なアルゴリズム。
文書を突っ込むだけでいいのがいい点(再学習などはとりあえずやらなくてもOK)。
高速かつメタデータなく、レコメンドできるのは有用に思う。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.