mlpnlp / mlpnlp Goto Github PK

機械学習プロフェッショナルシリーズ深層学習による自然言語処理

Home Page: https://sites.google.com/view/mlpdeeplearning4nlp

License: Apache License 2.0

mlpnlp's Introduction

機械学習プロフェッショナルシリーズ深層学習による自然言語処理

このページで正誤表を管理します。書籍の誤植等を見つけられた方は https://github.com/mlpnlp/mlpnlp/issues にIssueを作ってお知らせいただけると幸いです．

issue	報告者	ページ	修正前	修正後	修正済版
#1	shirayu様	p. 113	noise contrasive estimation	noise contrastive estimation	第2刷
#2	tam17aki様	p. 40	「... この仮定を時間ごとに異なるパラメータを使うモデルに比べてパラメータ数が減り、...」	「... この仮定により時間ごとに異なるパラメータを使うモデルに比べてパラメータ数が減り、...」	第3刷
#3	@stomohide様	p. 36 式(2.62)			第3刷
#4	eiichiroi様	p. 109 式(4.35)			第3刷
#5	tomohideshibat様	p. 92 式(4.4)			第4刷
#5	tomohideshibat様	p. 94 式(4.7)			第4刷
#6	tomohideshibat様	P.92 最終段落	ほとんど最初の3単語のみの情報	ほとんど3番目の入力単語のみの情報	第4刷
#7	shirayu様	P.24 最終段落	必ず微分係数が1以上になります	の微分の絶対値が小さくても全体の微分係数は1に近い値になります	第4刷
#8	himkt様	P.10 式(2.5)			第4刷
#9	yuutat	P.146-148 図5.6, 図5.7, 図5.8 符号化器	(緑の箱が実線)	（緑の箱は点線。ただし、入力の１つ目だけは実線）	第4刷
#10	yuutat	P.166 図 6.3 凡例	「訓練データでの誤差」が青線、「訓練データ以外での誤差」が黒線	「開発データでの誤差」が青線、「訓練データでの誤差」が黒線	第4刷
#11	scapegoat06様	P.29 3段落目	入力列全体	入力列全体	第4刷
#13	arumtaunsaram様	P.79 (4) 復号化器再帰層	復号化器埋め込み層の処理に対する入出力は	復号化器再帰層の処理に対する入出力は
#14	ysekky様	P.100 一般化	genelarization	generalization
#16	ysekky様	P.106 4.2.4節	sementic memory module	semantic memory module
#18	ktphy様	P.68 式(3.22)		(exp 抜け)
#21	dkawahara様	P.32 4行目	対処できるます	対処できます
#23	murawaki様	p.137 下から10行目	連結します関数concat	連結します．　関数concat
#24	murawaki様	P.53 式(3.14)
#24	murawaki様	P.54冒頭
#24	murawaki様	P.55 式(3.15)
#26	dkawahara様	P.100 4.2.1節 2行目	モデル考えます	モデルを考えます
#28	dkawahara様	P.104 4.2.3節下から２行目	質問文 q	質問文 q
#29	dkawahara様	P.107 4.2.4節下から２行目	ベクトル使って	ベクトルを使って
#31	dkawahara様	P.154 5.4.1節最下行	文のベクトルを単一のベクトルに符号化します	文を単一のベクトルに符号化します
#32	krxross様	P.208 7.5.1節 5行目	ReLU関数は０の周辺で不連続に変化します	ReLU関数の微分は０の周辺で不連続に変化します
#32	krxross様	P.208 7.5.1節 11行目	不連続な点をまたがないように	微分不可能な点をまたがないように
#33	tezoooka様	P.102 4.2.2節上から２行目	内部情報とし扱います	内部情報として扱います
#35	taku-buntu様	P.14 参考2.2 最下段	期待があるのだと思いますの	期待があるのだと思います
#38	kamujun様	P.132 5.2.1節	test summarization challenge (TSC)	text summarization challenge (TSC)
#20	1an9ua9e様	P.117 4.3.5節
#25	murawaki様	p.102 4.2.2節下から4行目	`m_1, m_2`	`m_{o_1}, m_{o_2}`
#39	Isa-rentacs様	P.202 アルゴリズム7.2	`k = rN`	`k = \lfloor rN \rfloor`
#36	taku-buntu様	P.22 式2.29の右辺第二項
#15	ysekky様	P.92 式（４.３）の上の文	復号化器が $j$ 番目の単語を推定するときに，符号化器の $i$ 番目の状態ベクトル $\boldh^{\rm(s)}_i$ の重要度を示すスカラー値の重みを $a_i \in \mathbbR$ とします．	復号化器が $j$ 番目の単語を推定するときに，符号化器の $i$ 番目の状態ベクトル $\boldh^{\rm(s)}_i$ の重要度を示すスカラー値の重みを $a_{i,j} \in \mathbbR$ とします（以降では簡略化のため $a_i$ ）．
#34	scapegoat06様	P.102 式（４.20）と直前の文	まず，入力情報変換では文（ここでは単語列とします）を $D$ 次元ベクトルに変換します．様々な変換の方法が考えられますが，単純に埋め込みベクトルの和の形で変換します． (4.20) 次に，一般化では単純に新しい記憶情報を追加します．これは，知識源として入力された記憶情報を $\bm{m}_N$ にと代入するだけです．	入力情報 $x$ は入力情報変換によって前処理などを施されて$I(x)$として扱います．　次に，一般化では単純に新しい記憶情報を追加します．　これは，知識源として入力された記憶情報を以下のように代入することに相当します。 (4.20)　ただし，以降では単純な実装を想定し，入力 $x$ はそのままと代入するものとします．
#34	scapegoat06様	P.102-103 の x出現位置すべて	x (bold)	x
#41	f-okuya-pro8様	P.67 8行目	考てみます	考えてみます
#42	f-okuya-pro8様	P.187 8行目	精度の少ない	精度の低い
#43	f-okuya-pro8様	P.187 11行目	「狭まく	狭く
#44	f-okuya-pro8様	P.192 15,16行目	最大文長よりも大きい	最大文長以上の
#45	f-okuya-pro8様	P.204 10行目	連鎖率	連鎖律
#46	f-okuya-pro8様	P.207 7.5.1 2行目	後ろ処理	後ろ向き処理
#48	mamoruitoi様	P.18 式(2.19) 下文	$i \in \{1, \ldots, \|{\cal D}\|\}$	${\rm n} \in \{1, \ldots, \|{\cal D}\|\}$	第7刷
#49	totuta様	P.13 図2.1	$h_1^{\rm (l-1)}$ から $W_{12}^{\rm (l)}$ へ、 $h_2^{\rm (l-1)}$ から $W_{21}^{\rm (l)}$ へ矢印	$h_1^{\rm (l-1)}$ から $W_{21}^{\rm (l)}$ へ、 $h_2^{\rm (l-1)}$ から $W_{12}^{\rm (l)}$ へ矢印	第7刷

mlpnlp's People

Contributors

Stargazers

Watchers

Forkers

sabirdvd tomohideshibata

mlpnlp's Issues

p102の内部表現への変換の記述について

いつもお世話になっております。この本で勉強させてもらっています。

まず(4.20)ですが、ここではEは単語の埋め込み行列で, xは単語列中の単語(に対応するone-hotベクトル)であると思われますが、関数Iのdomainは文では無いでしょうか？関数Iの型がI :: [Char] -> R^Dという風に記述から読み取れますが、これではI :: Char -> R^Dのように見えます。
以下のような表記になるのでは無いかと思うのですが、どうでしょうか(N_sはs番目の文の長さです)。

次にp102の上から3行目から、m_iはR^Dの元のはずですが(4.20)の下の、m_N <- xとあります。
ここで混乱しているのですが、xは何を指しているのでしょうか？
上で議論していた単語列中の単語(に対応するone-hotベクトル)であるならば、xがR^Dであることに関して言及されておらず、単語列そのものを指している(xではなくX)ならm_NにR^Dの元以外を代入しているため矛盾します。
I(X)であるならば、ここまでの議論では納得できますが、今度は(4.24)の関数sの定義で混乱が生じます。
というのも、関数\Phiは入力情報をD次元の特徴ベクトルに変換する関数とありますが、(4.21)や(4.22)では関数sの第二引数はm_iとなっているためすでにR^Dの元なので関数\Phiは恒等関数以外の解釈ができません。

また、(4.21)や(4.22)のも同じくxの代わりにXを使用するべきでは無いかと思います。

全体的にp102の上から3行目、m_iはR^Dの元という記述から混乱が生じているように思います。

p.187 誤記

11行目「狭まく」→「狭く」

p 14 誤植

p14の参考2.2内の最下段

誤：期待があるのだと思いますの
正：期待があるのだと思います

「の」が不要

p121 誤記

3章 P_{model}(y_t^{(n)}, Y_{[a,t-1]}^{(n)}

式(3.14) が同時確率っぽい P_{model}(y_t^{(n)}, Y_{[a,t-1]}^{(n)} となっていて、
条件確率 P_{model}(y_t^{(n)} \mid Y_{[a,t-1]}^{(n)} となっていないことに理由はあるのでしょうか?

同時確率っぽい式は p.54, p.55 (式(3.15)) にも出てきます。

p102 誤植

上から２行目
語）内部情報とし扱います.
正）内部情報として扱います.

４刷です。

p.187 誤記

8行目「精度の少ない」→「精度の低い」

交差エントロピー誤差の説明について

P10の式(2.4)の２行下に交差エントロピーの式があります。これは、以下の通りではないでしょうか？
教科書：

正解と思われる式

このようにすると、式(2.6)とも整合的です。
（私の誤りでしたら、すみません。）

P105 sementic -> semantic

P105 4.2.4項におきまして

意味記憶(sementic memory module) となっておりますが
意味記憶(semantic memory module) のtypoかと思われます。

細かいところ申し訳ありませんが、ご確認よろしくお願いいたします。

p.137 typo: 連結します関数concat

p.137 下から10行目
誤: 連結します関数concat
正: 連結します．関数concat

4章 p.102 m_1, m_2

p.102 下から4行目: m_1, m_2 は m_{o_1}, m_{o_2} でしょう。

p.34 式(2.56)

式(2.56)のg_jは、j=iからではなく、j=i+1からではないでしょうか?

p.192 誤記

15〜16行目「最大文長よりも大きい」→「最大文長以上の」

復号化器再帰層の説明(第1刷 p.79)

(4) 復号化器再帰層に続く「..復号化器埋め込み層の処理に対する入出力は以下のよう..」が、「..復号化器再帰層の処理に対する..」の誤植かと感じたのですが、どうでしょうか。

P68 Eq(3.22) exp 抜け

Eq(3.22)の第二項 \log( \sum \phi ) → \log( \sum \exp( \phi ) ) に修正

p.204 誤記

10行目「連鎖率」→「連鎖律」

P.132 誤植

5.2.1 歴史的背景
誤）test summarization challenge
正）text summarization challenge

第2刷です。

p.100 誤記

p.100 4.2.1 2行目:「モデル考えます」→「モデルを考えます」

p.13 図2.1 誤記

真ん中の２つの矢印が間違っていると思います。

P.117 式(4.61)について

１刷ではブラックアウトの項目(P.117)の中の式(4.61)は以下のようになっています。

これは式(4.60)で示された対数尤度をパラメータθで微分して導かれているものですが、この微分の計算が間違っているため、式(4.61)も間違った式になってしまっていると思います。具体的に修正すると以下のような感じになると思います。

p.154 ベクトル化についての説明

p.154最下行において「文のベクトルを単一のベクトルに符号化します」とありますが、「文を単一のベクトルに符号化します」の方がよいでしょうか?

Chapter7 7.5.1微分計算のデバック　p208　「不連続」

例題は、reluなので、不連続ではありません。
reluは、連続関数ですが、0で微分可能ではないです。

読む人は、困らない、細かい点ですが
「不連続な点をまたが無いようにテスト対象のデータを設計する必要があります。」とある部分の
不連続は、数学的に正確な表現ではないと思われます。

なので、不連続でも注意しなければならないですが
微分可能でないことも、注意する必要があります。

p.104 誤記

p.104 下から2行目:「質問文q」のqをboldに

p.18 式(2.19) 誤記

x⁽ⁿ⁾→x⁽ⁱ⁾
y⁽ⁿ⁾→y⁽ⁱ⁾
こちらの理解が間違っていたら申し訳ありません……。

enhancement: bi-RNNの出力

2.6.2 では bi-RNN の前向き隠れ状態と後向き隠れ状態を concat して使っています。
一方 5.1.2 の機械翻訳の実装例では element-wise addition を行っています。
いま OpenNMT のソースを見ると、オプションで concat と sum (element-wise addition) を切り替えられるようになっていました。
https://github.com/OpenNMT/OpenNMT/blob/master/onmt/modules/BiEncoder.lua
昨今は concat の方が一般的ではないかと思います。
読んでいてちょっと引っかかるので、補足があると良さそうです。

P29の表記

p29の下の方にある
入力列全体(x₁,x₂・・・,T_x)は
入力列全体(x₁,x₂・・・,x_{T_x})の誤りではないでしょうか？
（下付き文字はおそらく時刻なので）

式(4.4)と式(4.7)の列方向の連結

式(4.4)と式(4.7)の一番下ですが、最初の「本書で用いる記号」によれば、列方向の連結は「,」ではなく「;」ではないでしょうか。
(ざっと見た限り、列方向の連結はこの2ヵ所しかなさそうです。)

p22誤植

式2.29の右辺第二項

誤：
正：

p.70 1行目誤記

1行目
P(H,y_{j}) ~ P^{D} → P((H,y_{j}) ~ P^{D})

こちらの理解が間違っていたら申し訳ありません…

P100 genelarization -> generalization

本書で勉強させていただいております。素晴らしい本を出版していただいたこと、お礼申し上げます。

表題の内容を第一刷で確認しました。
おそらくタイポではないかと思われます。ご報告させていただきます。

p.103 式(4.25)

p.103 式(4.25)の真ん中の項において、boldになっていないxをboldに

P.92の最終段落の記述

「ほとんど最初の3単語のみの情報」とありますが、「ほとんど3番目の入力単語のみの情報」でしょうか。
より正確には「ほとんど3番目の入力単語の情報とh_j^{(t)}(で出力を決める...)」だと思いますが、それは明らかかもしれません。

第3刷　P.202 アルゴリズム7.2　別名法による無作為抽出の方法

{f_1, ... , f_N} {a_1, ..., a_N}が与えられる
r ~ U(0,1)
k = rN
p = rN - k

とありますが、kは整数とされており、かつP.201の

この棒グラフ全体から等確率で1つを選択するということを行っています.

という点から、

k = ceil(rN)
p = rN - (k - 1)

ではないでしょうか。

p.107 誤記

p.107 下から2行目:「ベクトル使って」→「ベクトルを使って」

p.10の式(2.5)について

第1刷のsoftmax関数の分母に

\exp(o_y)

とありますが，これは

\exp(o_{\tilde{y}})

ではないでしょうか？

p.113のNCEに関するタイポ

NCEの正式名がnoise contrasive estimationとなっているが，
正しくはnoise contras*t*ive estimation

4章4.1.1の重み付き平均に関する表記について

本書で勉強させていただいております。素晴らしい本を出版していただいたこと、お礼申し上げます。

式4.3から一連の\bar{h}について，各単語ごとに違う重み付き平均ベクトルが用いられることを明確にするために\bar{h_j}と記載するほうが良いのではないかと思いました。

現状の表記では，すべてのjにたいして共通の\bar{h}が適用されるように解釈できてしまうと考えます。
それに関連して a_iもa_{i, j}、e_iもe_{i, j}として表記するほうが良いのではと思います。

このように変更した場合、以降も変更する必要がある点が多く、難しいかとは思いますが、ご検討いただければ幸いです。
以上よろしくお願いいたします。

p.40の記述

「... この仮定を時間ごとに異なるパラメータを使うモデルに比べてパラメータ数が減り、...」とありますが、「この仮定を」よりも、「この仮定により」ぐらいが適当ではないでしょうか。ちょっと自信がありませんが。

P102の一般化についての表記

P102の真ん中あたりの表記で
一般化での記憶情報の追加が

と表記されていますが
追加されるのは入力文xではなくて入力情報変換されたI(x)なので、

という表記が正しいのではないでしょうか？

P.70 ３箇所 : Eq(3.24) , Eq(3.25) 及び文中の説明

「また，確率モデルの形式は，式(3.23)とまったく同じ形です」→　まったく同じ形ではないのでは？
P^D' =1 - P^D
なので、似た形式で書いたとしても

で\phiの前の符号が異なる。
これに伴い
(3.25)式第二項の指数の中の符号も変更する必要がある.

また(3.24)の式の第1項と第２項の符号は同一ではないか?
以下の式を- log取るだけに思える。

もし上記の指摘が正しければ、
式(3.25)も同様に第1項と第２項の符号は同一になる。

冒頭で触れた箇所と合わせると式(3.25)第二項は以下のようになる

(訂正箇所強調)

式(2.62)のパラメータ行列

@stomohideさんのご指摘より引用
https://twitter.com/stomohide/status/871979229310615552

2.7.3のGRUの説明(P.36)の式(2.62)って行列をかけるのがぬけてないでしょうか。

p.67 誤記

8行目「考てみます」→「考えてみます」

P.146-148 図5.6-図5.8

応答復号化器の入力は最初の時刻(BOS)以外点線、出力は全て点線の箱で予測結果を入出力にしていることを示しているはずでしたが、全て実線となっていました。

を

のように修正いたします。

P.139の図

図中\tilde{y}_jは\tilde{y}'_j。

(パラメータ行列がEからE'に変わっていることに気づかず、nnlmの計算途中の\tilde{y}_jを持ってくるものだと誤解してしまった。)

P_jはp_j。

図中Y_{C,j}の意味は本文中などで特に説明されていない(読者が察することはできると思う)

となっていますが、式(4.33)〜式(4.39)の一連の流れを見ると、

$s(y) = \exp(f_{\theta}(\bold{x}, y))$

が正しそうです。

mlpnlp / mlpnlp Goto Github PK

mlpnlp's Introduction

機械学習プロフェッショナルシリーズ 深層学習による自然言語処理

mlpnlp's People

Contributors

Stargazers

Watchers

Forkers

mlpnlp's Issues

Recommend Projects

Recommend Topics

Recommend Org

機械学習プロフェッショナルシリーズ深層学習による自然言語処理