kyoichi001 / hanrei-fishbone-rulebase Goto Github PK

View Code? Open in Web Editor NEW

1.0 1.0 0.0 250 KB

Python 99.78% Batchfile 0.22%

hanrei-fishbone-rulebase's Introduction

判例フィッシュボーン

裁判例検索で入手した判例のpdfからフィッシュボーン図を作成する研究です。

環境

構成

現在大きく分けて2つのプログラムがあります。

pdfからtextを抽出し、jsonファイルに変換
jsonファイルから時系列情報を抽出

係り受け解析結果からイベントを抽出

CaboChaで係り受け解析を行い、その結果をもとにイベントを抽出する。

`process_data.py`

係り受け解析結果と、PDFの抽出結果を結合し、プログラムで扱える形に変換します。

`mark_data.py`

結合したデータにある、文節に属性を付加させます。

付加させる属性

属性名	説明	type
`is_rentaishi`	連体詞かどうか	`bool`
`person`	人物	`{text:string}`
`time`	時間	`長いので別途記述`

属性 : 連体詞

その文節が、体言を含む文節に係る文節かどうかをDFSで判定。

時間や人物が連体詞なら無視するようにするために使用。

属性 : 時間

その文節に時間表現が含まれるかどうかを正規表現で判定。正規表現のルールはjsonで記述。

現在単語単位でテキストを判定。

{
    "type": "point"|"begin"|"end"|"other",
    "text": string,
    "value": number?
}

value は type が point のときのみ。

`point`

一点を表す時間表現。

`begin`

「～から」「～以降」のように、区間の開始を意味する表現。それ単体では時間を表してはいない。

`end`

「～まで」「～以前」のように、区間の終了を意味する表現。それ単体では時間を表してはいない。

`other`

「～頃」のように、時間に付加される区間以外の表現。

属性 : 人物

その文節に人物表現が含まれるかどうかを正規表現で判定。正規表現のルールはjsonで記述。

現在単語単位でテキストを判定。 被告 か 原告 が含まれる単語を人物として検出。

{
    "text":string
}

`extract_events.py`

文節の属性をもとに、イベントを抽出します。

イベントの条件に会う時間、人物、行動をそれぞれ抽出し、一つのイベントとして紐づけます。

抽出 : 時間

連体詞でない時間について抽出。区間について適切に抽出。

抽出 : 人物

連体詞でない人物について抽出。

抽出 : 行動

イベントとして抽出できた人物を基準に、順番に文節を見る。次の時間表現、人物、文末が来るまでの文節を行動として抽出。

hanrei-fishbone-rulebase's People

Contributors

Stargazers

Watchers

hanrei-fishbone-rulebase's Issues

json内の文節に人物 or 時間かどうかのフラグを付ける

bunsetsu : [
  {
    "id":0,
    "text":~~~~,
    "parent":0,
    "is_time":false,
    "is_person":false,
  }
]

のように

時間表現が連体詞でも、連体詞でない時間表現に隣接していれば抽出する

～～から～～まで
など

判例の構造化についてかっこの分離をXMLを使って行う

判例の文からかっこを分離するとき、jsonにして挿入位置や文のIDを保存するのではなく、XMLを使い、復元や分離がしやすいようにする。

例：

<text id="0">～～は<serif id="1">「～～」</serif>といった。<kakko id="2">（＊＊＊）</kakko></text>

XMLにするのは文だけで、ヘッダーなどはそもままJSON

例

{
  "contents" : [
    {
      "header" : "***",
      "header_type" : "***",
      "texts" : [
        "<text id=\"0\">～～は<serif id=\"1\">「～～」</serif>といった。<kakko id=\"2\">（＊＊＊）</kakko></text>" ,
        ...
      ]
    },...
  ]
}

判例抽出のための追加学習データ作成

既存のライブラリで固有表現抽出するだけでは、精度に問題がある。
そのため、追加で学習データを作成し、精度を向上させる必要がある。

タグの付与の仕方については問題がある。以下のissue参照

固有表現抽出の際、出来事として適切かの判定まで一緒に行うか否かについて

固有表現抽出のタスクで、単語に対して「人物」か「時間」かの情報を付与することは比較的簡単であることは分かった。
しかし、その「人物」が出来事として適切かどうかについてどちらの手段を取ろうか迷っている。

固有表現抽出のタスク中に行うべきなのか
タグが付与された後のデータについてフィルタリングするべきなのか

例えば、

その「人物」の起こした行動について～～～だと感じた

というときの「人物」は出来事の主体としては不適だろう。

このような場合にタグを付与しないことを学習できるのか確証が得られていない。

学習データ作成の際の出来事にそぐわない単語のタグ付与の有無

例えば、

原告の私物

のように、明らかに出来事の主語でない場合にも人物としてのタグを「原告」に付与するべきなのかについて

出来事として抽出するのに適したものだけ学習したいのであれば、付与するべきでない
しかし、既存のモデルを使う場合、モデルは人物に該当する単語をすべて抽出するよう学習されているため、出来事に適しているかの学習は精度に影響する可能性がある

行動を抽出する際別の時間表現があったときに抽出を中断する

先行研究の調査

固有表現抽出のために、どのようなデータを作成するべきなのか
人物のした行動について抽出できるのか
どのような学習手法を使うべきなのか

について、先行研究を調査するべき。

時間表現となる文節が隣接している場合統合する

「～日から」「～日まで」
「～日から」「～日まで」「の間」

など
このように時間表現の文節が隣接している場合は統合しても問題なさそう