lonepatient / bert-ner-pytorch Goto Github PK

View Code? Open in Web Editor NEW

2.0K 13.0 426.0 498 KB

Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

License: MIT License

Python 99.18% Shell 0.82%

chinese nlp ner bert softmax crf span pytorch albert focal-loss

bert-ner-pytorch's Introduction

Chinese NER using Bert

BERT for Chinese NER.

update：其他一些可以参考,包括Biaffine、GlobalPointer等:examples

dataset list

cner: datasets/cner
CLUENER: https://github.com/CLUEbenchmark/CLUENER

model list

BERT+Softmax
BERT+CRF
BERT+Span

requirement

1.1.0 =< PyTorch < 1.5.0
cuda=9.0
python3.6+

input format

Input format (prefer BIOS tag scheme), with each character its label for one line. Sentences are splited with a null line.

美	B-LOC
国	I-LOC
的	O
华	B-PER
莱	I-PER
士	I-PER

我	O
跟	O
他	O

run the code

Modify the configuration information in run_ner_xxx.py or run_ner_xxx.sh .
sh scripts/run_ner_xxx.sh

note: file structure of the model

├── prev_trained_model
|  └── bert_base
|  |  └── pytorch_model.bin
|  |  └── config.json
|  |  └── vocab.txt
|  |  └── ......

CLUENER result

The overall performance of BERT on dev:

	Accuracy (entity)	Recall (entity)	F1 score (entity)
BERT+Softmax	0.7897	0.8031	0.7963
BERT+CRF	0.7977	0.8177	0.8076
BERT+Span	0.8132	0.8092	0.8112
BERT+Span+adv	0.8267	0.8073	0.8169
BERT-small(6 layers)+Span+kd	0.8241	0.7839	0.8051
BERT+Span+focal_loss	0.8121	0.8008	0.8064
BERT+Span+label_smoothing	0.8235	0.7946	0.8088

ALBERT for CLUENER

The overall performance of ALBERT on dev:

model	version	Accuracy(entity)	Recall(entity)	F1(entity)	Train time/epoch
albert	base_google	0.8014	0.6908	0.7420	0.75x
albert	large_google	0.8024	0.7520	0.7763	2.1x
albert	xlarge_google	0.8286	0.7773	0.8021	6.7x
bert	google	0.8118	0.8031	0.8074	-----
albert	base_bright	0.8068	0.7529	0.7789	0.75x
albert	large_bright	0.8152	0.7480	0.7802	2.2x
albert	xlarge_bright	0.8222	0.7692	0.7948	7.3x

Cner result

The overall performance of BERT on dev(test):

	Accuracy (entity)	Recall (entity)	F1 score (entity)
BERT+Softmax	0.9586(0.9566)	0.9644(0.9613)	0.9615(0.9590)
BERT+CRF	0.9562(0.9539)	0.9671(0.9644)	0.9616(0.9591)
BERT+Span	0.9604(0.9620)	0.9617(0.9632)	0.9611(0.9626)
BERT+Span+focal_loss	0.9516(0.9569)	0.9644(0.9681)	0.9580(0.9625)
BERT+Span+label_smoothing	0.9566(0.9568)	0.9624(0.9656)	0.9595(0.9612)

bert-ner-pytorch's People

Contributors

Stargazers

Watchers

Forkers

ares2013 easonfzw da-southampton chironma awesome-archive fighting41love kiminh jianfeidahai gao0505 guoyin90 dongcin cfx520 cdxjer yongshengwin shenyi666666 shibing624 greatgirltina teqkilla sxrczh andrewzhengxiao timothy1014 bisonx single430 zongke-zjut wangbq18 lichunnan bluan2019 greengrass2015 bapleliu zcdliuwei ren98feng aiedward awoziji panruidong shan6333 jackkuo666 chenjun0210 meiheforest wusongxu humdingers ancue ns2mitu weizaiff buringcarbon itgirls napoler chaohuazhang gzadigo shengqiang-zhang gokunwu songyhs moreinterest p3n9w31 victortowne lidingpku sxty4170160 barryzm jzwei023 yiyezhiqiuyanyi gaohuan2015 duanzhihua zhaoxvdong allenlmn rollben daishu7 lazykindman makerjj pauking shugrgr frederichriver qianrenjian qxiaobu yinmingjun emir-liu gokulsg zhangxt yxk9810 jxrjlxc02 lijia2019310 jinzijian andrew05200 hellosaferide jnupython mengqidyangge oahihs gongcq lilingtg zhaishengfang daniellin94144 yangp725 fangfang22-oss poccajknjkn castrol68 newlightlw wuyunxiangwyx keain jadensha huyanluanyu1949 sjx0451 howyoungchen

bert-ner-pytorch's Issues

运行run_ner_span,两个epoch就结束了，而且准确率很低？？是我的运行参数设置错误吗
07/25/2020 03:30:00 - INFO - root - ***** Eval results *****
07/25/2020 03:30:00 - INFO - root - acc: 0.5564 - recall: 0.1478 - f1: 0.2335 - loss: 0.2043
07/25/2020 03:30:00 - INFO - root - ***** Entity results *****
07/25/2020 03:30:00 - INFO - root - ******* address results ********
07/25/2020 03:30:00 - INFO - root - acc: 0.5385 - recall: 0.0563 - f1: 0.1019
07/25/2020 03:30:00 - INFO - root - ******* book results ********
07/25/2020 03:30:00 - INFO - root - acc: 0.6000 - recall: 0.0974 - f1: 0.1676
07/25/2020 03:30:00 - INFO - root - ******* company results ********
07/25/2020 03:30:00 - INFO - root - acc: 0.4541 - recall: 0.2354 - f1: 0.3101
07/25/2020 03:30:00 - INFO - root - ******* game results ********
07/25/2020 03:30:00 - INFO - root - acc: 0.6018 - recall: 0.6814 - f1: 0.6391
07/25/2020 03:30:00 - INFO - root - ******* government results ********
07/25/2020 03:30:00 - INFO - root - acc: 0.5000 - recall: 0.0405 - f1: 0.0749
07/25/2020 03:30:00 - INFO - root - ******* movie results ********
07/25/2020 03:30:00 - INFO - root - acc: 0.6875 - recall: 0.2185 - f1: 0.3317
07/25/2020 03:30:00 - INFO - root - ******* name results ********
07/25/2020 03:30:00 - INFO - root - acc: 0.4324 - recall: 0.0688 - f1: 0.1187
07/25/2020 03:30:00 - INFO - root - ******* organization results ********
07/25/2020 03:30:00 - INFO - root - acc: 0.6769 - recall: 0.1199 - f1: 0.2037
07/25/2020 03:30:00 - INFO - root - ******* position results ********
07/25/2020 03:30:00 - INFO - root - acc: 1.0000 - recall: 0.0139 - f1: 0.0273
07/25/2020 03:30:00 - INFO - root - ******* scene results ********
07/25/2020 03:30:00 - INFO - root - acc: 0.3333 - recall: 0.0144 - f1: 0.0275
然后就自动结束了

predict

最好的模型是存在outputs/cluener_output/bert/pytorch_model.bin还是在outputs/cluener_output/bert/checkpoint-XXXX/pytorch_model.bin,看了predict的代码有点疑惑

预训练模型

请问你这里的bert预训练模型用的哪里的，我用的huggingface的bert-base-chinese，不但训练效果差，而且代码也一直报vocab的索引对不上的问题。

预训练文件在哪里下载呢

从google-research下载到的chinese_L-12_H-768_A-12只有bert_model.ckpt vocab.txt bert_config.json
但我看代码需要的不是这种文件
OSError: Error no file named ['pytorch_model.bin', 'tf_model.h5', 'model.ckpt.index'] found in directory prev_trained_model/bert-base/bert-base-chinese or from_tf set to False

could you please update & add evaluate code? 可以更新提供一下eval代码吗谢谢大佬的工作

thanks to your great job! looking forward to update the eval code

RuntimeError: view size is not compatible with input tensor's size and stride (at least one dimension spans across two contiguous subspaces). Use .reshape(...) instead.

用4核CPU训练报以上错误，不知道怎么解决
@lonePatient

CLUENER结果复现不一致

你好。我采用script的run脚本中的超参数在单卡GPU上测试了下CLUENER的效果，各个模型都比你给出的数据低了1.5%左右。请问你README中的实验结果是用script下的超参跑出来的么？在几张卡上跑的结果？

loss不收敛问题

该问题依然存在，我并没有解决哟。link

optimizer和scheduler步进的次序反了

如题，不是个大问题，这个小问题在三个run_ner_xx.py里都出现了。以run_ner_span.py为例

BERT-NER-Pytorch/run_ner_span.py

Lines 166 to 167 in 4bae579

 scheduler.step() # Update learning rate schedule 

 optimizer.step()

这里最好还是将二者调个顺序吧~

self.init_weights()是重新初始化了bert的权重吗？

如果是的话，为什么要这么做

我想问下bert-base运行cner数据集的参数设置是怎样的？

BERT+Softmax | 0.9586(0.9566) | 0.9644(0.9613) | 0.9615(0.9590)

关于mrc-ner的一些细节

对于一句话不包含实体，或包含多个实体，是怎样处理的？

切分maxseq的时候，是如何切分本来在一个自然段的实体的？

eval时的算法，此时的 groundtruth（gold）数量并不准确，使得结果和标准的conll ner evaluate的脚本不一致，不同的算法使用不同的matric，是否有可比性？

DiceLoss 这个公式写的对吗，怎么理解呢

def forward(self,input, target):
    '''
    input: [N, C]
    target: [N, ]
    '''
    prob = torch.softmax(input, dim=1)
    prob = torch.gather(prob, dim=1, index=target.unsqueeze(1))
    dsc_i = 1 - ((1 - prob) * prob) / ((1 - prob) * prob + 1)
    dice_loss = dsc_i.mean()
    return dice_loss

论文中是
DSC（Xi）= (2(1-p)p*y + r)/((1-p)p + y +r)

請問有支援albert嗎

你好
感謝你分享代碼,請問目前有支援albert嗎？

无法运行run_ner_span用于cner任务

调用CnerProcessor会发生属性不匹配的问题，输入到InputExample中会有labels，但是InputExample不含有此属性

classifier为何使用与crf相同的权重学习策略？

BERT-NER-Pytorch/run_ner_crf.py

Line 61 in 4bae579

'weight_decay': args.weight_decay, 'lr': args.crf_learning_rate},

您好，请问为何在classifier使用与crf相同的权重学习策略呢？很好奇

what is the meaning of "kd" in BERT-small(6 layers)+Span+kd

how to predict a single sentence?如何输入单个句子，输出结果？

bert-base-chinese pytorch

能提供一下bert-base-chinese pytorch下载链接吗？谢谢

你好想问下dataset里的train.json 文件是什么

直接运行 sh run_ner_crf.py 出了如下错误：
Traceback (most recent call last):
File "run_ner_crf.py", line 496, in
main()
File "run_ner_crf.py", line 436, in main
train_dataset = load_and_cache_examples(args, args.task_name, tokenizer, data_type='train')
File "run_ner_crf.py", line 336, in load_and_cache_examples
examples = processor.get_train_examples(args.data_dir)
File "/home/wei/A_TestProject/BERT-NER-Pytorch-master/processors/ner_seq.py", line 204, in get_train_examples
return self._create_examples(self._read_json(os.path.join(data_dir, "train.json")), "train")
File "/home/wei/A_TestProject/BERT-NER-Pytorch-master/processors/utils_ner.py", line 75, in _read_json
with open(input_file,'r') as f:
FileNotFoundError: [Errno 2] No such file or directory: '/home/wei/A_TestProject/BERT-NER-Pytorch-master/datasets/cluener/train.json'

想请问下这个模型能用在 BIO 格式的数据集上吗？需要修改什么吗？

请问代码支持断点续训练吗？

代码写得非常好，非常感谢楼主分享
代码运行过程保存了很多ckpt
想请问支持断点续训练吗

我想问一下这个是什么错误

初始化模型报错

您好，我在运行代码至初始化模型处，在models/transformers/modeling_utils.py文件的358行报错：

运行代码，控制台仅输出 ”Process finished with exit code -1“
进入报错函数内部调试时，输出以下报错信息：

请问这是什么原因呢？
我的运行环境是 python3.6 pytorch1.2

非常感谢！

mask in crf

您好，

请问用attention_mask做crf的mask的话，一个word假设有多个sub tokens，那这些tokens都就都keep了。在bert for ner里面，是用一个词的第一个token做的classification。

https://github.com/lonePatient/BERT-NER-Pytorch/blob/master/models/bert_for_ner.py#L64
同时在decode的时候

BERT-NER-Pytorch/run_ner_crf.py

Line 210 in 38326e1

tags = model.crf.decode(logits, inputs['attention_mask'])

此处的mask也是attention mask。那么就会导致从CLS到SEP还有其中的所有token都会被keep，用于做decode。请问此处mask这样设置合理么？还是应该只保留每个word的第一个token呢？谢谢！

报错：内存溢出Segmentation fault (core dumped)？

您好！我在clone代码按照步骤运行的时候，报了代码溢出的错误，截图如下，请教下该如何让解决呢，非常感谢：

我想问一下cner这个数据集是从哪里来的？

BERT-SPAN 预测是大类的比如name org 并不包含B-name ....

BERT-SPAN 预测是大类的比如name org 并不包含B-name ....
如果预测B-name，, I-name.... 怎么处理？

在测试集上效果评测

只看到了在dev的acc recall等，在test上没有？

How to run model like BERT+Span+focal_loss...?

None

请问可以介绍一下BERT+Span吗？

您好，感谢分享代码！我对BERT+Span这个方法不太了解，可以分享一下相关论文吗？

你好，我这里有个疑问！

BERT-NER-Pytorch/run_ner_crf.py

Line 277 in 4bae579

preds = tags[0][1:-1] # [CLS]XXXX[SEP]

就是在predict的时候，为什么在crf的输出之后，你取了结果的[1:-1]呢？这个时候crf的输出的长度不应该是之前设置的max_seq_length的长度吗？这样取的话就不能表示去掉了[sep]这个标识符了？还是说在predict的时候，crf的输出是没有补到最大长度的？谢谢！

ner_seq.py", line 146, in convert_examples_to_features assert len(label_ids) == max_seq_length AssertionError

why I use my own data has error:

File "BERT-NER-Pytorch-master/processors/ner_seq.py", line 146, in convert_examples_to_features
assert len(label_ids) == max_seq_length
AssertionError

您好, 我想问一下 span 指针网络的出处

您好, span 指针网络一直找不到论文出处, 请问能告知一下吗, 想好好学习一下这个, 了解一下 intuition和 motivation

为什么“total_loss = (start_loss + end_loss) / 2”

BERT-NER-Pytorch/models/bert_for_ner.py

Line 124 in 13199ae

total_loss = (start_loss + end_loss) / 2

直接对两个loss加和除2的意义是什么呢，有没有论文可以参考呢？
我看ACL2020收录的论文"A Unified MRC Framework for Named Entity Recognition"里面为了计算start 和end的匹配，单独设计了一个span match的目标函数。这里除以2是想表达寻找距离最小的start和end的意思吗？

请问Bert-base里的added_tokens.json, special_tokens_map.json, tokenizer_config.json在哪里下载的

你好预训练模型可以换成roberta chinese吗

多gpu情况下的crf函数报错

02/25/2020 13:50:42 - INFO - root - ***** Running evaluation *****
02/25/2020 13:50:42 - INFO - root - Num examples = 1343
02/25/2020 13:50:42 - INFO - root - Batch size = 48
Traceback (most recent call last):
File "run_ner_crf.py", line 517, in
main()
File "run_ner_crf.py", line 459, in main
global_step, tr_loss = train(args, train_dataset, model, tokenizer)
File "run_ner_crf.py", line 148, in train
evaluate(args, model, tokenizer)
File "run_ner_crf.py", line 197, in evaluate
tags,_ = model.crf._obtain_labels(logits, args.id2label, inputs['input_lens'])
File "/root/.pyenv/versions/3.7.2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 591, in getattr
type(self).name, name))
AttributeError: 'DataParallel' object has no attribute 'crf'

经过排查，crf函数是自定义的，在多gpu的情况下，对model进行了DataParallel处理，DataParallel里面没有这个自定义的crf函数产生的。

找不到预训练模型

您好，我微调模型的时候发现找不到预训练模型，请问下中文版的pytorch的预训练模型从哪里下载呢？

loss 不收敛，指标全为0

pretrain_model 包含 config.json vocab.txt pytorch_model.bin

加载模型时出现这个log

训练过程中loss不收敛

Question? about bert-base

Thank you for sharing the code, may I ask
BERT-NER-Pytorch / prev_trained_model / bert-base /
Where can I download the pre-trained model “bert-base”, can you provide a download link?
Looking forward to your replies.

TypeError: init() got an unexpected keyword argument 'max_len'

使用作者自定义的CNerTokenizer会报错__init__() got an unexpected keyword argument 'max_len'
具体错误信息如下：
` File "BERT-NER-Pytorch-master/run_ner_softmax.py", line 549, in

main()

File "BERT-NER-Pytorch-master/run_ner_softmax.py", line 480, in main

cache_dir=args.cache_dir if args.cache_dir else None,)

File "BERT-NER-Pytorch-master\models\transformers\tokenization_utils.py", line 282, in from_pretrained

return cls._from_pretrained(*inputs, **kwargs)

File "BERT-NER-Pytorch-master\models\transformers\tokenization_utils.py", line 411, in _from_pretrained

tokenizer = cls(*init_inputs, **init_kwargs)

TypeError: init() got an unexpected keyword argument 'max_len'`

P.S. 使用BertTokenizer不会报错。还想请问下作者为什么要自定义分词器呢？难道BertTokenizer不会将没有在词表中的单词转化为<UNK>吗？

StopIteration error?

首先感谢大佬杰出的开源工作，正好匹配需求。
但是在具体运行时，出现如下报错，不知道是怎么回事，请大佬指教！
敬请回复！

07/10/2020 16:14:08 - INFO - root - ***** Running training *****
07/10/2020 16:14:08 - INFO - root - Num examples = 10748
07/10/2020 16:14:08 - INFO - root - Num Epochs = 4
07/10/2020 16:14:08 - INFO - root - Instantaneous batch size per GPU = 24
07/10/2020 16:14:08 - INFO - root - Total train batch size (w. parallel, distributed & accumulation) = 48
07/10/2020 16:14:08 - INFO - root - Gradient Accumulation steps = 1
07/10/2020 16:14:08 - INFO - root - Total optimization steps = 896
Traceback (most recent call last):
File "run_ner_crf.py", line 497, in
main()
File "run_ner_crf.py", line 438, in main
global_step, tr_loss = train(args, train_dataset, model, tokenizer)
File "run_ner_crf.py", line 132, in train
outputs = model(**inputs)
File "/home/user/.conda/envs/torch/lib/python3.6/site-packages/torch/nn/modules/module.py", line 550, in call
result = self.forward(*input, **kwargs)
File "/home/user/.conda/envs/torch/lib/python3.6/site-packages/torch/nn/parallel/data_parallel.py", line 155, in forward
outputs = self.parallel_apply(replicas, inputs, kwargs)
File "/home/user/.conda/envs/torch/lib/python3.6/site-packages/torch/nn/parallel/data_parallel.py", line 165, in parallel_apply
return parallel_apply(replicas, inputs, kwargs, self.device_ids[:len(replicas)])
File "/home/user/.conda/envs/torch/lib/python3.6/site-packages/torch/nn/parallel/parallel_apply.py", line 85, in parallel_apply
output.reraise()
File "/home/user/.conda/envs/torch/lib/python3.6/site-packages/torch/_utils.py", line 395, in reraise
raise self.exc_type(msg)
StopIteration: Caught StopIteration in replica 0 on device 0.
Original Traceback (most recent call last):
File "/home/user/.conda/envs/torch/lib/python3.6/site-packages/torch/nn/parallel/parallel_apply.py", line 60, in _worker
output = module(*input, **kwargs)
File "/home/user/.conda/envs/torch/lib/python3.6/site-packages/torch/nn/modules/module.py", line 550, in call
result = self.forward(*input, **kwargs)
File "/mnt/stephen-lib/stephen的个人文件夹/my_code/NLP组件研发/细粒度实体识别/BERT-NER-Pytorch/models/bert_for_ner.py", line 58, in forward
outputs =self.bert(input_ids = input_ids,attention_mask=attention_mask,token_type_ids=token_type_ids)
File "/home/user/.conda/envs/torch/lib/python3.6/site-packages/torch/nn/modules/module.py", line 550, in call
result = self.forward(*input, **kwargs)
File "/mnt/stephen-lib/stephen的个人文件夹/my_code/NLP组件研发/细粒度实体识别/BERT-NER-Pytorch/models/transformers/modeling_bert.py", line 606, in forward
extended_attention_mask = extended_attention_mask.to(dtype=next(self.parameters()).dtype) # fp16 compatibility
StopIteration

spanbert中的maskLM的定义在哪个文件里面？

RuntimeError: CUDA error: device-side assert triggered

您好，

用單顆 gpu 進行 brert-crf-ner 的訓練，出現如標題的錯誤，想請問該如何解決？

謝謝！

您好，请问得到最好的效果需要跑几个epoch呢？为什么我的召回率一直很低

soft_label

BERT-NER-Pytorch/models/bert_for_ner.py

Line 89 in 13199ae

if self.soft_label:

请问作者加soft_label的意义是什么呢？

	scheduler.step() # Update learning rate schedule
	optimizer.step()

lonepatient / bert-ner-pytorch Goto Github PK

bert-ner-pytorch's Introduction

Chinese NER using Bert

dataset list

model list

requirement

input format

run the code

CLUENER result

ALBERT for CLUENER

Cner result

bert-ner-pytorch's People

Contributors

Stargazers

Watchers

Forkers

bert-ner-pytorch's Issues

pretrain_model 包含 config.json vocab.txt pytorch_model.bin

加载模型时出现这个log

训练过程中loss不收敛

Recommend Projects

Recommend Topics

Recommend Org