Discussed in <a class="issue-link js-issue-link" data-error-text="Failed to load titl

<a class="user-mention notranslate" data-hovercard-type="user" data-hover

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

关于[中文混合拼音]的长文本OCR方案请教（eg: 灿烂的笑róng） about paddleocr HOT 5 CLOSED

robotJie commented on July 18, 2024

关于[中文混合拼音]的长文本OCR方案请教（eg: 灿烂的笑róng）

from paddleocr.

Comments (5)

UserWangZz commented on July 18, 2024 1

问题1. 500张图片的数据集对于识别任务来说有点少。
问题2. 使用预训练模型对拼音数据进行finetune是可以的，针对问题提到的情况，建议考虑增加数据量，即将发布的PPChatOCR v3将带来全新的融合数据训练机制，可以一定程度上保证模型在通用数据集上的精度，同时在垂类数据集上保证可行的精度。
问题3. 根据所提供的信息，感觉可能是识别的字典没有匹配上的感觉。
问题4. 样例图片中，可能作文的格子影响了检测模型的检测，导致识别效果不佳，也有可能检测结果可以，但是因为格子的竖线影响了识别模型的精度，导致最后被过滤掉。

from paddleocr.

UserWangZz commented on July 18, 2024 1

@UserWangZz 了解了，数据集的数量有待增加。然后PPChatOCR v3发布了，我试试看。

字典用的ppocr_keys_v1.txt，然后加了几个里头没有的带声调的字母。所以是因为这个导致index变化了，所以模型预测不符合预期？那是不是说如果要额外增加字典的字符，只能从末尾append去加喽？

是的，因为模型是基于这个字典进行的训练，如果index变化了，就会导致错误

from paddleocr.

UserWangZz commented on July 18, 2024 1

@UserWangZz 我用v3和未修改的ppocr_keys_v1.txt测试上面beizhu.png，能够正常识别了!

但是只要在ppocr_keys_v1.txt加上自定义的字符，识别结果就非常奇怪。这是正常的么嘛？(已经是append到末尾了)

这种情况是字典增多与模型最后的FC层维度不匹配造成的，可以简单微调模型，有能力可以冻住模型参数，只更新FC层尝试

from paddleocr.

robotJie commented on July 18, 2024

@UserWangZz 了解了，数据集的数量有待增加。然后PPChatOCR v3发布了，我试试看。

字典用的ppocr_keys_v1.txt，然后加了几个里头没有的带声调的字母。所以是因为这个导致index变化了，所以模型预测不符合预期？
那是不是说如果要额外增加字典的字符，只能从末尾append去加喽？

from paddleocr.

robotJie commented on July 18, 2024

@UserWangZz 我用v3和未修改的ppocr_keys_v1.txt测试上面beizhu.png，能够正常识别了!

但是只要在ppocr_keys_v1.txt加上自定义的字符，识别结果就非常奇怪。这是正常的么嘛？(已经是append到末尾了)

from paddleocr.

Recommend Projects

关于[中文混合拼音]的长文本OCR方案请教（eg: 灿烂的笑róng） about paddleocr HOT 5 CLOSED

Comments (5)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent