Hi anh, em đang train model của anh theo code trong file vietocr_gettingstart.ipynb th

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType' about vietocr HOT 18 CLOSED

duonglegiang commented on July 19, 2024

TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType'

from vietocr.

Comments (18)

commented on July 19, 2024

Bạn có chỉnh chỗ nào lúc chạy để train không thế?

from vietocr.

pbcquoc commented on July 19, 2024

Hi e,
Kiểm tra lại tập dataset của e có tạo thành công không nhé.

from vietocr.

commented on July 19, 2024

@pbcquoc anh cho em hỏi em chỉnh vậy đúng chưa ạ

với khúc này mình để nguyên vậy hay chỉnh lại đường dẫn gì không anh?

Em cảm ơn.

from vietocr.

pbcquoc commented on July 19, 2024

vậy là dc rồi e nhé.

from vietocr.

pbcquoc commented on July 19, 2024

@monotuko e bị vấn đề gì thì tạo issue khác xem, trong notebook a có hướng dẫn rồi mà nhỉ

from vietocr.

duonglegiang commented on July 19, 2024

@pbcquoc Em cảm ơn anh

from vietocr.

duonglegiang commented on July 19, 2024

Em tạo thành công train_hw và valid_hw rồi và chạy tiếp thì bị lỗi như này.

Dòng code em chạy là: trainer.train()
@pbcquoc Anh xem lại giúp em với ạ

from vietocr.

pbcquoc commented on July 19, 2024

các kí tự mà model hình dự đoán được cần được nằm trong list
vocab: 'aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ0123456789!"#$%&''()*+,-./:;<=>?@[]^_`{|}~ '
e có thể thêm kí tự bằng cách config['vocab']='xyz'

Tuy nhiên, tập vocab này đã full cho tiếng việt rồi, các kí tự khác thường là do lỗi đánh máy, e nên kiểm tra lại dữ liệu và remove hết các mẫu đó nếu ít.

from vietocr.

duonglegiang commented on July 19, 2024

@pbcquoc Vâng, để em kiểm tra lại. Em cảm ơn anh

from vietocr.

commented on July 19, 2024

@duonglegiang bạn ơi cho mình hỏi data train của bạn khoảng bao nhiêu hình vậy?

from vietocr.

duonglegiang commented on July 19, 2024

@pbcquoc Hi anh
Em có test model với pre-train model mà anh mới cập nhật trên một số ảnh thì kết quả có tốt hơn, nhưng mà lại bị thừa từ (thừa từ có nghĩa đứng đầu hoặc đứng cuối câu chứ không phải thừa kí tự ạ ). Vậy anh cho em hỏi, chuyện này là vì lí do gì ạ? Theo em nghĩ thì có phải là do cơ chế self-attention của transformer không hay là do data train ạ
Em cảm ơn anh!
Dưới đây là ví dụ, nhãn đúng của bức ảnh là: Vĩnh Phú Tây, Phước Long, Bạc Liêu ạ

from vietocr.

duonglegiang commented on July 19, 2024

@monotuko hiện tại thì mình có khoảng gần 1 triệu ảnh

from vietocr.

pbcquoc commented on July 19, 2024

@pbcquoc Hi anh
Em có test model với pre-train model mà anh mới cập nhật trên một số ảnh thì kết quả có tốt hơn, nhưng mà lại bị thừa từ (thừa từ có nghĩa đứng đầu hoặc đứng cuối câu chứ không phải thừa kí tự ạ ). Vậy anh cho em hỏi, chuyện này là vì lí do gì ạ? Theo em nghĩ thì có phải là do cơ chế self-attention của transformer không hay là do data train ạ
Em cảm ơn anh!
Dưới đây là ví dụ, nhãn đúng của bức ảnh là: Vĩnh Phú Tây, Phước Long, Bạc Liêu ạ

Hi e,
Nhãn đúng của bức ảnh phải là "Vĩnh Phú Tây, Phước Long Bạc Liêu Điện" chứ nhỉ ?

from vietocr.

duonglegiang commented on July 19, 2024

@pbcquoc cái bức ảnh dưới là cái nhãn nó in ra em chụp màn hình lại thôi ạ, đây mới là ảnh gốc ạ

from vietocr.

pbcquoc commented on July 19, 2024

Hi e, a cũng biết vấn đề này trước rồi, a nghĩ có lẽ là do thông tin tại biên ảnh bị mất do mô hình CNN cần padding để đảm bảo kích thước không đổi.
Tuy nhiên, hiện tại a vẫn chưa thử cách a vừa nói. em có thể đọc code và train lại theo cách trên xem sao

from vietocr.

duonglegiang commented on July 19, 2024

@pbcquoc Vâng anh, tại vì em test thử 1 ảnh thì em thấy các từ thừa được sinh ra cũng có liên quan đến các từ ở trong ảnh. Em có train tiếp với data của em thì cũng bị thế. Ví dụ như trong ảnh dưới thì bị thừa chữ Xã ( nhưng Xã và Huyện về ý nghĩa có liên quan đến nhau ạ ). Ngoài ra, em có 1 thắc mắc nữa là nếu thông tin bị mất đi thì nhãn dự đoán phải bị sai các ký tự hoặc là bị thiếu chứ sao lại là thừa từ ạ?

from vietocr.

pbcquoc commented on July 19, 2024

Lúc train, a đã random translate ảnh làm cho ảnh bị mất chữ đầu hoặc chữ cuối, nhưng vấn ép mô hình dự đoán nguyên cả câu.
vì đôi lúc do ở bước trước mình cắt thiếu hoặc thừa. Nên đó có thể là nguyên nhân.
Em có thể thử bỏ phần random translate trong aug.py xem sao.

với lại data e có bao nhiêu ảnh, e train bao nhiêu step, acc full seq bao nhiêu nhỉ ?

from vietocr.

duonglegiang commented on July 19, 2024

@pbcquoc Vâng, em sẽ xem lại ạ, data em có gần 1tr ảnh, acc full seq: 85%

from vietocr.

TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType' about vietocr HOT 18 CLOSED

Comments (18)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent