Comments (18)
Bạn có chỉnh chỗ nào lúc chạy để train không thế?
from vietocr.
Hi e,
Kiểm tra lại tập dataset của e có tạo thành công không nhé.
from vietocr.
@pbcquoc anh cho em hỏi em chỉnh vậy đúng chưa ạ
với khúc này mình để nguyên vậy hay chỉnh lại đường dẫn gì không anh?
Em cảm ơn.
from vietocr.
vậy là dc rồi e nhé.
from vietocr.
@monotuko e bị vấn đề gì thì tạo issue khác xem, trong notebook a có hướng dẫn rồi mà nhỉ
from vietocr.
@pbcquoc Em cảm ơn anh
from vietocr.
Em tạo thành công train_hw và valid_hw rồi và chạy tiếp thì bị lỗi như này.
Dòng code em chạy là: trainer.train()
@pbcquoc Anh xem lại giúp em với ạ
from vietocr.
các kí tự mà model hình dự đoán được cần được nằm trong list
vocab: 'aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ0123456789!"#$%&''()*+,-./:;<=>?@[]^_`{|}~ '
e có thể thêm kí tự bằng cách config['vocab']='xyz'
Tuy nhiên, tập vocab này đã full cho tiếng việt rồi, các kí tự khác thường là do lỗi đánh máy, e nên kiểm tra lại dữ liệu và remove hết các mẫu đó nếu ít.
from vietocr.
@pbcquoc Vâng, để em kiểm tra lại. Em cảm ơn anh
from vietocr.
@duonglegiang bạn ơi cho mình hỏi data train của bạn khoảng bao nhiêu hình vậy?
from vietocr.
@pbcquoc Hi anh
Em có test model với pre-train model mà anh mới cập nhật trên một số ảnh thì kết quả có tốt hơn, nhưng mà lại bị thừa từ (thừa từ có nghĩa đứng đầu hoặc đứng cuối câu chứ không phải thừa kí tự ạ ). Vậy anh cho em hỏi, chuyện này là vì lí do gì ạ? Theo em nghĩ thì có phải là do cơ chế self-attention của transformer không hay là do data train ạ
Em cảm ơn anh!
Dưới đây là ví dụ, nhãn đúng của bức ảnh là: Vĩnh Phú Tây, Phước Long, Bạc Liêu ạ
from vietocr.
@monotuko hiện tại thì mình có khoảng gần 1 triệu ảnh
from vietocr.
@pbcquoc Hi anh
Em có test model với pre-train model mà anh mới cập nhật trên một số ảnh thì kết quả có tốt hơn, nhưng mà lại bị thừa từ (thừa từ có nghĩa đứng đầu hoặc đứng cuối câu chứ không phải thừa kí tự ạ ). Vậy anh cho em hỏi, chuyện này là vì lí do gì ạ? Theo em nghĩ thì có phải là do cơ chế self-attention của transformer không hay là do data train ạ
Em cảm ơn anh!
Dưới đây là ví dụ, nhãn đúng của bức ảnh là: Vĩnh Phú Tây, Phước Long, Bạc Liêu ạ
Hi e,
Nhãn đúng của bức ảnh phải là "Vĩnh Phú Tây, Phước Long Bạc Liêu Điện" chứ nhỉ ?
from vietocr.
@pbcquoc cái bức ảnh dưới là cái nhãn nó in ra em chụp màn hình lại thôi ạ, đây mới là ảnh gốc ạ
from vietocr.
Hi e, a cũng biết vấn đề này trước rồi, a nghĩ có lẽ là do thông tin tại biên ảnh bị mất do mô hình CNN cần padding để đảm bảo kích thước không đổi.
Tuy nhiên, hiện tại a vẫn chưa thử cách a vừa nói. em có thể đọc code và train lại theo cách trên xem sao
from vietocr.
@pbcquoc Vâng anh, tại vì em test thử 1 ảnh thì em thấy các từ thừa được sinh ra cũng có liên quan đến các từ ở trong ảnh. Em có train tiếp với data của em thì cũng bị thế. Ví dụ như trong ảnh dưới thì bị thừa chữ Xã ( nhưng Xã và Huyện về ý nghĩa có liên quan đến nhau ạ ). Ngoài ra, em có 1 thắc mắc nữa là nếu thông tin bị mất đi thì nhãn dự đoán phải bị sai các ký tự hoặc là bị thiếu chứ sao lại là thừa từ ạ?
from vietocr.
Lúc train, a đã random translate ảnh làm cho ảnh bị mất chữ đầu hoặc chữ cuối, nhưng vấn ép mô hình dự đoán nguyên cả câu.
vì đôi lúc do ở bước trước mình cắt thiếu hoặc thừa. Nên đó có thể là nguyên nhân.
Em có thể thử bỏ phần random translate trong aug.py xem sao.
với lại data e có bao nhiêu ảnh, e train bao nhiêu step, acc full seq bao nhiêu nhỉ ?
from vietocr.
@pbcquoc Vâng, em sẽ xem lại ạ, data em có gần 1tr ảnh, acc full seq: 85%
from vietocr.
Related Issues (20)
- Error: train_hw: There is not enough space on the disk.
- Can we train VietOCR model for Japanese language ? HOT 2
- AttributeError: 'Delaunay' object has no attribute 'vertices' HOT 5
- lỗi load config HOT 1
- Có vấn đề khi sử dụng batch predict. HOT 1
- TypeError: 'Predictor' object is not callable
- Lỗi khi training custom dataset HOT 1
- Lỗi không chạy được sau khi cài HOT 4
- Predict trên 1 dataset lớn HOT 1
- Valid loss lớn hơn Training loss HOT 1
- Remove n invalid images HOT 2
- New PIL not AttributeError: module 'PIL.Image' has no attribute 'ANTIALIAS' HOT 6
- Load dataset HOT 6
- Augmentation Issues HOT 1
- Có thể giới hạn được các kí tự đầu ra không?
- Chào a, cảm ơn a vì đã đóng góp sản phẩm này cho cộng đồng,
- Thắc mắc về đầu vào Image, Acc per char HOT 1
- Can not create dataset on Jupyter Notebook because of [tab] definition HOT 1
- Getting error after train
- Lỗi khi load model seq2seq trên cuda12
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from vietocr.