[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: VietOCR - PMNM nhận dạng ký tự Việt Nam



Trên ảnh chuẩn (reference image) tạo bởi PS hay GIMP thì Tesseract OCR
cho kết quả chính xác hơn 97% cho Tiếng Việt. Khi chạy thêm phần hậu
xử lý (post-processing) trong VietOCR, độ chính xác được nâng lên thêm
1 chút nữa. Khi thử nghiệm với ảnh scan từ 1 trang giấy tốt (rõ ràng,
không bị tì vết, font Unicode, 300 DPI) thì kết quả cũng rất cao, tuy
không bằng được như ảnh chuẩn.

Dĩ nhiên, mức độ chính xác tùy thuộc nhiều vào chất lượng của ảnh.
Tesseract chủ yếu là 1 OCR engine, cho nên nếu ảnh kém chất lượng,
người sử dụng cần thực thi công đoạn image processing trước khi OCR.
Trong homepage có để thông tin đề cập đến 1 số phần mềm nguồn mở giúp
ở khâu đó.

On Dec 11, 11:42 am, Nguyễn Vũ Hưng <[email protected]> wrote:
> 2011/12/10 nguyenq <[email protected]>:
>
>
>
> >http://vietocr.sf.net
>
> Bác có thể cho biết
>
> - Độ chính xác của VietOCR
>   # VnDOCR chính xác tới 99% (họ nói vậy)
> - Performance tùy thuộc vào chất lượng bitmap đầu vào (chữ viết tay,
> đánh máy, chữ in)
>   # Chắc bác đã có benchmark và so sánh với VnDOCR rồi chứ nhỉ?
> - Tốc độ xử lý 1 trang A4
> -  Xử lý ảnh có nền đen/sám (loại chống copy)
> -
>
> --
> Best Regards,
> Nguyen Hung Vu [aka: NVH] ( in Vietnamese: Nguyễn Vũ Hưng )
> [email protected] , YIM: vuhung16 , Skype:
> vuhung16plus, twitter: vuhung, MSN: vuhung16.http://www.facebook.com/nguyenvuhunghttp://nguyen-vu-hung.blogspot.com/