Tôi chuyển sách scan PDF thành văn bản nhưng file gốc có nhiều chỗ như bị "ghẻ" nên phần mềm ABBYY nhận diện sai rất nhiều. Ai có kinh nghiệm xin chỉ giúp có cách nào chỉnh sửa hàng loạt các trang để không phải làm thủ công không ạ. Chân thành cảm ơn!
Cảm ơn bạn, vì số lượng khá nhiều nên không thể nhờ làm giúp mà chỉ có thể nhờ chỉ giúp giải pháp thôi. Đây là một số trang trong cuốn sách mình đang dự định chuyển qua Word Please login or register to view links Hiện tại mình đang tìm hiểu cách xóa "ghẻ" hàng loạt bằng photoshop. Chưa thực hiện nên không biết có được không.
Đây là file đã được denoise. Công cụ sử dụng là noisecleaner với tham số -m 1 -n 50. Please login or register to view links
Đây là file ocr sử dụng Google Drive engine. Kết quả nhìn chung là chấp nhận được đối với ảnh gốc chất lượng thấp như thế này. Dù sao soát và sửa lại cũng sẽ nhanh hơn là gõ lại từ đầu
Cảm ơn các bạn đã giúp. Làm việc một mình vừa đọc vừa gõ văn bản quả thật rất mệt, chuyện đọc nhầm và gõ nhầm xảy ra thường xuyên.
Phía trên kia tôi OCR bằng Camscanner đấy: import file pdf, rồi ocr từng trang, rồi copy từng trang sang google docs. Nhược điểm của Camscanner là bị lỗi xuống dòng không đúng chỗ.
tôi xin đóng góp 1 phần mềm :irfanview . Ngoài việc hỗ trợ xem hình ảnh, chương trình còn có hỗ trợ "xử lý hàng loạt", đối với hình, pdf ... Các chức năng chính của xử lý hàng loạt: crop hình, chỉnh màu, đổi tên, giảm noise, ...v.v.. chi tiết vào file/batch convert..../advanced
Lúc scan bác chọn chế độ xám (Grayscale) thay vì Black and White coi, sau đó là để nguyên cái đó đóng file pdf, file sau scan nhìn dễ chịu hơn rất nhiều. Mình hay dùng cách này khi scan sách.
Sách pdf mình tải trên mạng, muốn chuyển thành file word để đọc trên điện thoại và thuận tiện cho việc biên soạn tài liệu. Vấn đề là file gốc xấu quá và ABBYY lại kén sách, mấy ứng dụng trên đt thì mình thao tác không quen. Thử qua một số phần mềm khác thì thấy easy screen ocr cũng tạm ổn. Thằng này cũng dùng Google Drive engine.