Hỏi đáp Chỉnh sửa sách scan

bamagachu · Nov 14, 2020

Tôi chuyển sách scan PDF thành văn bản nhưng file gốc có nhiều chỗ như bị "ghẻ" nên phần mềm ABBYY nhận diện sai rất nhiều. Ai có kinh nghiệm xin chỉ giúp có cách nào chỉnh sửa hàng loạt các trang để không phải làm thủ công không ạ. Chân thành cảm ơn!

iamtnl · Nov 16, 2020

bác quăng file em xử lý giúp xem

bamagachu · Nov 17, 2020

iamtnl said: ↑

bác quăng file em xử lý giúp xem
Click to expand...

Cảm ơn bạn, vì số lượng khá nhiều nên không thể nhờ làm giúp mà chỉ có thể nhờ chỉ giúp giải pháp thôi. Đây là một số trang trong cuốn sách mình đang dự định chuyển qua Word Please login or register to view links
Hiện tại mình đang tìm hiểu cách xóa "ghẻ" hàng loạt bằng photoshop. Chưa thực hiện nên không biết có được không.

Dr. No · Nov 17, 2020

bamagachu said: ↑

Cảm ơn bạn, vì số lượng khá nhiều nên không thể nhờ làm giúp mà chỉ có thể nhờ chỉ giúp giải pháp thôi. Đây là một số trang trong cuốn sách mình đang dự định chuyển qua Word Please login or register to view links
Hiện tại mình đang tìm hiểu cách xóa "ghẻ" hàng loạt bằng photoshop. Chưa thực hiện nên không biết có được không.
Click to expand...

Với font chữ này thì rất khó để OCR ra kết quả có độ chính xác cao.

iamtnl · Nov 17, 2020

Đây là file đã được denoise. Công cụ sử dụng là noisecleaner với tham số -m 1 -n 50.

Please login or register to view links

iamtnl · Nov 17, 2020

Đây là file ocr sử dụng Google Drive engine. Kết quả nhìn chung là chấp nhận được đối với ảnh gốc chất lượng thấp như thế này. Dù sao soát và sửa lại cũng sẽ nhanh hơn là gõ lại từ đầu

jun276 · Nov 17, 2020

Ảnh chất lượng kém và sách cũ thì dùng Google, vFlat nhận chữ sẽ tốt hơn ABBYY.

V/C · Nov 17, 2020

Sách cũ mà chụp thì nó ra text tốt hơn scan nhiều.

bamagachu · Nov 17, 2020

Cảm ơn các bạn đã giúp. Làm việc một mình vừa đọc vừa gõ văn bản quả thật rất mệt, chuyện đọc nhầm và gõ nhầm xảy ra thường xuyên.

Dr. No · Nov 17, 2020

jun276 said: ↑

Ảnh chất lượng kém và sách cũ thì dùng Google, vFlat nhận chữ sẽ tốt hơn ABBYY.
Click to expand...

Phía trên kia tôi OCR bằng Camscanner đấy: import file pdf, rồi ocr từng trang, rồi copy từng trang sang google docs. Nhược điểm của Camscanner là bị lỗi xuống dòng không đúng chỗ.

machine · Nov 17, 2020

iamtnl said: ↑

Đây là file đã được denoise. Công cụ sử dụng là noisecleaner với tham số -m 1 -n 50.

Please login or register to view links
Click to expand...

Bạn có thể cho link nào có sẵn phần mềm mà người không biết lập trình dùng được không?
Cảm ơn bạn.

welcom1985 · Nov 17, 2020

tôi xin đóng góp 1 phần mềm :irfanview . Ngoài việc hỗ trợ xem hình ảnh, chương trình còn có hỗ trợ "xử lý hàng loạt", đối với hình, pdf ...
Các chức năng chính của xử lý hàng loạt: crop hình, chỉnh màu, đổi tên, giảm noise, ...v.v.. chi tiết vào file/batch convert..../advanced

dhq · Nov 22, 2020

bamagachu said: ↑

Tôi chuyển sách scan PDF thành văn bản nhưng file gốc có nhiều chỗ như bị "ghẻ" nên phần mềm ABBYY nhận diện sai rất nhiều. Ai có kinh nghiệm xin chỉ giúp có cách nào chỉnh sửa hàng loạt các trang để không phải làm thủ công không ạ. Chân thành cảm ơn!

Click to expand...

Lúc scan bác chọn chế độ xám (Grayscale) thay vì Black and White coi, sau đó là để nguyên cái đó đóng file pdf, file sau scan nhìn dễ chịu hơn rất nhiều. Mình hay dùng cách này khi scan sách.

bamagachu · Nov 24, 2020

dhq said: ↑

Lúc scan bác chọn chế độ xám (Grayscale) thay vì Black and White coi, sau đó là để nguyên cái đó đóng file pdf, file sau scan nhìn dễ chịu hơn rất nhiều. Mình hay dùng cách này khi scan sách
Click to expand...

Sách pdf mình tải trên mạng, muốn chuyển thành file word để đọc trên điện thoại và thuận tiện cho việc biên soạn tài liệu. Vấn đề là file gốc xấu quá và ABBYY lại kén sách, mấy ứng dụng trên đt thì mình thao tác không quen. Thử qua một số phần mềm khác thì thấy easy screen ocr cũng tạm ổn. Thằng này cũng dùng Google Drive engine.

Log in or Sign up

Mời tham gia cuộc thi "CHIA SẺ KỶ NIỆM ĐÁNG NHỚ" nhân dịp TVE-4U 10 tuổi

Hướng dẫn chuyển đổi các định dạng eBook

Hướng dẫn xử lý lỗi không 'download - viết bài - xem link' được trên diễn đàn

Hỏi đáp Chỉnh sửa sách scan

bamagachu Mầm non

iamtnl Lớp 4

bamagachu Mầm non

Dr. No Không không thấy

Attached Files:

Glinca.docx

iamtnl Lớp 4

Attached Files:

Denoised.pdf.zip

iamtnl Lớp 4

Attached Files:

denoise_ocr.txt

jun276 Lớp 4

V/C Mầm non

bamagachu Mầm non

Dr. No Không không thấy

machine Sinh viên năm I

welcom1985 Lớp 3

dhq Lớp 3

bamagachu Mầm non

Share This Page