PC Scantailor - Tổng hợp các nhánh đang phát triển trên Github

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 13/8/23.

  1. machine

    machine Sinh viên năm I

    Bản Scan Tailor Advanced có tính năng Auto Deskew chỉ chỉnh được dòng chữ bị nghiêng thôi, dòng chữ bị cong nó không nắn thẳng được.
    Bản Scan Tailor Experimental nó tự động nắn thẳng dòng chữ bị cong dựa vào biên dạng của khối văn bản trong trang giấy, trang giấy càng nhiều chữ chất lượng nắn thẳng càng tốt.
    Tính năng Auto Select Content là ở bước 4, sau bước chỉnh méo (nắn thẳng dòng chữ), không liên quan
    Chất lượng tự động nắn thẳng dòng chữ của Scan Tailor Experimental khá tốt đó. Để so sánh với Abbyy xem sao.
    Tất nhiên sau khi Scan Tailor Expermental tự động nắn thẳng (chỉnh méo) mà mình không ưng ý trang nào thì mình có thể nắn thủ công (mà mất nhiều thời gian).
    Nguyên lý nắn thẳng (chỉnh méo) của vFlat và Scan Tailor Experimental là khác nhau.
    - vFlat dựa vào đường viền trang sách, đường viền trang sách bị cong, bị méo thì vFlat sẽ nắn thẳng (dẫn đến các dòng text cũng được nắn thẳng theo), sau khi vFlat nắn thẳng rồi thì mặc dù dòng chữ trong trang sách chưa thẳng (vẫn cong) thì vFlat không thể nắn thẳng thêm được nữa do lúc này đường viền của trang sách (đường viền của ảnh chụp) đã thẳng rồi.
    - Scan Tailor Experimental nắn thẳng các dòng chữ dựa vào đường viền của khối text.
    - do đó ảnh trang sách đã nắn thẳng bằng vFlat rồi vẫn nắn thẳng tiếp được bằng Scan Tailor Experimental.

    Khi ocr, nếu dùng ảnh do vFlat xử lý thì kết quả sẽ có nhiều đoạn bị "nhảy chữ" (đầu hoặc cuối paragraph xuất hiện 1, 2 từ mà vị trí chính xác của nó phải nằm đâu đó ở trong paragraph). Nếu ảnh chụp bằng vFlat (nắn thẳng lần 1), cho qua Scan Tailor Experimental nắn thẳng lần 2 rồi mới chuyển vào ocr bằng vFlat thì sẽ giảm đáng kể lỗi "nhảy chữ" khi ocr.

    Nói chung sử dụng Scan Tailor Experimental là nhằm đạt được đồng thời 2 mục tiêu:
    - loại bỏ vệt màu ở gáy sách và chữ ở trang khác lẫn vào khi chụp sách dưới ánh đèn (mặc dù chụp bằng vFlat)
    - tiếp tục nắn thẳng trang sách để cho chất lượng tốt hơn nữa (vFlat trước đó đã nắn thẳng 1 lần nhưng các dòng text vẫn còn cong)
     
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Các cụ có thể minh họa tính năng tự chỉnh méo, tự nắn dòng của Ex bằng vài trang thành phẩm không? Có video càng tốt. :D
     
    machine and Anan Két like this.
  3. Narga

    Narga Lớp 5

    Kết hợp nhiều tool sẽ có kết quả tốt nhất, mình thì không quá focus vào pdf và images (scanned) nhưng đôi khi vẫn làm để có một phiên bản đẹp mà ebook text khó làm được (hoặc mất công). Chẳng hạn như Adobe Scan để làm sạch ngón tay, vết bẩn ...., Scanner HD để xóa các vùng lệch sáng (ám vàng, ám xanh), một vài app khác để chỉnh trang méo, chữ lệch (dùng online với số lượng trang ít).
    Thời điểm này có rất nhiều công cụ online, nếu làm tranh thủ trong một khoảng thời gian rảnh rỗi thì khá là tiện :D
     
    machine, nhanjkl and Anan Két like this.
  4. tran ngoc anh

    tran ngoc anh Cử nhân

    Mình say no với công cụ trực tuyến, hạn chế đủ đường, do phải chỉnh đi chỉnh lại mà mấy công cụ này thường hạn chế quota lắm :D
     
    Anan Két thích bài này.
  5. tran ngoc anh

    tran ngoc anh Cử nhân

    Thế thì người máy có thêm lựa chọn rồi đó, loại bỏ vệt vàng, chính là tính năng auto select content là tính năng cơ bản nhất của tất cả các bản scantailor rồi. :D

    Nắn dòng chỉnh méo thì Advanced cũng kế thừa toàn bộ từ Experimental mà. Như mình đã nói, Experimental của Tulon là khởi nguồn của tất cả các bản fork bên dưới.
     
    Anan Két and machine like this.
  6. machine

    machine Sinh viên năm I

    Đợi tí kiếm sách :D
     
    Anan Két thích bài này.
  7. sucsongmoi

    sucsongmoi Lớp 8

    Cảm ơn bạn.
    Đã fix.:D
     
    Anan Két and machine like this.
  8. machine

    machine Sinh viên năm I

    Chụp dưới ánh đèn điện nhiều tình huống khá là rắc rối.
    Ví dụ như ảnh dưới, giấy mỏng, chụp trang 7, chiếu đèn hỗ trợ để tăng sáng thì vFlat chụp luôn một số dòng chữ ở trang 8 và trang 9 luôn :p File rar là ảnh đã xử lý tiếp bằng Scan Tailor.
    007.jpg
     

    Các file đính kèm:

    Anan Két thích bài này.
  9. machine

    machine Sinh viên năm I

    Tính năng tự chỉnh méo, nắn dòng của Scan Tailor Experimental:


    So sánh tính năng chỉnh méo, nắn dòng giữa Abbyy 15 và Scan Tailor Experimental:

    Trang 241: minh họa tính năng xóa vệt màu ở rìa trang sách
    Trang 333, 399: SC Experimental tốt hơn
    Trang 335: Abbyy tốt hơn

    Ảnh gốc chụp bằng vFlat trong file Pictures.rar
    Ảnh xử lý bằng SC Experimental trong file out.rar
     

    Các file đính kèm:

    Chỉnh sửa cuối: 14/8/23
    Anan Két and tran ngoc anh like this.
  10. Narga

    Narga Lớp 5

    Cũng không hẳn, lúc nào bạn thử trang Vui lòng đăng nhập hoặc đăng ký để xem link xem, nếu chỉ cần các tác vụ cơ bản thì nó cũng mạnh y như Photoshop vậy, hoặc Adobe Express chính chủ luôn.
    Ủa, đây là cuốn gì vậy bạn, rất quen, tựa như là Đại số giải trí. Mà cuốn này giấy dày lắm, làm sao mà bị hằn sang được. Nếu đúng thì cũng khá là lạ, vì mình có cuốn này của Liên Xô in, giấy đẹp lắm.
    À, tiện em test thử cái app trên điện thoại, nó có filter là trắng background, ai ngờ nó cũng ra được chất lượng gần như của bác, bất ngờ luôn.
    Scan 1 Page 1.jpg
    Hình ảnh có thể bị sai lệch nhưng có thể khắc phục dễ dàng, phần background sạch sẽ vậy cũng chấp nhận được.
     
    Chỉnh sửa cuối: 15/8/23
    Anan Két and machine like this.
  11. machine

    machine Sinh viên năm I

    Bản in năm 2019 đó bác :D Chắc một phần do em bố trí ánh đèn nên ảnh chụp từ vFlat nó ra như vậy đó.

    Ai có gươm dùng gươm, ai có súng dùng súng :D
     
    Narga and Anan Két like this.
  12. duonglv

    duonglv Mầm non

    Theo mình dùng phần mềm trung gian resize hình thì vẫn chính xác hơn, cho chiều cao các ảnh chụp bằng nhau là xong. Vì nhiều khi phần text trong trang sách nó nằm ở phía dưới, phía trên, lệch bên trái, lệch bên phải,... như mấy trang ở đầu chương hoặc cuối chương chẳng hạn.
     
    machine and Anan Két like this.
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    Với cách đóng gói vô pdf hợp lý, các trang có so le với nhau như thế nào cũng không phải là vấn đề. Xem thread dưới:

    Vui lòng đăng nhập hoặc đăng ký để xem link

    @Anan Két thử xuất vài ảnh không cần "scale to match" (chỉ thêm lề cố định, không thêm lề kiểu "grow to match" nha) đi, dùng cách trong thread của mình để đóng pdf thì đều tăm tắp thôi. Dùng Acrobat hiệu chỉnh thêm tỉ lệ giữa các cạnh để phù hợp tỉ lệ của trang bìa nữa nếu cần.

    Resize ảnh khá lâu, bản thân SC scale to match cũng phải xử lý thêm một bước resize ảnh thực nên cũng lâu, chứ gom ảnh vào cái khung PDF thì lại trong chớp mắt.
     
    Chỉnh sửa cuối: 15/8/23
    machine thích bài này.
  14. Anan Két

    Anan Két Lớp 8

    Trước giờ mình vẫn dùng cách này, nhưng do mỗi lần dùng phần mềm trung gian thì dung lượng ảnh lại tăng thêm nên nếu được tích hợp trong 1 phần mềm duy nhất thì vẫn thấy tiện hơn :D, như bản SC Experimental 2023 đã làm được.
    Đúng rồi bạn, với mấy trang này, mình vẫn luôn phải kiểm tra lại và chỉnh tay để phần text nằm đúng vị trí.
     
    duonglv and machine like this.
  15. Anan Két

    Anan Két Lớp 8

    Phần mềm này có lẽ rất hữu ích để xử lý pdf có sẵn. Mình trước giờ quen thao tác với ảnh thôi, để mình tìm hiểu thêm rồi gửi review sau nha :D.
     
    machine thích bài này.
  16. tran ngoc anh

    tran ngoc anh Cử nhân

    An nói cách 1 là sửa cỡ pdf bị lệch sẵn thôi. Bên dưới vẫn còn cách 2 đóng gói từ nguồn ảnh so le bằng dòng lệnh, thậm chí bằng cả PDFill, bất chấp cỡ ảnh so le nhau mà.

    Đây là PDFill. Thật sự không cần tốn thời gian Resize ảnh đâu.
    [​IMG]

    Nhưng PDFill gom pdf lâu hơn img2pdf, luôn nên ưu tiên img2pdf (dòng lệnh, nhiều bạn không thích dùng :D)
     
    Anan Két and machine like this.
  17. tran ngoc anh

    tran ngoc anh Cử nhân

    Dùng IM làm trắng :D
    [​IMG]
     
    Anan Két, Narga and machine like this.
  18. Narga

    Narga Lớp 5

    Xử lý lại hình thôi, chứ dọn dẹp sạch sẽ quá thế lại thấy sao sao
     
    Anan Két and machine like this.
  19. tran ngoc anh

    tran ngoc anh Cử nhân

    Một mẹo nhỏ khi dùng Scantailor với những cuốn có đánh số trang trái phải theo các trang chẵn lẻ.

    Hãy tách các trang lẻ dồn hết lên đầu, các trang chẵn dồn xuống cuối sách trước khi nhập vào scantailor, để ở bước Select Content, nửa đầu sách và nửa sau sách thì các số trang đều cùng một bên, rất có lợi khi rà soát khung text bảo đảm khớp với nội dung:
    • Không thì mắt mình phải đảo liên tục trái phải trái phải chỉ để xem số trang có bị bỏ ở bên ngoài khung chọn hay không vì scantailor rất hay làm như vậy :D
    • Với những cuốn đánh số trang ở giữa thì không cần quan tâm :D
     
    Chỉnh sửa cuối: 2/9/23
    machine thích bài này.
  20. Anan Két

    Anan Két Lớp 8

    Đúng là Scan Tailor hay bỏ sót số trang, mỏi mắt ghê :D Còn có vấn đề nữa là ST thường không xử lý được trang trắng (không nhận diện được khung nội dung, không chỉnh méo được...), dẫn tới chạy công đoạn cuối thì báo lỗi. Nên mình thường loại các trang trắng khỏi project ngay từ đầu, sẽ thêm vào khi đóng pdf sau. Vì lý do này nên mình cũng phải xếp trang theo thứ tự mặc định, chấp nhận mỏi mắt chút vậy :D.
     
    machine thích bài này.
: scantailor

Chia sẻ trang này