Hỏi đáp Xử lý file PDF text để được ebook không lỗi xuống dòng?

Thảo luận trong 'Hỏi đáp - Góp ý' bắt đầu bởi xversion1, 20/10/22.

  1. xversion1

    xversion1 Lớp 3

    File PDF mà là dạng text, tức không phải loại ảnh chụp OCR, thì có cách nào chuyển nó thành file Word (hoặc file text gì đấy cũng được nhưng phải giữ được định dạng) để làm ebook không các bác. Thường em chuyển gặp 2 vấn đề, một là lỗi xuống dòng, văn bản nó xuống dòng theo căn lề của của PDF, PDF chữ đến lề hết dòng thì file chuyển cũng xuống dòng theo mặc dù chưa hết câu. Thỉnh thoảng phần mềm cũng nhận biết nhưng nhận biết vẫn thiếu nên không soát thì vẫn lỗi. Hai là những ký tự đặc biệt có khả năng lỗi font.

    Em tưởng là nó đã là text thì những cái lỗi này phải không xảy ra mới đúng. Là text thì cứ thế mà copy hay convert gì đó chứ có cần OCR nữa đâu mà vẫn bị những cái lỗi này? Không biết các bác có cách nào xử lý kiểu file PDF text này mà mặc định ko cần soát cũng ko có 2 cái lỗi này không?
     
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Mình hay dùng word để mở true PDF rồi lưu thành docx, giữ định dạng khá tốt. Hai là dùng acrobat xuất html, nhét vào epub định dạng luôn.

    Mặc dù không có lỗi xuống dòng nhưng vẫn còn vấn đề ngắt trang, cái này regex lo được.

    Bonus, nếu true pdf của ybook, rất dễ chuyển, không bị mã hoá hay bảng mã khác unicode phức tạp gì đâu.
     
    xversion1 thích bài này.
  3. xversion1

    xversion1 Lớp 3

    Dùng regex một số file trình bày lòe loẹt sợ nó thay cả chỗ nào ko liên quan đến ngắt trang ý bác. Thỉnh thoảng bị vậy ko biết chỗ nào mà sửa lại.
    Xuất HTML thì em chưa thử bao giờ, ko biết có mất định dạng ko? Mất lại phải dò lại làm lại thì lâu chết.
     
  4. tran ngoc anh

    tran ngoc anh Cử nhân

    Cũng chỉ có cách này thôi bạn, mình thường định dạng xong tất cả rồi nối đoạn là bước cuối cùng. Bạn có thể tham khảo một số trường hợp nối mà mình đã đúc kết.

    [​IMG]

    Thay từng cái thì ít nhầm được. Song ở mục "nối đoạn cơ bản" có thể thay toàn bộ vì mình đã ràng buộc một số quy tắt để không bị thay nhầm.

    Thêm: cách dùng word đọc true pdf có thể hạn chế số đoạn bị ngắt, điều kiện là phải dùng acrobat crop bỏ các header trước, vì header có thể ngăn cách nội dung của các trang thì word sẽ không tự liên kết các trang được.
     
    xversion1 thích bài này.
  5. Utron

    Utron Super Moderator Thành viên BQT

    @xversion1
    Tôi Open file pdf của topic này:
    Vui lòng đăng nhập hoặc đăng ký để xem link
    bằng Word 2016 rồi lưu lại ở dạng Word thì được file đính kèm dưới đây.
    upload_2022-10-20_20-45-53.png
     

    Các file đính kèm:

    xversion1 and tran ngoc anh like this.
  6. xversion1

    xversion1 Lớp 3

    Sao em thấy Acrobat nó tìm chẳng đúng gì bác ơi. Header lù lù nhưng dùng cái Tool remove của nó toàn báo tìm không thấy thôi.
     
  7. tran ngoc anh

    tran ngoc anh Cử nhân

    Crop bỏ header chứ không phải remove đâu bạn. Crop để phần lề giấu đi nguyên khu vực header ấy.
     
    xversion1 thích bài này.
  8. nhat1395

    nhat1395 Lớp 7

    Hôm bữa có bạn cũng bị này xong dùng pdf-xchange convert lại ra ngon nghẻ :ss
    Vui lòng đăng nhập hoặc đăng ký để xem link
     
    xversion1 thích bài này.
  9. xversion1

    xversion1 Lớp 3

    Sao bác ko dùng ABBY mà lại dùng Word? Em tưởng ABBY phần mềm chuyên dụng phải giữ định dạng tốt hơn chứ?
     
  10. tran ngoc anh

    tran ngoc anh Cử nhân

    Ý bạn là cho Abbyy OCR nguyên file true PDF ấy phải không?
     
  11. xversion1

    xversion1 Lớp 3

    Đúng bác.
     
  12. tran ngoc anh

    tran ngoc anh Cử nhân

    Với true PDF, tức PDF này chứa text, bạn chỉ cần dùng app nào để múc text ra là được, không phải vấn đề của OCR nữa.

    Hai app lớn và phổ biến giải được vấn đề phía trên là Acrobat và Microsoft Word.

    Với Acrobat đều có thể xuất html và cả docx, rtf ghostscriprlt.... nhưng thường thì dàn trang bị xô lệch. Mình rất hay dùng Acrobat để xuất html để đóng gói epub.

    Còn với MS Word thì cách xử lý của phần mềm có khác một chút. Tức Word sẽ "đọc" true PDF này, "đọc" được vì true PDF là text mà. Sau đó lưu thành docx, text trong true PDF như nào thì qua docx y như vậy. Bản chất của đọc text rất đơn giản, chỉ đọc thôi, không phải OCR, không có lỗi chính tả.

    Mình thấy Word nó giữ Form của true PDF gần như nguyên vẹn, Acrobat kém hơn, nhưng Acrobat linh hoạt hơn vì có thể crop bộ header nữa, và nhiều định dạng xuất cũng rất chuẩn.

    Nói thêm, Word còn có thể đọc html sau đó dàn trang hay trang trí font chữ các thứ rồi lưu thành docx cũng được luôn. Word không chỉ để gõ văn bản, những tính năng nhỏ nhỏ của ẻm cũng rất hữu ích, tuy nặng nhưng tốc độ xử lý cao cũng như khả năng tải những file lớn tốt hơn các ứng dụng nhỏ lẻ nhiều.

    Mà Word thì 100% máy tính đều có rồi, khỏi cài thêm app khác.
     
    xversion1 thích bài này.

Chia sẻ trang này