Hỏi đáp Xử lý file PDF text để được ebook không lỗi xuống dòng?

xversion1 · 20/10/22

File PDF mà là dạng text, tức không phải loại ảnh chụp OCR, thì có cách nào chuyển nó thành file Word (hoặc file text gì đấy cũng được nhưng phải giữ được định dạng) để làm ebook không các bác. Thường em chuyển gặp 2 vấn đề, một là lỗi xuống dòng, văn bản nó xuống dòng theo căn lề của của PDF, PDF chữ đến lề hết dòng thì file chuyển cũng xuống dòng theo mặc dù chưa hết câu. Thỉnh thoảng phần mềm cũng nhận biết nhưng nhận biết vẫn thiếu nên không soát thì vẫn lỗi. Hai là những ký tự đặc biệt có khả năng lỗi font.

Em tưởng là nó đã là text thì những cái lỗi này phải không xảy ra mới đúng. Là text thì cứ thế mà copy hay convert gì đó chứ có cần OCR nữa đâu mà vẫn bị những cái lỗi này? Không biết các bác có cách nào xử lý kiểu file PDF text này mà mặc định ko cần soát cũng ko có 2 cái lỗi này không?

tran ngoc anh · 20/10/22

Mình hay dùng word để mở true PDF rồi lưu thành docx, giữ định dạng khá tốt. Hai là dùng acrobat xuất html, nhét vào epub định dạng luôn.

Mặc dù không có lỗi xuống dòng nhưng vẫn còn vấn đề ngắt trang, cái này regex lo được.

Bonus, nếu true pdf của ybook, rất dễ chuyển, không bị mã hoá hay bảng mã khác unicode phức tạp gì đâu.

xversion1 · 20/10/22

tran ngoc anh nói: ↑

Mặc dù không có lỗi xuống dòng nhưng vẫn còn vấn đề ngắt trang, cái này regex lo được.
Click to expand...

Dùng regex một số file trình bày lòe loẹt sợ nó thay cả chỗ nào ko liên quan đến ngắt trang ý bác. Thỉnh thoảng bị vậy ko biết chỗ nào mà sửa lại.
Xuất HTML thì em chưa thử bao giờ, ko biết có mất định dạng ko? Mất lại phải dò lại làm lại thì lâu chết.

tran ngoc anh · 20/10/22

xversion1 nói: ↑

Dùng regex một số file trình bày lòe loẹt sợ nó thay cả chỗ nào ko liên quan đến ngắt trang ý bác. Thỉnh thoảng bị vậy ko biết chỗ nào mà sửa lại.
Xuất HTML thì em chưa thử bao giờ, ko biết có mất định dạng ko? Mất lại phải dò lại làm lại thì lâu chết.
Click to expand...

Cũng chỉ có cách này thôi bạn, mình thường định dạng xong tất cả rồi nối đoạn là bước cuối cùng. Bạn có thể tham khảo một số trường hợp nối mà mình đã đúc kết.

Thay từng cái thì ít nhầm được. Song ở mục "nối đoạn cơ bản" có thể thay toàn bộ vì mình đã ràng buộc một số quy tắt để không bị thay nhầm.

Thêm: cách dùng word đọc true pdf có thể hạn chế số đoạn bị ngắt, điều kiện là phải dùng acrobat crop bỏ các header trước, vì header có thể ngăn cách nội dung của các trang thì word sẽ không tự liên kết các trang được.

Utron · 20/10/22

@xversion1
Tôi Open file pdf của topic này:
Vui lòng đăng nhập hoặc đăng ký để xem link
bằng Word 2016 rồi lưu lại ở dạng Word thì được file đính kèm dưới đây.

xversion1 · 26/10/22

tran ngoc anh nói: ↑

Thêm: cách dùng word đọc true pdf có thể hạn chế số đoạn bị ngắt, điều kiện là phải dùng acrobat crop bỏ các header trước, vì header có thể ngăn cách nội dung của các trang thì word sẽ không tự liên kết các trang được.
Click to expand...

Sao em thấy Acrobat nó tìm chẳng đúng gì bác ơi. Header lù lù nhưng dùng cái Tool remove của nó toàn báo tìm không thấy thôi.

tran ngoc anh · 26/10/22

xversion1 nói: ↑

Sao em thấy Acrobat nó tìm chẳng đúng gì bác ơi. Header lù lù nhưng dùng cái Tool remove của nó toàn báo tìm không thấy thôi.
Click to expand...

Crop bỏ header chứ không phải remove đâu bạn. Crop để phần lề giấu đi nguyên khu vực header ấy.

nhat1395 · 28/10/22

Hôm bữa có bạn cũng bị này xong dùng pdf-xchange convert lại ra ngon nghẻ :ss
Vui lòng đăng nhập hoặc đăng ký để xem link

xversion1 · 10/11/22

tran ngoc anh nói: ↑

Mình hay dùng word để mở true PDF rồi lưu thành docx, giữ định dạng khá tốt.
Click to expand...

Sao bác ko dùng ABBY mà lại dùng Word? Em tưởng ABBY phần mềm chuyên dụng phải giữ định dạng tốt hơn chứ?

tran ngoc anh · 10/11/22

xversion1 nói: ↑

Sao bác ko dùng ABBY mà lại dùng Word? Em tưởng ABBY phần mềm chuyên dụng phải giữ định dạng tốt hơn chứ?
Click to expand...

Ý bạn là cho Abbyy OCR nguyên file true PDF ấy phải không?

xversion1 · 10/11/22

tran ngoc anh nói: ↑

Ý bạn là cho Abbyy OCR nguyên file true PDF ấy phải không?
Click to expand...

Đúng bác.

tran ngoc anh · 11/11/22

xversion1 nói: ↑

Đúng bác.
Click to expand...

Với true PDF, tức PDF này chứa text, bạn chỉ cần dùng app nào để múc text ra là được, không phải vấn đề của OCR nữa.

Hai app lớn và phổ biến giải được vấn đề phía trên là Acrobat và Microsoft Word.

Với Acrobat đều có thể xuất html và cả docx, rtf ghostscriprlt.... nhưng thường thì dàn trang bị xô lệch. Mình rất hay dùng Acrobat để xuất html để đóng gói epub.

Còn với MS Word thì cách xử lý của phần mềm có khác một chút. Tức Word sẽ "đọc" true PDF này, "đọc" được vì true PDF là text mà. Sau đó lưu thành docx, text trong true PDF như nào thì qua docx y như vậy. Bản chất của đọc text rất đơn giản, chỉ đọc thôi, không phải OCR, không có lỗi chính tả.

Mình thấy Word nó giữ Form của true PDF gần như nguyên vẹn, Acrobat kém hơn, nhưng Acrobat linh hoạt hơn vì có thể crop bộ header nữa, và nhiều định dạng xuất cũng rất chuẩn.

Nói thêm, Word còn có thể đọc html sau đó dàn trang hay trang trí font chữ các thứ rồi lưu thành docx cũng được luôn. Word không chỉ để gõ văn bản, những tính năng nhỏ nhỏ của ẻm cũng rất hữu ích, tuy nặng nhưng tốc độ xử lý cao cũng như khả năng tải những file lớn tốt hơn các ứng dụng nhỏ lẻ nhiều.

Mà Word thì 100% máy tính đều có rồi, khỏi cài thêm app khác.

Đăng nhập

Mời tham gia cuộc thi "CHIA SẺ KỶ NIỆM ĐÁNG NHỚ" nhân dịp TVE-4U 10 tuổi

Hướng dẫn chuyển đổi các định dạng eBook

Hướng dẫn xử lý lỗi không 'download - viết bài - xem link' được trên diễn đàn

Hỏi đáp Xử lý file PDF text để được ebook không lỗi xuống dòng?

xversion1 Lớp 3

tran ngoc anh Cử nhân

xversion1 Lớp 3

tran ngoc anh Cử nhân

Utron Super Moderator Thành viên BQT

Các file đính kèm:

Truyện cổ Madagascar.docx

xversion1 Lớp 3

tran ngoc anh Cử nhân

nhat1395 Lớp 7

xversion1 Lớp 3

tran ngoc anh Cử nhân

xversion1 Lớp 3

tran ngoc anh Cử nhân

Chia sẻ trang này