PC [cmd] Bộ công cụ Poppler PDF cho Windows

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 20/11/21.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Thread này mình bắt đầu một series mới về bộ công cụ Poppler chuyên xử lý PDF dành cho Windows.

    Tiếp tục với một mẹo liên quan đến PDF, đó là xem ppi của các trang pdf mà không cần bung ảnh ra để kiểm tra từng ảnh một bằng các trình chỉnh sửa ảnh (trình chỉnh ảnh đơn giản nhất có thể xem độ phân giải của ảnh chính là MS paint huyền thoại của Microsoft ^_^)

    1. Đầu tiên tải bộ phần mềm Poppler tại Vui lòng đăng nhập hoặc đăng ký để xem link (vì trước mình dùng trong Linux subsystem, hay đúng hơn là bộ này phát triển cho Linux hoặc Unix gì đó, Unix thì có MAC OS nên là cũng thấy ẻm bên MAC):

    [​IMG]

    -> Bản 21.11.0-0 này đang là bản mới nhất, các bạn tải file Release-21.11.0-0.zip nặng khoảng 14MB nhé

    2. Giải nén bộ phần mềm và lưu lại ở một chỗ nào đó, mình thì bắn thẳng vào "C:\Program Files"

    3. Set môi trường cho poppler nào, nhấn win rồi gõ env chọn như hình,

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    -> Ảnh ngay trên các bạn bấm New để thêm một dòng path, theo mũi tên màu đỏ mình đã set sẵn trên máy mình là đường dẫn đến thư mục bin bên trong thư mục của bộ phần mềm poppler, bên trong bin là tập hợp nhiều file .dll và .exe của các phần mềm con trong bộ, toàn các hảo thủ không đó, mà gom lại có mười mấy MB thôi, cái ngon của app dòng lệnh là nhẹ, nhẹ và chỉ có nhẹ mà thôi ^_^

    -> thêm path xong thì bấm ok tất cả các của sổ env vừa mở để hệ thống thay đổi cài đặt,

    -> Set môi trường xong là đã có thể sử dụng các phần mềm của bộ poppler này với cmd rồi, còn Fast & Furious hơn cả cài đặt nữa :D

    4. Mở cmd và gõ lệnh sau: pdfimages -list jpg.pdf

    >> jpg.pdf là tên của file PDF đang được lấy làm mẫu.

    Nếu mở cmd tại thư mục chứa file pdf đó thì sau -list chỉ cần là tên đầy đủ của file pdf, nếu mở cmd tại chỗ khác thì sau -list phải là đường dẫn đầy đủ tới file pdf ở trong ngoặc kép: pdfimages -list "C:\Users\Heisenberg\Desktop\test\jpg.pdf"

    Để lấy được đường dẫn đầy đủ của một file rất dễ, gõ tên file vào Everything để tìm đến file rồi copy đường dẫn của em nó, Everything có thể tìm được bất cứ file nào trong bất cứ ngỏ hẻm nào bên trong máy tính ^_^

    [​IMG]

    Như hình thì các bạn có thể thấy, cmd trả lại kết quả là thông tin về các trang ảnh bên trong của file pdf, file mẫu của mình thì được scan với 300 ppi, nên dải số được đánh dấu đều một số 300 :D

    => Tóm lại, 1 tải file zip của bộ poppler, giải nén vào một thư mục nào đó, 2 set môi trường, 3 là dùng với câu lệnh cmd, easy ^& ^&

    CHÚC CÁC BẠN THÀNH CÔNG!
     
    Chỉnh sửa cuối: 21/11/21
    Anan Két, machine and Nada like this.
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Tiếp theo một tính năng của Popper là trích ảnh từ PDF bằng công cụ pdfimages.

    Ưu điểm của phần mềm này là tốc độ vì ẻm chỉ lấy nguyên ảnh gốc bên trong đem ra ngoài, y như giải nén zip vậy, và chúng ta chỉ cần ảnh gốc bên trong thôi chứ ai lại muốn lấy ảnh ra mà bị nén hay là dung lượng phình to ra cơ chứ ^_^

    Thêm một ưu điểm nữa là pdfimages chỉ quét ảnh thật trong các trang pdf và lấy nó ra, tức là bỏ qua tất cả các thành phần khác như true text, lớp player pdf, media, nhạc... điều đó có nghĩa là những trang pdf nào chỉ toàn là text thì pdfimages sẽ cho qua không lấy ra được gì, những trang mà có ảnh minh họa rời với khung text xung quanh thì pdfimages sẽ lấy ra chỉ mỗi cái ảnh đó, đó là ưu điểm và cũng được coi như bộ lọc ảnh siêu chính xác của pdfimages thuộc bộ công cụ poppler này.

    Còn dĩ nhiên nếu file pdf scan của chúng ta chỉ toàn các trang scan gốc, pdfimages sẽ bung những hình ảnh tương ứng của các trang đó ra, đặc biệt là nếu pdf được crop lề ảo bằng acrobat hay các phần mềm khác, thì khi bung ảnh, ảnh sẽ được khôi phục lề ban đầu, vì rõ ràng pdfimages chỉ lấy ảnh mà bỏ qua hết các player, thông số thiết đặt của pdf mà.

    Tóm lại ảnh gốc bên trong như thế nào thì pdfimages sẽ lấy ra y nguyên như thế.

    1. Mở cmd tại thư mục chứa file pdf, gõ lệnh:

    pdfimages -all 3qdn.pdf img

    • pdfimages lệnh gọi phần mềm
    • -all là bung tất cả các định dạng bên trong pdf
    • img cuối câu lệnh là tên mở đầu mà pdfimages sẽ đặt các file ảnh được bung ra.

    [​IMG]

    [​IMG]

    2. Nếu muốn bung ảnh vào một thư mục con thì gõ

    md sub
    • sub là tên thư mục con, đặt tên gì cũng được.
    Sau đó tiếp tục gõ lệnh sau:

    pdfimages -all 3qdn.pdf ./sub/img
    • ./sub/ là để cho pdfimages hiểu chúng ta cần nó bung ảnh vào trong thư mục con của thư mục hiện tại có tên "sub" đã được tạo ra trước đó
    [​IMG]


    [​IMG]

    CHÚC CÁC BẠN THÀNH CÔNG!
     
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Hàng mới đã post từ lâu :D
     
    luasaigon and thohnb like this.
  4. thohnb

    thohnb Lớp 2

    Em đang dùng bản 23.0 ( bản mới nhất) thì khi xuất ảnh từ file pdf Tây Du Kí, nó lại ra định dạng j2bg bác ạ.
    upload_2023-12-30_17-52-23.png
    Hay là do version 23.11 nhỉ..
    [​IMG]
     
  5. tran ngoc anh

    tran ngoc anh Cử nhân

    Hôi lấy bản gốc này đi cho khỏe :D
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Xui cái là bản scan mình đã update lại số ảnh minh họa thành jbig2 rồi nên poppler bung ra jbig2 luôn ấy mà :D
     
    thohnb thích bài này.
  6. thohnb

    thohnb Lớp 2

    Hihi cảm ơn mod nhiều.
    Chờ bản đầy đủ của thím kia rồi em bắt đầu làm lại.
    Hí hí
     
  7. oldman20

    oldman20 Lớp 2

    đội ơn OP, mình có file pdf tài liệu chuyên ngành 600 trang mà toàn là scan dạng picture nên up lên NotebookLM nó không có "đọc" được để mình còn tương tác với nó. Hi vọng cách này có thể được, đành phải bung hết thành file ảnh trong file true pdf rồi OCR. Các bước như vậy đúng không nhỉ các Pro?
     
    tran ngoc anh thích bài này.
  8. tran ngoc anh

    tran ngoc anh Cử nhân

    Tức là bạn đang có true pdf hay là pdf hình ảnh?
     
    oldman20 thích bài này.
  9. oldman20

    oldman20 Lớp 2

    mình hơi kém không rõ true pdf là gì? vì mình chỉ thấy các file pdf có 2 loại là có thể copy đượcchữ và loại chỉ đọc chứ không copy được chữ, loại copy được chữ trên trình đọc pdf thì có thể reflow, còn loại không copy được thì không reflow được
    Tài liệu mình muốn làm nó thuộc dạng ảnh, không copy được ấy Ad
     
  10. josedoad

    josedoad Mầm non

    Cho mình hỏi là mình dùng adobe acrobat cũng cảm giác là nó chỉ crop ảo thôi (nghĩa là có thể khôi phục được), chứ không phải crop hoàn toàn. Không biết có software nào khác là tốt nhất để crop margin hoàn toàn file PDF không ?
     
  11. tran ngoc anh

    tran ngoc anh Cử nhân

    Có bạn. Bạn thử trình editor của AbbyyFine xem. Nguyên lý của crop thật chính là app sẽ cắt viền thật của từng ảnh bên trong rồi đóng lại pdf. Còn nếu là true pdf thì lấn viền ảo bằng Acrobat là nhanh và ổn nhất rồi bạn.
     
    machine and josedoad like this.
  12. ZedeXXIII

    ZedeXXIII Mầm non

    Nếu muốn, sau khi chỉnh crop size, bạn có thể in lại file đấy, mình dùng Acrobat XI, nên chọn "Choose paper source by PDF page size".
    Hoặc bạn có thể chỉnh luôn kích thước trang giấy, mình dùng Enfocus PitStop Pro, hoặc bộ plugins của Evermap.
    Mình không dùng mấy phần mềm chỉnh sửa pdf khác nên không rõ, nhưng nghĩ là cũng có :D
     
    josedoad, machine and tran ngoc anh like this.
  13. oldman20

    oldman20 Lớp 2

    Mod giải đáp dùm mình với
     
  14. ZedeXXIII

    ZedeXXIII Mầm non

    True pdf bạn mod nói chắc ý là pdf text + hình ảnh (có thể xuất từ word, convert từ các định dạng khác như epub, mobi…). Còn pdf hình ảnh chắc là pdf làm từ các ảnh được scan hay chụp.

    Còn mình thì phân loại hơi khác. True pdf là pdf gốc từ nhà xuất bản. Các loại pdf khác từ word (tự làm, vì có một số nhà xuất bản cũng chế bản bằng word), convert từ epub… mình gọi là text pdf. Pdf làm từ việc scan hoặc chụp mình gọi chung là scanned pdf. Loại này có khi người ta thêm tag siPDF để chỉ scanned pdf đã OCR (nhận dạng văn bản), nếu bạn tải pdf từ IRC thì có thể thấy siPDF này.

    Nói thêm, true pdf (theo ý mình) vốn từ nhà xuất bản, được xuất từ các phần mềm chế bản chuyên nghiệp nên đẹp hơn, và cũng từ đó nên giống hệt bản in. Nhưng vẫn có nhiều pdf gốc từ nhà xuất bản vẫn là scanned pdf do đã phát hành từ lâu, như nhiều sách lịch sử cũ của Cambridge, hay hai quyển khá phổ biến là A Dictionary of Basic/Intermediate Japanese Grammar, quyển Advanced phát hành mãi sau này nên có true pdf :p
     
    oldman20 thích bài này.
  15. oldman20

    oldman20 Lớp 2

    Cám ơn bạn, vậy thì file pdf của mình thuộc dạng ảnh chụp lại file sách giấy, tiếng Việt, hình ảnh bảng biểu có nhưng ít và đơn giản. Hiện mình đã dùng poppler để tách ra thành các file ảnh rồi, giờ có cách nào OCR để chuyển thành pdf mà có thể copy chữ mà nhanh chóng không nhỉ?
     
  16. machine

    machine Sinh viên năm I

    Mình chia pdf làm 2 loại: text pdf và scanned pdf.
    true pdf là 1 dạng text pdf nhưng bố trí hình thức, nội dung... các trang trùng với sách giấy.
    Một số file pdf của bên sachweb là dạng true pdf.
     
  17. machine

    machine Sinh viên năm I

    import file pdf của bạn vào vFlat rồi bấm vào Create pdf nó sẽ tự OCR và xuất ra file searchable pdf. Nhớ bật wifi/3G/4G/5G :D Cái này mình được bạn sucsongmoi hướng dẫn :D
    Như bản mod của mình bị lỗi sao đó thì có lúc phải Create TXT xong Create pdf mới tạo được file searchable pdf trong vFlat.
    vFlat nhận dạng ký tự tiếng Việt (có lẽ là) tốt nhất hiện nay.
    Cho dù là text pdf, khi import vào vFlat vẫn coi là scanned pdf và xử lý như bình thường.
    Abbyy cũng tạo được file seachable pdf từ scanned pdf tiếng Việt nhưng độ chính xác kém hơn vFlat.
     
    Chỉnh sửa cuối: 11/12/24
    oldman20 thích bài này.
  18. oldman20

    oldman20 Lớp 2

    ồ cám ơn bạn để mình thử, trước giờ toàn dùng ABBYY thôi, nghe tên vFlat cứ nghĩ phần mềm của Việt Nam :))
     
    machine thích bài này.
: poppler

Chia sẻ trang này