Kinh điển Tây Du Ký - Ngô Thừa Ân <Phan Quân dịch (có bổ sung)>

Thảo luận trong 'Tủ sách Văn học Trung Quốc' bắt đầu bởi vbcomer, 24/12/23.

  1. thohnb

    thohnb Lớp 2

    Xuất ra được rồi thím :D

    Em dùng tool trên Vui lòng đăng nhập hoặc đăng ký để xem link này này. Xong input là file pdf của bác.

    Nó sẽ giả sử , file pdf của bác toàn là ảnh được chia ra làm hai loại:
    1 - ảnh minh hoạ có dung lượng lớn.
    2 - ảnh trắng chữ đen có dung lượng nhỏ hơn.
    Nó sẽ xuất ra 2 loại ảnh trên.
    Xong em sẽ sort lại bằng công cụ có sẵn trong windows :D .
    Từ đó mình sẽ lọc ra những file có kích cỡ lớn hơn 200kb tức là ảnh minh hoạ :D
    Rất là may mắn khi file ảnh của thím là 1 trang riêng biệt nên get khá dễ :D
    Nếu chẳng may gặp phải ảnh mà nằm giữa/lọt thỏm trong phần text thì chịu :D
    Giờ ngồi lọc ra từng chương có ảnh minh hoạ, xong đánh số ảnh theo thứ tự từ 1 đến 2 ( tức trước - sau) nữa là xong :D
    Nếu có 3 thì 1 - 2 -3 (trước - giữa - sau)
    Kết quả :D
    [​IMG]

    [​IMG]
     

    Các file đính kèm:

    Chỉnh sửa cuối: 30/12/23
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Tool này quá đát rồi :D
     
    thohnb thích bài này.
  3. thohnb

    thohnb Lớp 2

    Hóng bác share hàng mới :D
     
    tran ngoc anh thích bài này.
  4. hungbc1010

    hungbc1010 Lớp 6

    Đừng cám ơn mình bạn ơi, mình chỉ tải mấy phần có sẵn phía trên gộp lại thôi mà, nguồn vẫn là của @Sadec1:p
     
    Chỉnh sửa cuối: 2/1/24
    tran ngoc anh thích bài này.
  5. tran ngoc anh

    tran ngoc anh Cử nhân

    Cái này sẽ giúp ích cho bạn nếu có xử lý tình huống tương tự như thế này về sau. Hoặc trước mắt cũng giúp bạn tìm được vị trí chính xác của ảnh minh họa trong sách để có thể chèn ảnh vào bản text như dự định của bạn.

    Chỉ cần dùng pdfimages trong bộ công cụ Vui lòng đăng nhập hoặc đăng ký để xem linkmà mình đã tag bạn bên thread kia:

    [​IMG]

    Sau khi gõ lệnh như ảnh, bạn sẽ thấy ảnh minh họa có dpi chỉ 103, do bộ file này mình cố ý giảm nét ảnh minh họa rồi, phần nội dung còn lại toàn bộ đều có 600 dpi.

    Để lọc ra các trang 103 dpi này cũng cực kỳ là đơn giản và nhanh. Bạn kéo chọn toàn bộ kết quả hiện thị trên cmd rồi dán qua notepad++, sau đó tiến hành lọc như sau, kéo chọn cụm "0 103 103" ấn "Ctr + M" để đánh dấu bookmark line như hình:

    [​IMG]

    Chọn Search như hình để lọc các bookmark line:

    [​IMG]

    Lúc này chỉ còn các trang minh họa 103 dpi. Bây giờ chúng ta cần tập trung vào dãy số trang đầu mỗi dòng text: 25,33,51,61. Đặt trỏ chuột tại vị trí đầu tiên của dòng đầu tiên. Kéo con lăn chuột để xuống dòng cuối cùng (hoặc kéo scroll bar sẽ nhanh hơn lăn chuột), nhấn Shift + Alt rồi nhấn nút chuột trái ngay vị trí phía sau con số 685 để chọn chỉ cột số trang. Bạn cũng có thể lọc cột số này bằng Excel, mọi người thường làm mọi sự trên đời bằng Excel ngay cả vẽ tranh :D

    [​IMG]

    Nhấn Ctr + C để chép cột số sang tệp notepad++ trống mới rồi xử lý thay thế như sau:

    [​IMG]

    Ta được dãy số các trang ảnh minh họa, nhớ xóa dấu phẩy đầy dòng, copy dãy số rồi tiến hành lọc bằng PDFill Free Tool. Cài Vui lòng đăng nhập hoặc đăng ký để xem link PDF Tools từ Vui lòng đăng nhập hoặc đăng ký để xem link, hoặc lội Vui lòng đăng nhập hoặc đăng ký để xem link để thăm quan.

    [​IMG]

    Mở PDFill ở công cụ số 2 bạn chọn đến tệp Tây Du Ký vừa nãy rồi đánh dấu và dán dãy số vào ô như hình:

    [​IMG]

    Bấm save as để lưu các trang này thành một tệp pdf mới chứa các trang ảnh minh họa 103 dpi mà ta xử lý nãy giờ. Từ đó bạn có thể dễ dàng convert tệp pdf mới này thành ảnh bằng bất cứ công cụ nào. Do bộ ảnh này của mình đã nén jbig2 nên bạn cho vào Abbyy lưu ra thành png monochrome (trắng đen) sẽ tối ưu dung lượng.

    Bây giờ chúng ta có gì bằng câu lệnh pdfimages đầu bài: chúng ta có toàn bộ các trang ảnh đã được tách ra, vị trí trang tương ứng để có thể biết nó nằm ở đâu giữa đoạn text mà không cần dò bằng mắt qua hơn 700 trang sách. Nếu như dùng luôn bộ ảnh mình đã gửi sẵn cho bạn, thì chỉ cần dùng phương pháp này để biết được vị trí ảnh minh họa là vừa đủ, mục đích để đánh dấu vào text và chèn ảnh về sau.
     
    Chỉnh sửa cuối: 4/1/24
    plamduy, machine, vinaguy and 2 others like this.
  6. thohnb

    thohnb Lớp 2

    Woa kiến thức này hay này thím.
    Để em test thử xem sao :D.
    Edit: Đã hiểu cách làm của bác và đã test.
    Đúng là tiết kiệm kha khá thời gian phết khi biết được số trang và thứ tự ảnh đó thím :D
    Thanks thím nhiều nhen :D
     
    Chỉnh sửa cuối: 4/1/24
    tran ngoc anh thích bài này.
  7. thohnb

    thohnb Lớp 2

    Mình làm theo cách trên của thím @tran ngoc anh với cuốn Don Quixote có chứa ảnh minh hoạ kèm chữ á. Tới đây làm gì tiếp nữa hả thím @tran ngoc anh. Dùng photoshop để cắt ra hả thím
    upload_2024-1-5_6-36-0.png
     
  8. tran ngoc anh

    tran ngoc anh Cử nhân

    Để mình xem lại cuốn Don này lúc trước mình ém hình như thế nào.
     
    Chỉnh sửa cuối: 5/1/24
  9. vinaguy

    vinaguy Lớp 11

    Dùng paint đi bác... Em chẳng dùng photoshop bao giờ... Vừa bự vừa không cần "dùng dao mổ trâu để giết gà" bác ạ. Em thấy chỉ mỗi paint đã đủ để em tung hoành với hình minh họa trong sách rồi... :)
    Đương nhiên nếu bác dùng được Photoshop thì lại quá chuẩn luôn í ạ. :)
    P/S: Em viết nhầm tên soft ạ... PaintDotNet ạ (chứ paint bình thường thì các bác lại nhầm với Paint của windows đấy ạ)
     
    Chỉnh sửa cuối: 5/1/24
    machine and thohnb like this.
  10. tran ngoc anh

    tran ngoc anh Cử nhân

    Ở bước này hôm qua mình quên lưu ý,

    [​IMG]

    Chọn chỗ đánh dấu để PDFill lưu các trang còn lại thành một tệp riêng, mục đích là kiểm tra lại một lần nữa tệp này xem có sót ảnh minh họa nào không.

    Lưu ý tiếp theo ở bước này nếu chỉ gõ lệnh thôi thì kết quả sẽ chỉ hiện thị trên cmd và khi muốn lọc phải kéo chọn rồi nhấn Ctr + C mới dán qua notepad++ được, như vậy nếu pdf có vài ngàn trang thì kéo cũng khá vất vả.

    [​IMG]

    Thay vì như thế ta sửa đổi câu lệnh để in trực tiếp kết quả ra tệp txt mà không cần kéo chọn, copy paste lằng nhằng. Thêm " > Don2.txt" như ví dụ trong ảnh để in kết quả vào tệp Don2.txt.

    Trong 3 cuốn Don Quixote thì mình thấy các trang có ảnh minh họa có vài độ phân giải khác nhau hơi rối. Thay vì đánh dấu các trang này thì ta hãy tập trung vào các trang nội dung có độ phân giải 599 dpi rất đồng nhất, ta hãy đánh dấu 599 rồi lọc bỏ các trang 599 dpi này và sẽ chỉ còn lại các trang ảnh minh họa.

    [​IMG]
     
    machine thích bài này.
  11. tran ngoc anh

    tran ngoc anh Cử nhân

    Ảnh minh họa của bộ này mình xử lý theo kiểu tách bỏ phần text ra khỏi trang ảnh. Sau đó xử lý riêng phần text thành png monochrome có nền trong suốt để ghép vào lại ngay vị trí cũ, phần ảnh minh họa và text vẫn là 2 player khác nhau trên một trang PDF.

    Vì vậy sau khi bạn đã có các trang pdf ảnh minh họa, dùng tiếp câu lệnh sau để bung toàn bộ ra các loại ảnh:

    [​IMG]

    Dùng lệnh "del *.jp2" và "del *.jb2e" để xóa các ảnh chứa text. Còn các trang minh họa có đuôi .jpg có thể gõ lệnh "md JPG" để tạo thư mục JPG, sau đó gõ "move *.jpg JPG" để di chuyển các ảnh jpg này vào thư mục JPG cho gọn.

    [​IMG]

    Ảnh của bộ này có phần lề trắng rất rộng, đó là chủ ý của mình, vì ban đầu cả ảnh và text đều nằm cùng một trang cố định kích thước mong muốn rồi. Mỗi trang như vậy mình nhân làm 2, 1 mình sẽ có ảnh, 1 xóa text, tạo thành 2 nửa cố định vị trí với lề trang ban đầu, như vậy khi ghép vào không cần căn chỉnh gì vì lề của cả hai đều y như vị trí cũ. Điều đó bắt buộc phải đục nền của phần text và ghép vào phần ảnh để phần nền trong suốt của text không che lấp ảnh minh họa, chứ không nên ngược lại vì sẽ dẫn đến phần nền không được đục của ảnh minh họa sẽ che lấp phần text. Vì về mặt kỹ thuật đục nền của text monochrome triệt để hơn là đục nền của ảnh minh họa đa màu.

    Để xử lý phần lề rộng này thì Calibre Editor hỗ trợ chúng ta rất tốt, không cần Paint hay Photoshop chi cho phức tạp:

    [​IMG]

    Crop chuẩn lắm luôn:

    [​IMG]

    Hoặc lười phải cắt từng ảnh thì lại gõ lệnh vậy :D

    [​IMG]

    Do một số ảnh có vết dơ (pixel khác màu trắng) quá gần lề thì lệnh trim cũng đụng vừa đến vết dơ là dừng. Do đó một vài ảnh còn thừa không triệt để. Cứ add vào calibre editor rồi trim thủ công thêm vậy. Nói chung để crop lề như ca này thì gõ lệnh vào Calibre editor là lựa chọn hợp lý hơn Paint và Photoshop.
     
    machine and thohnb like this.
  12. thohnb

    thohnb Lớp 2

    Woa. Nhiều thứ mới quá bác :D.
    Thanks thím nha. Mình đang định remake lại bộ Don này một cách chỉnh chu.
    Hôm vừa rồi ngồi xem lại file epub của chính mình làm nó .. rác nhiều quá T_T nên mình sẽ remake lại 2 bộ TDK với bộ Don Quixote này luôn.
    Sau một thời gian ngồi tu luyện, mình học được cách làm cho file html đỡ rác hơn :D
     
    machine and tran ngoc anh like this.
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    Cái mới xuất hiện hằng ngày. Đôi lúc chúng ta sẽ tự phát hiện do vô tình làm khác thường ngày đôi chút. Đôi khi do người khác phát hiện và chỉ cho chúng ta. :D
     
    thohnb thích bài này.
  14. thohnb

    thohnb Lớp 2

    hì thím ơi , cho phép mình hỏi chuyện hơi không liên quan 1 chút.
    Có cách nào để xuất file pdf chỉ các nội dung mà mình đánh dấu vàng ( bằng cách chuột trái khoanh vùng , xong bấm A để đánh dấu vàng không ạ. )
    Ví dụ: Mình có đánh dấu đoạn này ở mục 1.1 chẳng hạn.
    Mình muốn xuất ra file pdf mới chỉ chứa mục Exercises 1 của section 1.1 ạ .
    upload_2024-1-10_19-12-36.png
     
  15. tran ngoc anh

    tran ngoc anh Cử nhân

    Để nghiên cứu thêm chứ mình chưa biết :D
     
  16. nhockon_cm

    nhockon_cm Lớp 1

    Mộng Bình Sơn dịch thì khỏi chê rồi, ổng còn dịch Tam quốc với Hán Sở nữa. Cuối truyện lúc nào cũng có lời ổng bàn.
     
  17. vbcomer

    vbcomer Lớp 2

    @thohnb, @chanhvan1987, @vinaguy và bà con cô bác anh chị em... links đã được cập nhật với bản pdf và epub mới nhất, Tây Du Ký do Phan Quân dịch, nxb Khai Trí - Sài Gòn 1962.
     
    vinaguy, chanhvan1987, zomkey and 3 others like this.
  18. PhucThanh1506

    PhucThanh1506 Mầm non

    Cảm ơn công sức của bác và mọi người, mình theo dõi quá trình mọi người làm cũng góp nhặt kha khá kiến thức làm ebook!!!!
     
  19. nhockon_cm

    nhockon_cm Lớp 1

    Trong 3 cuốn, thiếu trang nào bác ghi ra dùm em đi, để em mượn bạn chụp cho .
     
  20. thohnb

    thohnb Lớp 2

    Đã sửa xong chính tả hết rồi hả bác :D
     

Chia sẻ trang này