Thảo luận Tổng hợp hướng dẫn làm ebook cho Beginner

Discussion in 'Bàn Trà' started by gustavschlomo, Aug 12, 2023.

Moderators: amylee
  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Ở trong tủ "Hướng dẫn chung" họ làm sẵn cả mục lục rồi :D
     
    ai biet gi dau likes this.
  2. gustavschlomo

    gustavschlomo Lớp 4

    Cái mình thấy khó khăn nhất khi làm ebook, là ở khâu định dạng text, làm sao để căn lề, in đậm in nghiêng, đổi font chữ, chèn ảnh.... Cơ bản là tất cả những gì Word làm đơn giản thì khi edit bằng Calibre thật sự rất khoai .
     
  3. machine

    machine Sinh viên năm I

    Mặc dù gọi là "làm ebook" nhưng thao tác chủ yếu là trên Word, thao tác trên Sigil/Calibre Editor chỉ chiếm phần nhỏ thôi.
    Định dạng in đậm in nghiêng thì dùng Ctrl B, Ctrl I
    Mấy cái canh lề, hiển thị ảnh, đổi font chữ... thì "đánh dấu" bằng mấy ký hiệu là xong, sau đó dùng mấy câu lệnh thay thế hàng loạt.
    Tui sẽ hướng dẫn từng bước. "Đánh dấu" là bước gần cuối. Còn phải làm nhiều bước chuẩn bị trước khi "đánh dấu" và đóng gói.
     
    Last edited: Aug 15, 2023
    Anan Két likes this.
  4. tran ngoc anh

    tran ngoc anh Cử nhân

    Bạn chưa rành Calibre thì thấy nó khoai, chứ rành rồi thì ngược lại bạn sẽ thấy ms word mới thực sự khoai ấy :D
     
    sucsongmoi and machine like this.
  5. machine

    machine Sinh viên năm I

    [Một số thao tác chuẩn bị]
    1. Tạo file searchable pdf
    ocr file pdf (bản scan) bằng Abbyy, chọn Language là English;Vietnamese.
    Khi Abbyy chạy xong, bấm vào hình tam giác cạnh nút Save và chọn Save as Searchable PDF Document như ảnh dưới. File searchable PDF này sẽ sử dụng thường xuyên khi soát lỗi chính tả.
    ab01.jpg
    Nhân tiện cũng tạo file Word luôn, sau này có thể dùng để tìm các cụm từ in nghiêng, in đậm.
    ab02.jpg

    2. ocr bằng vFlat
    Hiện nay vFlat ocr tốt hơn Abbyy, nên ta sẽ dùng file text xuất ra từ vFlat để giảm công sức soát lỗi chính tả (nhưng mất thêm chút công sức định dạng cụm từ in nghiêng, in đậm).
    Các bạn download file scanned pdf về điện thoai, import vào vFlat rồi đợi.
    Trước khi chạy vFlat, các bạn cần vào phần Setting trên điện thoại thiết lập Lock Screen / Sleep là Never để màn hình điện thoại luôn sáng, đủ thời gian cho vFlat hoạt động.
    Chi tiết về vFlat tham khảo tại đây:
    Please login or register to view links

    Post lại file pdf trong file đính kèm bên dưới để các bạn dễ theo dõi.
     

    Attached Files:

    Last edited: Aug 15, 2023
  6. machine

    machine Sinh viên năm I

    [Một số thao tác chuẩn bị]
    3. Vấn đề Heading (mục lục)
    Nếu như ở sách giấy, mục lục là các tiêu đề tính theo thứ tự giảm dần như này:
    Chương 1:..............
    I. ..............
    1. ..............
    a. ..............
    thì trong ebook (epub, azw3) sẽ được biểu diễn tương ứng như này:
    <h1>Chương 1:..............</h1>
    <h2>I. ..............</h2>
    <h3>1. ..............</h3>
    <h4>a. ..............</h4>
    Với trường hợp cụ thể là quyển sách này (Freud - Về giấc mơ và diễn giải giấc mơ), nhìn vào trang 4/311 ở file pdf:
    heading.jpg

    Toàn bộ các đề mục ở trang này sẽ là h1. Biểu diễn cụ thể trong ebook sau này sẽ như sau:
    <h1>Lời giới thiệu</h1>
    <h1>Lời nói đầu</h1>
    <h1>Nhập đề của Hermann Beland</h1>
    <h1>Linh cảm trong mơ mà có thật</h1>
    <h1>Về giấc mơ</h1>
    ...
    ...
    <h1>Lời bạt của Hermann Beland</h1>
    <h1>Ngôn ngữ giấc mơ trong phân tâm học</h1>
    Ở đây chỉ liệt kê để minh họa thôi. Thực tế các dòng code khai báo heading này sẽ nằm rải rác trong ebook chứ không tập trung một chỗ.

    Tiếp theo ta chuyển đến trang 15 của sách giấy (trang 12/331 trong file pdf) là phần "Nhập đề của Hermann Beland".
    Kéo tiếp xuống trang 16 (13/331) thấy dòng chữ in đậm không lùi đầu dòng: Conditio Humana
    Kéo tiếp xuống trang 22 (19/331) thấy dòng chữ in đậm không lùi đầu dòng: Chức năng của giấc mơ
    Kéo tiếp xuống trang 28 (25/331) thấy dòng chữ in đậm không lùi đầu dòng: Sự hình thành biểu tượng
    ....
    ....
    Kéo tiếp xuống trang 35 (32/331) thấy dòng chữ in đậm không lùi đầu dòng: Sự làm sai lệch giấc mơ

    Nếu coi "Nhập đề của Hermann Beland" là Chương 1 thì các cụm từ trên sẽ tương đương với các đề mục I, II, II, IV....
    --> chúng sẽ đóng vai trò là h2
    sau này trong ebook sẽ khai báo là:
    <h2>Conditio Humana</h2>
    <h2>Chức năng của giấc mơ</h2>
    <h2>Sự hình thành biểu tượng</h2>
    ....
    ....
    <h2>Sự làm sai lệch giấc mơ</h2>

    Quyển sách này heading chỉ đến h2.

    Khi "đánh dấu" trong file Word, chỉ cần thêm h1, h2 tương ứng vào trước các cụm từ là được:
    h1Nhập đề của Hermann Beland
    h2Conditio Humana
    h2Chức năng của giấc mơ
    h2Sự hình thành biểu tượng
    h2Sự làm sai lệch giấc mơ

    Không tạo heading chi tiết cũng không sao. Liệt kê heading chi tiết thì khi nhìn vào cây heading trong app đọc ebook sẽ giúp người đọc dễ dàng nắm được sơ lược nội dung cuốn sách.

    Ví dụ 1: Một cây mục lục ngắn gọn
    heading01.jpg
    Hình trên là một cây mục lục ngắn gọn.
    h1 là tên bài viết "Gốm người Churu..."
    h2 là mục I, II, III, IV

    Ví dụ 2: một cây mục lục chi tiết hơn
    heading02.jpg
    Hình trên là một cây mục lục chi tiết hơn.
    h1 là tên bài viết "Gốm người Churu..."
    h2 là mục I, II, III, IV
    h3 là mục 2.1, 2.2
    h4 là mục 2.2.1 đến 2.2.6

    Trong file epub, heading mặc định có kiểu chữ đậm (không cần khai báo)
    Các thuộc tính khác của heading bao gồm: font chữ, cỡ chữ, kiểu canh lề, màu sắc... sẽ được khai báo trong file css.
    h1, h2, h3, h4 được khai báo riêng như hình dưới
    heading03.jpg
     
    Last edited: Aug 21, 2023
  7. tran ngoc anh

    tran ngoc anh Cử nhân

    Plugin của quocsan đánh được thứ tự id đó, tất nhiên vẫn không thể so sánh về độ linh hoạt với function của editor của calibre.
    Báo lỗi của editor của calibre như vầy nhìn thoải mái hơn ở trên đầu hoặc dưới cùng như Sigil (chiếm diện tích), đã thử kéo thả khung báo lỗi của Sigil nhưng không được, Calibre cho khả năng tùy biến cao hơn một chút.
    [​IMG]
     
    Anan Két and machine like this.
  8. machine

    machine Sinh viên năm I

    [Một số thao tác chuẩn bị]
    4. Vấn đề thay thế biểu thức (regex/wildcard)
    Phần này hơi phức tạp, không hiểu được cũng không sao, chỉ cần copy (hoặc nhớ) đáp án để sau này sử dụng.
    Nhắc lại: trong Word, khi gõ phím Enter là đã kết thúc một paragraph và mở đầu một paragraph mới, một paragraph tương đương với một đoạn văn, một câu hội thoại... Có thể dễ dàng thêm tự động hàng loạt thẻ <p> và </p> vào đầu và cuối mỗi paragraph trong Word bằng lệnh thay thế sau:
    Find: ^p
    Replace: </p>^&<p>

    Ví dụ 1: Thay thế hàng loạt heading
    Giả sử có 3 paragraph (đoạn văn/câu văn...) như bên dưới:
    <p>h
    1Sigmund Freud</p>
    <p>h
    2Conditio Humana</p>
    <p>h
    3Cái gì đó</p>
    Làm thể nào để chuyển thành các heading tương ứng
    <h
    1>Sigmund Freud</h1>
    <h
    2>Conditio Humana</h2>
    <h
    3>Cái gì đó</h3>
    chỉ với 1 câu lệnh thay thế?

    (màu sắc thêm vào để các bạn dễ quan sát)

    Ví dụ 2: thay thế hàng loạt chú thích
    Giả sử có 3 paragraph (đoạn văn/câu văn...) như bên dưới:
    <p>[1] Nội dung A.</p>
    <p>[
    2] Nội dung B.</p>
    <p>[
    3] Nội dung C.</p>
    Làm thế nào để chuyển thành các chú thích tương ứng
    <p><a href="nd.xhtml#nd1" id="gc1">(1)</a><span> Nội dung A.</span></p>
    <p><a href="nd.xhtml#nd
    2" id="gc2">(2)</a><span> Nội dung B.</span></p>
    <p><a href="nd.xhtml#nd
    3" id="gc3">(3)</a><span> Nội dung C.</span></p>
    chỉ với 1 câu lệnh thay thế?

    Ví dụ 3: Xóa hàng loạt số trang sách
    Giả sử có một số (vài trăm) paragraph như bên dưới
    <p>1</p>
    <p>3</p>
    ...
    ...
    <p>15</p>
    <p>16</p>
    ...
    ...
    <p>308</p>
    <p>309</p>
    làm thế nào để xóa hết vài trăm paragraph như trên chỉ với 1 câu lệnh?

    Với 3 trường hợp bên trên, người ta dùng thay thế ở chế độ regex (với Sigil, Calibre) hoặc thay thế ở chế độ wildcard (với Word).

    Một số biểu thức regex hay sử dụng khi làm ebook:
    (.*?): một chuỗi ký tự bất kỳ (một cụm từ bất kỳ)
    (\d+): một số tự nhiên bất kỳ
    ([0-9]): một số bất kỳ có giá trị từ 0 đến 9
    ([0-9])(0-9): một số bất kỳ từ 00 đến 99
    ([A-Z]): một ký tự bất kỳ từ A đến Z (không bao gồm các ký tự tiếng Việt có dấu)
    ([A-ZĐÀÁẠẢÃÂẦẤẬẨẪĂẰẮẶẲẴÊỀẾỆỂỄÈÉẸẺẼÒÓỌỎÕÙÚỤỦŨÌÍỊỈĨÔỒỐỘỔỖƯỪỨỰỬỮƠỜỚỢỞỠ]): các ký tự tiếng Việt viết hoa
    ([a-zđàáạảãâầấậẩẫăằắặẳẵêềếệểễèéẹẻẽòóọỏõùúụủũìíịỉĩôồốộổỗưừứựửữơờớợởỡ]): các ký tự tiếng Việt viết thường
    Các biểu thức này chỉ nằm ở Find, ở Replace các biểu thức này sẽ phải được thay thế tương ứng bằng \1 \2 \3 ... với 1, 2, 3 là vị trí của biểu thức ở Find tính theo thứ tự từ trái qua phải.
    Ví dụ:
    Find: <p>([0-9])([A-Z])([a-z])([0-9])</p>
    nếu ở Replace có sử dụng (một trong) các biểu thức trên thì các biểu thức đó sẽ là:
    ([0-9]) được thay thế bằng \1
    ([A-Z]) được thay thế bằng \2
    ([a-z]) được thay thế bằng \3
    ([0-9]) được thay thế bằng \4


    Riêng kí tự \: nếu ở find, \ là chỉ dấu để biểu diễn một ký tự đặc biệt đằng sau nó, ví dụ: \[ hoặc \] hoặc \* hoặc \? để biểu diễn (biểu thị) các ký tự [ hoặc ] hoặc * hoặc ? ở phần Find (tìm kiếm).
    Nếu ở Replace, \ là chỉ dấu biểu thị một biểu thức đằng sau nó (ví dụ: \1 \2)

    Lưu ý: chế độ Wildcard trong Word không chấp nhận biểu thức (\d+) và (.*?)

    Áp dụng các biểu thức để giải quyết 3 ví dụ trên

    Đáp án cho ví dụ 1:
    Find: <p>h([1-3])(.*?)</p>
    Replace: <h\1>\2</h\1>
    Mode: Regex

    Đáp án cho ví dụ 2:
    Find: <p>\[(.*?)\](.*?)</p>
    Replace: <p><a href="nd.xhtml#nd\1" id="gc\1">(\1)</a><span> \2</span></p>
    Mode: Regex

    Đáp án cho ví dụ 3:
    Find: <p>(\d+)</p>
    Replace: (bỏ trống)
    Mode: Regex

    Video minh họa


    Kỹ năng quan trọng nhất khi thay thế biểu thức (Regex) là tìm ra được "phần cố định" và "phần thay đổi".

    Phân tích Ví dụ 3: Làm thế nào để xóa một số (vài trăm) paragraph tương tự như bên dưới
    <p>1</p>
    <p>3</p>
    ...
    ...
    <p>15</p>
    <p>16</p>
    ...
    ...
    <p>308</p>
    <p>309</p>
    chỉ với 1 câu lệnh?

    Nhận thấy các paragraph trên có quy luật: số tự nhiên nằm giữa <p> và </p>, tức là phần cố định của các paragraph trên là <p> và </p> ở đầu và cuối các paragraph, phần thay đổi là số tự nhiên ở các giữa paragraph
    → phần thay đổi (là các số tự nhiên ) được biểu diễn bằng biểu thức (\d+), câu lệnh thay thế sẽ như sau:
    Find: <p>(\d+)</p>
    Replace: bỏ trống
    Mode: Regex

    Phân tích Ví dụ 1: Thay thế hàng loạt heading
    Giả sử có 3 paragraph (đoạn văn/câu văn...) như bên dưới:
    <p>h1Sigmund Freud</p>
    <p>h2Conditio Humana</p>
    <p>h3Cái gì đó</p>
    Làm thể nào để chuyển thành các heading tương ứng
    <h1>Sigmund Freud</h1>
    <h2>Conditio Humana</h2>
    <h3>Cái gì đó</h3>
    chỉ với 1 câu lệnh thay thế?

    Quan sát các paragraph ban đầu:
    <p>h1Sigmund Freud</p>
    <p>h2Conditio Humana</p>
    <p>h3Cái gì đó</p>
    Phần cố định màu đen, phần thay đổi màu xanh và cam.
    Các phần thay đổi sẽ được biểu diễn bằng các biểu thức, phần cố định thì giữ nguyên
    → Ở Find có 2 biểu thức theo thứ tự từ trái qua phải: ([1-3]) và (.*?)
    → Find: <p>([1-3])(.*?)</p>

    Quan sát các paragraph kết quả mong muốn sau khi thay thế:
    <h1>Sigmund Freud</h1>
    <h2>Conditio Humana</h2>
    <h3>Cái gì đó</h3>
    Phần cố định màu đen, phần thay đổi màu xanh và cam. Màu xanh xuất hiện 2 lần, màu cam xuất hiện 1 lần
    → \1 xuất hiện hai lần và \2 xuất hiện một lần; phần cố định giữ nguyên
    → Replace: <h\1>\2</h\1>

    Đáp án cho ví dụ 1:
    Find: <p>([1-3])(.*?)</p>
    Replace: <h\1>\2</h\1>
    Mode: Regex (trong Sigil/Calibre Editor)

    Ví dụ 2 cũng tương tự, các bạn tự phân tích.
    File đính kèm bên dưới để thực hành.
     

    Attached Files:

    Last edited: Aug 21, 2023
  9. machine

    machine Sinh viên năm I

    [Một số thao tác chuẩn bị]
    5. Chú thích trong file epub
    Tạo chú thích hai chiều sẽ đáp ứng tốt cho các app đọc ebook thông dụng cũng như các máy đọc sách thông dụng.
    Có hai kiểu chú thích (hai chiều) tạm gọi là "kiểu cũ" và "kiểu mới". Ở đây sẽ phân tích hoạt động của chú thích "kiểu cũ".
    Mở file pdf, đến trang 17/311, quy ước về chỉ số chú thích và nội dung chú thích như ảnh dưới:
    chuthich01.jpg

    Tiếp theo, mở file chuthich.epub (đính kèm bên dưới) bằng Sigil hoặc Calibre Editor rồi mở file nd.xhtml bấm vào chỉ số chú thích số (1) → sẽ tự động nhảy đến nội dung chú thích số (1) trong file gc.xhtml
    Bấm vào số (1) của nội dung chú thích → sẽ tự động nhảy đến chỉ số chú thích (1) trong file nd.xhtml
    Hoạt động của chú thích (nhảy qua nhảy lại :p) được mô tả như hình dưới đây:
    chuthich02.jpg

    Phân tích hoạt động
    Nhìn vào chỉ số chú thích (1) ở file nd.xhtml:
    <a href="gc.xhtml#gc1" id="nd1"><sup>(1)</sup></a>

    màu xanh: id="nd1" nghĩa là vị trí hiện tại (chí số chú thích (1)) là nd1 (tất nhiên vị trí này nằm trong file nd.xhtml)
    nếu bấm vào số (1) trong file nd.xhtml thì sẽ "nhảy" đến vị trí gc1 trong file gc.xhtml (cụm từ màu cam bên trên)

    Tiếp theo chuyển sang nội dung (1) trong file gc.xhtml:
    <a href="nd.xhtml#nd1" id="gc1">(1)</a><span> Những hình tượng hỗn hợp.</span>
    màu xanh: id="gc1" nghĩa là vị trí hiện tại là gc1 (tất nhiên vị trí này nằm trong file gc.xhtml)
    nếu bấm vào số (1) trong file gc.xhtml thì sẽ "nhảy" đến vị trí nd1 trong file nd.xhtml (cụm từ màu cam bên trên)

    Đánh dấu, gom, đánh số chú thích
    Quan sát trang 13/331, 15/331, 17, 21, 23... trong file pdf.
    (download file pdf Please login or register to view links)
    Nhận thấy chú thích (gồm chỉ số chú thích và nội dung chú thích) nằm rải rác khắp nơi, chỉ số chú thích thì lặp lại 1, 2, 3...
    Để thuận tiện cho việc tạo chú thích 2 chiều, phải "đánh dấu" các chú thích theo quy luật để từ đó dễ dàng tách (gom) nội dung chú thích; để tạo cho mỗi chú thích có một id khác nhau (tránh quy luật trùng lặp 1, 2, 3 như trong sách in) cách đơn giản nhất là "đánh số' để mỗi chú thích được gán một con số tăng dần từ 1 đến n.

    Quy ước "đánh dấu" chú thích
    Trong file Word sau khi OCR, khi rà soát từng trang để soát lỗi chính tả, gặp chú thích thì ta thêm dấu ngoặc vuông vào chỉ số chú thích (trước đó nhớ thay ngoặc vuông [] bằng ngoặc nhọn {} để đỡ nhầm lẫn, sau này khi đã tạo xong chú thích sẽ khôi phục lại sau).
    Ví dụ: trang 17/331 trong file pdf (trang 20 trong sách giấy) có 3 chú thích sẽ được "đánh dấu" bằng ngoặc vuông (màu cam) như hình dưới:
    17.jpg
    (thực tế khi "đánh dấu" chú thích không cần chọn màu gì hết)
    Tiếp tục "đánh dấu" chú thích đến hết quyển sách (trong khi soát chính tả thì kết hợp "đánh dấu" chú thích, heading, ảnh, canh lề (lề phải, lề giữa)... để tiết kiệm thời gian).

    Gom nội dung chú thích
    Mục đích là gom (tách) các đoạn nội dung chú thích nằm rải rác khắp nơi về một chỗ (về một file riêng gọi là gc.xhtml, xem file chuthich.epub đính kèm bên dưới để biết thêm chi tiết)
    Các bạn tham khảo ở đây:
    Please login or register to view links
    (chỉ cần tạo function move_note một lần đầu là được, sau này chỉ việc sử dụng, không phải tạo lại nữa)

    Đánh số chú thích
    Ban đầu các chỉ số chú thích in trong sách giấy là 1, 2, 3 và trùng lặp suốt, mục đích của việc "đánh số chú thích" là gán cho các chỉ số chú thích này số thứ tự tăng dần từ 1 đến n để mỗi chú thích đều có một chỉ số khác nhau, không chú thích nào có chỉ số trùng nhau, sau này khi gán id cho các chú thích không bị trùng.
    Các bạn tham khảo phần "Đánh số chú thích" ở đây:
    Please login or register to view links
    (Xem ảnh dưới, chỉ cần tạo function note_number một lần đầu là được, sau này chỉ việc sử dụng, không phải tạo lại nữa)
    danhso.jpg

    Các loại liên kết chú thích 2 chiều
    Có hai loại, tạm chia ra thành "kiểu cũ" và "kiểu mới". File đính kèm chuthich.epub bên dưới có liên kết chú thích "kiểu cũ".
    Chú thích "kiểu cũ":
    chỉ số chú thích kiểu cũ (xem file nd.xhtml) có dạng:
    <a href="gc.xhtml#gcx" id="ndx"><sup>(x)</sup></a>

    Nội dung chú thích "kiểu cũ" (xem file gc.xhtml) có dạng:
    <p class="tinyy"><a href="nd.xhtml#ndx" id="gcx">(x)</a><span> Cái gì đó</span></p>
    Chú thích kiểu cũ hiển thị được dạng pop-up trên máy đọc sách Kindle, Kobo và app Moon+ Reader, không hiển thị được dạng pop-up menu trên app Reasily, Lithium. Đồng thời cho phép mở nội dung chú thích trên app Moon+ Reader để đánh dấu các cụm từ sai chính tả (máy đọc sách Kinde, Kobo luôn cho phép mở nội dung chú thích với cả kiểu chú thích cũ và mới).

    Chú thích "kiểu mới":
    chỉ số chú thích "kiểu mới" có dạng:
    <a epub:type="noteref" href="gc.xhtml#gcx" id="ndx"><sup>x</sup></a>

    Nội dung chú thích "kiểu mới" có dạng:
    <aside epub:type="noteref" id="gcx">
    <p class="tinyy"><a href="gc.xhtml#ndx">(x)</a><span> Cái gì đó.</span></p>

    Chú thích kiểu mới hiển thị được dạng pop-up trên các máy đọc sách và các app đọc sách thông dụng nhưng không mở được nội dung chú thích trên các app đọc ebook (để đánh dấu lỗi chính tả nếu có). Máy đọc sách Kindle, Kobo đều mở được nội dung chú thích "kiểu mới".

    Sau khi đã đánh dấu chú thích theo quy luật (thêm ngoặc vuông vào chỉ số), rồi gom chú thích và đánh số chú thích thì tùy vào câu lệnh thay thế regex, ta dễ dạng có được liên kết chú thích "kiểu cũ" hoặc "kiểu mới".
     

    Attached Files:

    Last edited: Aug 21, 2023
  10. Anan Két

    Anan Két Lớp 8

    Bạn ơi, bạn có thể làm video có tiếng không :D?
     
    vinaguy likes this.
  11. machine

    machine Sinh viên năm I

    Hic, tui không biết lồng tiếng :(, chỉ biết quay màn hình thôi (tại lười tìm hiểu í :p).
     
    Last edited: Aug 19, 2023
    Anan Két likes this.
  12. machine

    machine Sinh viên năm I

    [Một số thao tác chuẩn bị]
    6. Đánh dấu và hiển thị ảnh trong file epub
    (cuốn sách này không có ảnh minh họa nhưng vẫn viết ra vì rất nhiều sách có ảnh minh họa)
    File text hoặc Word được OCR từ vFlat sẽ không có ảnh (dù file pdf có ảnh minh họa).
    Tất cả ảnh trong một file epub nên cùng một dạng jpg hoặc png để sau này thay thế hàng loạt sẽ không bị nhầm lẫn.
    Để hiển thị ảnh trong file epub ta cần nhập (import) ảnh muốn hiển thị vào file epub và "đánh dấu" vị trí ảnh trong file Word đã ocr bằng vFlat. Sau khi "đánh dấu" hàng loạt vị trí hiển thị ảnh, trong file epub, dùng một lệnh thay thế regex sẽ tạo ra hàng loạt câu lệnh hiển thị ảnh.
    Mục đích của việc "đánh dấu": Câu lệnh hiển thị ảnh trong file epub rất dài (câu lệnh liên kết chú thích cũng rất dài), khi "đánh dấu", chỉ cần dùng 2-3 ký tự làm ký hiệu, sau này dùng các câu lệnh thay thế regex sẽ tự động tạo ra các câu lệnh dài → tiết kiệm thời gian công sức.

    Cách nhập (import) ảnh vào file epub:
    Trong file epub, bấm chuột phải vào thư mục Images rồi bấm vào Add Existing Files
    import.jpg

    Quy ước "đánh dấu" ảnh trong file Word:
    Vị trí có ảnh được đánh dấu trong một dòng riêng biệt, dùng ký hiệu jjxyz. trong đó:
    - jj là ký hiệu vô nghĩa, không lẫn với từ tiếng Anh tiếng Việt nào
    - xyz là tên file ảnh.

    Tên file ảnh nên đặt theo quy luật: nếu trang sách có 1 ảnh thì tên file ảnh trùng với số trang sách, nếu trang sách có nhiều ảnh thì tên file ảnh là xyz-n trong đó n là số thứ tự tăng dần từ 1, 2, 3, 4... theo quy luật từ trái sang phải, từ trên xuống dưới.
    Ví dụ minh họa:
    Xem file pdf Please login or register to view links, trang 72/158 trong file pdf (là trang 71 trong sách giấy).
    Các file ảnh sẽ được đặt tên như sau:
    71.jpg
    Trong file Word (sau khi ocr bằng vFlat), các file ảnh sẽ được "đánh dấu" như sau:
    danhdauanh.jpg
    chỉ cần đánh dấu tên ảnh, không cần thêm đuôi jpg.
    Lưu ý: khi tạo file pdf, nếu được nên xóa bớt một vài trang để số trang trong file pdf trùng với số trang sách giấy, khi đó đặt tên ảnh đỡ bị nhầm lẫn.

    Cú pháp (câu lệnh) hiển thị ảnh trong epub:
    <div style="text-align: center;"><img src="../Images/xyz.jpg"/></div>

    Vì trong file Word đã "đánh dấu" hàng loạt ảnh theo quy luật:
    jjxyz
    → khi thêm hàng loạt thẻ p (bằng câu lệnh thay thế trong Word) sẽ được
    <p>jjxyz</p>

    phần cố định là <p>jj và </p>, phần thay đổi là xyz
    câu lệnh thay thế biểu thức (regex) để thu được hàng loạt câu lệnh hiển thị ảnh trong Sigil / Calibre Editor là:
    Find:
    <p>jj(.*?)</p>
    Replace:
    <div style="text-align: center;"><img src="../Images/\1.jpg"/></div>
    Mode: Regex

    Lưu ý: trang 71 ở trên có nhiều ảnh đặt tên lần lượt là 71-1.jpg, 71-2.jpg, 71-3.jpg, 71-4.jpg
    → tên ảnh là một chuỗi ký tự chứ không phải là một số tự nhiên
    → dùng biểu thức (.*?) để thay thế cho tên ảnh chứ không dùng biểu thức (\d+)

    File "Image.epub" đính kèm bên dưới để thực hành thay thế hàng loạt câu lệnh hiển thị ảnh.
     

    Attached Files:

    Last edited: Aug 21, 2023
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    Sao không dùng saved search, copy paste regex mất thời gian lắm. Với lại cho thêm hiện con trỏ chuột lớn lớn khi quay video cho mọi người dễ theo dõi đi cụ :D
    Với lại viết bằng đây trang chữ hướng dẫn, tốn không ít thời gian. Thank cụ đã bỏ thời gian vì mọi người cute_smiley60cute_smiley60
     
    Anan Két and machine like this.
  14. Anan Két

    Anan Két Lớp 8

    @machine thử cài OBS Studio đi, vừa quay màn hình vừa thu tiếng luôn :p.
     
    machine likes this.
  15. tran ngoc anh

    tran ngoc anh Cử nhân

    Lại phải trang bị michô lọc âm phức tạp lắm. Thao tác với chuột đủ hiểu gồi :D
     
    machine likes this.
  16. Anan Két

    Anan Két Lớp 8

    Thà khó nghe chút còn hơn không có tiếng :D. Các bạn mới tìm hiểu ebook mà xem video không có tiếng thì khó theo dõi lắm. Hay là cứ quay video không tiếng, rồi lồng giọng Google sau nhỉ :D?
     
    machine and vinaguy like this.
  17. tran ngoc anh

    tran ngoc anh Cử nhân

    Thế thì chạy sub như xem phim Hollywood được không nhỉ? :D
     
    machine and Anan Két like this.
  18. duynguyen275

    duynguyen275 Lớp 2

    link hướng dẫn sử dụng sigil bằng tiếng anh. Please login or register to view links
     
    ai biet gi dau, machine and Anan Két like this.
  19. vinaguy

    vinaguy Lớp 11

    Chưa làm chưa thạo thì thấy nó khoai... mai mốt quen rồi thì lại ghét word cay đắng cho coi :)
    Giờ em vứt word sang một bên rồi bác. Em làm thẳng epub vào Calibre luôn chứ không động gì tới word nữa rồi (Cùng lắm thì em mượn notepad++ một lát thôi). Làm sách trên word rồi mới đưa sang Cali mệt thí bà nó luôn :)
    Chuẩn luôn, thời đại 4.0 rồi ai làm sách trên word nữa :)
    Thà sửa đậm lợt còn khỏe hơn là soát chính tả bác ơi (Quan điểm của em :) ) sửa đậm lợt thì em kéo chuột qua là thấy... soát lỗi chính tả thì đọc toét hết cả mắt luôn.
    Check lỗi chính tả của em toàn thả ra như thế này cho tiện :)
    upload_2023-8-21_16-5-8.png
    Đưa tiếng đây lồng cho... Dễ ẹt à... chỉ cần có tiếng, có video, sau 2 giây là video có tiếng... :)
    Không cần trang bị micro đâu... Cứ mở điện thoại lên... thu âm được file âm thanh, sau đó ịn nó vào trong video cũng dễ òm mà... :) em làm suốt... Trước đây em là dân chạy chữ Karaoke cơ, chứ không phải là dân làm epub. :)
     
    machine, Anan Két and sucsongmoi like this.
  20. sucsongmoi

    sucsongmoi Lớp 8

    Lắm nghề thế!:D
     
    machine likes this.
Moderators: amylee

Share This Page