À chào các thím. Không biết có bác nào gặp trường hợp xuống dòng tuỳ tiện như trong hình không ạ. Tình hình là mình đang tìm cách fix lại đống text như trong hình. Nếu 1 2 file thì sửa bằng tay cũng được. Nhưng mình check thử thì có cần 200 files bị lỗi xuống dòng tuỳ tiện như vậy. Ý tưởng của mình là dùng regex để làm . Tức là dùng ^[a-z] để lấy chữ cái không được viết hoa ( đã lấy được chữ cái đầu tiên mỗi dòng rồi mà không biết làm sao để nối vào dòng ở trên) . Xin các cao nhân giúp đỡ ạ
Bạn chịu khó search lại trong diễn đàn sẽ thấy vấn đề này đã được mọi người giải thích rõ, có cả file json tổng hợp các regex được cô giáo ngọt Anh share luôn. Lâu rồi mình ko đụng vào làm epub nên giờ lục nghề, quên hết Vui lòng đăng nhập hoặc đăng ký để xem link - kéo xuống #24 sẽ thấy file Xử lý xuống dòng thì cứ bấm next next thôi (làm trong calibre)
Muốn làm, việc đầu tiên là bạn cần nhận dạng đặc điểm của các vị trí cần sửa (có gì nổi bật, khác các vị trí khác ở điểm nào...); sau đó bạn dùng biểu thức chính quy mô tả lại đặc điểm nhận dạng đó; rồi bước cuối cùng là find and replace. Theo như ví dụ bạn chụp ở trên, thì bạn tạm thời tìm trước các vị trí xuống dòng mà phía trước đó không có dấu chấm (.), dấu hai chấm ), dấu chấm hỏi (?), dấu chấm than (!)... rồi thay thế trước đã.
Vậy hả bạn. Mình không biết cái đó. Cái notepage ++ mình dùng nó chỉ như cái notepage thường không thấy cái view đấy.
Mới xử lý hôm rồi mà quên cú pháp rồi, đại ý căn bản là dùng regex mô tả "ký tự xuống dòng và từ tiếp theo là chữ cái thường" và thay thế bằng dấu khoảng trắng