PDF scan bị nghiêng, mờ: deskew, denoise, DPI — cải thiện trước OCR
File scan nghiêng, mờ, nhiễu → cách cải thiện: deskew, denoise, tăng DPI. Chuẩn bị tốt nhất cho OCR.
Tuần rồi mình scan 40 trang hợp đồng bằng máy scan công ty. Xong mở lên thấy: 8 trang nghiêng khoảng 2-3 độ, 5 trang mờ đến mức không đọc nổi dòng nhỏ. OCR chạy ra toàn ký tự sai. Phải scan lại 13 trang — mất thêm 30 phút.
Chuyện này xảy ra hoài nếu dùng ADF (bộ nạp giấy tự động) hoặc scan bằng điện thoại. Mình tổng hợp nguyên nhân và cách fix, kể cả khi không thể scan lại.
Chẩn đoán: nghiêng hay mờ — hay cả hai?
| Triệu chứng | Nguyên nhân | Mức độ ảnh hưởng OCR | Fix được không? |
|---|---|---|---|
| Nghiêng nhẹ 1-2° | ADF kéo giấy lệch | OCR vẫn đọc được 90%+ | Deskew phần mềm — ok |
| Nghiêng nặng 5°+ | Đặt giấy sai, hoặc ADF hỏng con lăn | OCR sai nhiều, đặc biệt bảng | Deskew + kiểm tra lại |
| Mờ đều toàn trang | DPI thấp (72-100), hoặc kính scan bẩn | Chữ nhỏ không đọc được | Scan lại DPI cao hơn |
| Mờ 1 vùng (thường ở mép) | Giấy bị cong, không ép sát kính | Vùng mờ OCR sai | Scan lại, ấn nắp chặt |
| Mờ + nhiều đốm đen | Giấy cũ + scan ở contrast cao | Noise làm OCR nhầm ký tự | Denoise phần mềm |
| Chữ rõ nhưng bị "răng cưa" | Scan dưới 200 DPI | OCR nhầm chữ tương tự (rn↔m) | Scan lại ≥300 DPI |
Vấn đề 1: PDF scan bị nghiêng
Tại sao bị nghiêng?
Bộ nạp giấy tự động (ADF) kéo giấy bằng con lăn. Nếu giấy không thẳng lúc nạp vào, hoặc con lăn một bên mòn hơn → giấy bị kéo lệch. Mình quan sát: cứ khoảng 1/5 trang scan bằng ADF bị nghiêng nhẹ. Đặc biệt giấy cũ, giấy mỏng, hoặc giấy nhăn.
Scan bằng điện thoại còn tệ hơn — tay rung + góc chụp xiên = nghiêng 3-5° là chuyện thường.
Fix: Deskew
Cách 1 — Deskew lúc scan: Nhiều phần mềm scan (NAPS2, VueScan, PaperStream) có tùy chọn "Auto Deskew" — bật lên trước khi scan. Phần mềm tự phát hiện góc nghiêng và xoay lại.
Cách 2 — Fix sau khi scan: Nếu đã có file PDF nghiêng rồi và không muốn scan lại:
- Dùng NAPS2 (miễn phí, Windows): mở file → Edit → Deskew
- Scan bằng điện thoại: app Adobe Scan, Microsoft Lens đều auto deskew khá tốt
- Nếu chỉ cần lấy text: chạy OCR — engine OCR hiện đại (Tesseract 5, Google Vision) tự xử lý nghiêng nhẹ ≤3°
Vấn đề 2: PDF scan bị mờ
DPI — con số quan trọng nhất
DPI (dots per inch) quyết định độ nét. Kinh nghiệm:
| DPI | Dung lượng/trang (A4, grayscale) | Chất lượng | Phù hợp cho |
|---|---|---|---|
| 72 | ~50 KB | Mờ, chỉ đọc tiêu đề | Thumbnail, preview |
| 150 | ~150 KB | Đọc được chữ lớn | Lưu trữ nội bộ nếu không cần OCR |
| 200 | ~250 KB | Đọc được hầu hết chữ | OCR tạm ổn |
| 300 | ~400 KB | Rõ nét, chữ nhỏ cũng sắc | OCR tốt, lưu trữ chuẩn |
| 600 | ~1.2 MB | Rất nét | Tài liệu quan trọng, pháp lý |
Kết luận: Luôn scan ở 300 DPI. Đó là sweet spot giữa chất lượng và dung lượng. File nặng thì sau đó nén lại.
Kính scan bẩn — nguyên nhân "ngốc" nhưng phổ biến
Mình từng mất 2 tiếng tìm nguyên nhân scan mờ. Cuối cùng lau kính scan bằng khăn mềm → sạch hẳn. Bụi, vân tay, vết keo từ giấy note dán trước đó — tất cả đều gây mờ hoặc sọc.
Fix file mờ khi không thể scan lại
Đôi khi bản gốc không còn (đã trả lại, hoặc ở chi nhánh khác). Lúc này:
- Tăng contrast + sharpen: Mở trong GIMP/Photoshop → Image → Adjustments → Levels. Kéo điểm đen và trắng lại gần nhau. Rồi Unsharp Mask.
- Nếu cần text: Chạy OCR trên AloPDF. Engine OCR có khả năng đọc file mờ nhẹ tốt hơn mắt người vì nó dùng context (từ xung quanh) để đoán.
- Dùng AI upscale: Các tool như waifu2x, Real-ESRGAN có thể upscale ảnh scan mờ lên 2x-4x. Nhưng chất lượng tùy file — đừng kỳ vọng quá.
Tips scan tốt từ đầu
| # | Tip | Tại sao |
|---|---|---|
| 1 | Luôn scan 300 DPI | OCR cần ≥300 mới chính xác cao |
| 2 | Bật Auto Deskew | Sửa nghiêng ngay lúc scan |
| 3 | Dùng flatbed cho tài liệu quan trọng | ADF nhanh nhưng hay nghiêng + kẹt |
| 4 | Lau kính scan mỗi tuần | Bụi tích dần gây mờ/sọc |
| 5 | Scan grayscale thay B&W | B&W mất chi tiết ở vùng xám |
| 6 | Check 2-3 trang đầu trước khi scan hàng loạt | Phát hiện sớm, khỏi scan lại cả xấp |
Dùng ngay: OCR PDF — Chuyển PDF scan thành văn bản có thể tìm kiếm
Nhận dạng văn bản OCR trong PDF scan online miễn phí. Hỗ trợ tiếng Việt có dấu. Chuyển ảnh scan thành text copy được, tìm kiếm được. Sử dụng Tesseract — chính xác và nhanh.
Mở công cụ →