PDF scan bị nghiêng, mờ: deskew, denoise, DPI — cải thiện trước OCR

File scan nghiêng, mờ, nhiễu → cách cải thiện: deskew, denoise, tăng DPI. Chuẩn bị tốt nhất cho OCR.

Tuần rồi mình scan 40 trang hợp đồng bằng máy scan công ty. Xong mở lên thấy: 8 trang nghiêng khoảng 2-3 độ, 5 trang mờ đến mức không đọc nổi dòng nhỏ. OCR chạy ra toàn ký tự sai. Phải scan lại 13 trang — mất thêm 30 phút.

Chuyện này xảy ra hoài nếu dùng ADF (bộ nạp giấy tự động) hoặc scan bằng điện thoại. Mình tổng hợp nguyên nhân và cách fix, kể cả khi không thể scan lại.

Chẩn đoán: nghiêng hay mờ — hay cả hai?

Triệu chứngNguyên nhânMức độ ảnh hưởng OCRFix được không?
Nghiêng nhẹ 1-2° ADF kéo giấy lệch OCR vẫn đọc được 90%+ Deskew phần mềm — ok
Nghiêng nặng 5°+ Đặt giấy sai, hoặc ADF hỏng con lăn OCR sai nhiều, đặc biệt bảng Deskew + kiểm tra lại
Mờ đều toàn trang DPI thấp (72-100), hoặc kính scan bẩn Chữ nhỏ không đọc được Scan lại DPI cao hơn
Mờ 1 vùng (thường ở mép) Giấy bị cong, không ép sát kính Vùng mờ OCR sai Scan lại, ấn nắp chặt
Mờ + nhiều đốm đen Giấy cũ + scan ở contrast cao Noise làm OCR nhầm ký tự Denoise phần mềm
Chữ rõ nhưng bị "răng cưa" Scan dưới 200 DPI OCR nhầm chữ tương tự (rn↔m) Scan lại ≥300 DPI

Vấn đề 1: PDF scan bị nghiêng

Tại sao bị nghiêng?

Bộ nạp giấy tự động (ADF) kéo giấy bằng con lăn. Nếu giấy không thẳng lúc nạp vào, hoặc con lăn một bên mòn hơn → giấy bị kéo lệch. Mình quan sát: cứ khoảng 1/5 trang scan bằng ADF bị nghiêng nhẹ. Đặc biệt giấy cũ, giấy mỏng, hoặc giấy nhăn.

Scan bằng điện thoại còn tệ hơn — tay rung + góc chụp xiên = nghiêng 3-5° là chuyện thường.

Fix: Deskew

Cách 1 — Deskew lúc scan: Nhiều phần mềm scan (NAPS2, VueScan, PaperStream) có tùy chọn "Auto Deskew" — bật lên trước khi scan. Phần mềm tự phát hiện góc nghiêng và xoay lại.

Cách 2 — Fix sau khi scan: Nếu đã có file PDF nghiêng rồi và không muốn scan lại:

  • Dùng NAPS2 (miễn phí, Windows): mở file → Edit → Deskew
  • Scan bằng điện thoại: app Adobe Scan, Microsoft Lens đều auto deskew khá tốt
  • Nếu chỉ cần lấy text: chạy OCR — engine OCR hiện đại (Tesseract 5, Google Vision) tự xử lý nghiêng nhẹ ≤3°
Con số thực tế: OCR Tesseract 5 với file nghiêng 1° → accuracy ~96%. Nghiêng 3° → ~89%. Nghiêng 5° → ~72%. Deskew trước rồi OCR sau luôn cho kết quả tốt hơn.

Vấn đề 2: PDF scan bị mờ

DPI — con số quan trọng nhất

DPI (dots per inch) quyết định độ nét. Kinh nghiệm:

DPIDung lượng/trang (A4, grayscale)Chất lượngPhù hợp cho
72 ~50 KB Mờ, chỉ đọc tiêu đề Thumbnail, preview
150 ~150 KB Đọc được chữ lớn Lưu trữ nội bộ nếu không cần OCR
200 ~250 KB Đọc được hầu hết chữ OCR tạm ổn
300 ~400 KB Rõ nét, chữ nhỏ cũng sắc OCR tốt, lưu trữ chuẩn
600 ~1.2 MB Rất nét Tài liệu quan trọng, pháp lý

Kết luận: Luôn scan ở 300 DPI. Đó là sweet spot giữa chất lượng và dung lượng. File nặng thì sau đó nén lại.

Kính scan bẩn — nguyên nhân "ngốc" nhưng phổ biến

Mình từng mất 2 tiếng tìm nguyên nhân scan mờ. Cuối cùng lau kính scan bằng khăn mềm → sạch hẳn. Bụi, vân tay, vết keo từ giấy note dán trước đó — tất cả đều gây mờ hoặc sọc.

Fix file mờ khi không thể scan lại

Đôi khi bản gốc không còn (đã trả lại, hoặc ở chi nhánh khác). Lúc này:

  • Tăng contrast + sharpen: Mở trong GIMP/Photoshop → Image → Adjustments → Levels. Kéo điểm đen và trắng lại gần nhau. Rồi Unsharp Mask.
  • Nếu cần text: Chạy OCR trên AloPDF. Engine OCR có khả năng đọc file mờ nhẹ tốt hơn mắt người vì nó dùng context (từ xung quanh) để đoán.
  • Dùng AI upscale: Các tool như waifu2x, Real-ESRGAN có thể upscale ảnh scan mờ lên 2x-4x. Nhưng chất lượng tùy file — đừng kỳ vọng quá.

Tips scan tốt từ đầu

#TipTại sao
1Luôn scan 300 DPIOCR cần ≥300 mới chính xác cao
2Bật Auto DeskewSửa nghiêng ngay lúc scan
3Dùng flatbed cho tài liệu quan trọngADF nhanh nhưng hay nghiêng + kẹt
4Lau kính scan mỗi tuầnBụi tích dần gây mờ/sọc
5Scan grayscale thay B&WB&W mất chi tiết ở vùng xám
6Check 2-3 trang đầu trước khi scan hàng loạtPhát hiện sớm, khỏi scan lại cả xấp
Workflow mình hay dùng: Scan 300 DPI, grayscale, auto deskew → lưu PDF → chạy OCR để tạo text layer → nén PDF xuống còn ~60% dung lượng. Kết quả: file vừa có text searchable, vừa nhẹ đủ gửi email.

Dùng ngay: OCR PDF — Chuyển PDF scan thành văn bản có thể tìm kiếm

Nhận dạng văn bản OCR trong PDF scan online miễn phí. Hỗ trợ tiếng Việt có dấu. Chuyển ảnh scan thành text copy được, tìm kiếm được. Sử dụng Tesseract — chính xác và nhanh.

Mở công cụ →

Bài viết liên quan

Copy text từ PDF bị loạn: encoding, ligature, CID font — nguyên nhân và workaround Copy text ra bị loạn ký tự: do encoding issue, ligature, CID font. Giải thích tại sao và cách xử lý. PDF in ra bị cắt lề: margin, A4 vs Letter, bleed — cách fix trước khi in Lỗi in PDF bị cắt lề: do margin sai, page size A4 vs Letter, thiếu bleed. Cách kiểm tra và fix. PDF mở chậm, treo máy: file 200MB, 500 trang — nguyên nhân và xử lý File PDF 200MB, 500 trang, nhiều layer → tại sao chậm và cách xử lý: flatten, nén, tách file. PDF bị lỗi font tiếng Việt: 5 nguyên nhân và cách fix từng trường hợp Screenshot lỗi thực tế. 5 nguyên nhân: font không embed, encoding sai, converter lỗi, font VNI, sys…