PDF scan bị nghiêng, mờ: deskew, denoise, DPI — cải thiện trước OCR

Tuần rồi mình scan 40 trang hợp đồng bằng máy scan công ty. Xong mở lên thấy: 8 trang nghiêng khoảng 2-3 độ, 5 trang mờ đến mức không đọc nổi dòng nhỏ. OCR chạy ra toàn ký tự sai. Phải scan lại 13 trang — mất thêm 30 phút.

Chuyện này xảy ra hoài nếu dùng ADF (bộ nạp giấy tự động) hoặc scan bằng điện thoại. Mình tổng hợp nguyên nhân và cách fix, kể cả khi không thể scan lại.

Chẩn đoán: nghiêng hay mờ — hay cả hai?

Triệu chứng	Nguyên nhân	Mức độ ảnh hưởng OCR	Fix được không?
Nghiêng nhẹ 1-2°	ADF kéo giấy lệch	OCR vẫn đọc được 90%+	Deskew phần mềm — ok
Nghiêng nặng 5°+	Đặt giấy sai, hoặc ADF hỏng con lăn	OCR sai nhiều, đặc biệt bảng	Deskew + kiểm tra lại
Mờ đều toàn trang	DPI thấp (72-100), hoặc kính scan bẩn	Chữ nhỏ không đọc được	Scan lại DPI cao hơn
Mờ 1 vùng (thường ở mép)	Giấy bị cong, không ép sát kính	Vùng mờ OCR sai	Scan lại, ấn nắp chặt
Mờ + nhiều đốm đen	Giấy cũ + scan ở contrast cao	Noise làm OCR nhầm ký tự	Denoise phần mềm
Chữ rõ nhưng bị "răng cưa"	Scan dưới 200 DPI	OCR nhầm chữ tương tự (rn↔m)	Scan lại ≥300 DPI

Vấn đề 1: PDF scan bị nghiêng

Tại sao bị nghiêng?

Bộ nạp giấy tự động (ADF) kéo giấy bằng con lăn. Nếu giấy không thẳng lúc nạp vào, hoặc con lăn một bên mòn hơn → giấy bị kéo lệch. Mình quan sát: cứ khoảng 1/5 trang scan bằng ADF bị nghiêng nhẹ. Đặc biệt giấy cũ, giấy mỏng, hoặc giấy nhăn.

Scan bằng điện thoại còn tệ hơn — tay rung + góc chụp xiên = nghiêng 3-5° là chuyện thường.

Fix: Deskew

Cách 1 — Deskew lúc scan: Nhiều phần mềm scan (NAPS2, VueScan, PaperStream) có tùy chọn "Auto Deskew" — bật lên trước khi scan. Phần mềm tự phát hiện góc nghiêng và xoay lại.

Cách 2 — Fix sau khi scan: Nếu đã có file PDF nghiêng rồi và không muốn scan lại:

Dùng NAPS2 (miễn phí, Windows): mở file → Edit → Deskew
Scan bằng điện thoại: app Adobe Scan, Microsoft Lens đều auto deskew khá tốt
Nếu chỉ cần lấy text: chạy OCR — engine OCR hiện đại (Tesseract 5, Google Vision) tự xử lý nghiêng nhẹ ≤3°

Con số thực tế: OCR Tesseract 5 với file nghiêng 1° → accuracy ~96%. Nghiêng 3° → ~89%. Nghiêng 5° → ~72%. Deskew trước rồi OCR sau luôn cho kết quả tốt hơn.

Vấn đề 2: PDF scan bị mờ

DPI — con số quan trọng nhất

DPI (dots per inch) quyết định độ nét. Kinh nghiệm:

DPI	Dung lượng/trang (A4, grayscale)	Chất lượng	Phù hợp cho
72	~50 KB	Mờ, chỉ đọc tiêu đề	Thumbnail, preview
150	~150 KB	Đọc được chữ lớn	Lưu trữ nội bộ nếu không cần OCR
200	~250 KB	Đọc được hầu hết chữ	OCR tạm ổn
300	~400 KB	Rõ nét, chữ nhỏ cũng sắc	OCR tốt, lưu trữ chuẩn
600	~1.2 MB	Rất nét	Tài liệu quan trọng, pháp lý

Kết luận: Luôn scan ở 300 DPI. Đó là sweet spot giữa chất lượng và dung lượng. File nặng thì sau đó nén lại.

Kính scan bẩn — nguyên nhân "ngốc" nhưng phổ biến

Mình từng mất 2 tiếng tìm nguyên nhân scan mờ. Cuối cùng lau kính scan bằng khăn mềm → sạch hẳn. Bụi, vân tay, vết keo từ giấy note dán trước đó — tất cả đều gây mờ hoặc sọc.

Fix file mờ khi không thể scan lại

Đôi khi bản gốc không còn (đã trả lại, hoặc ở chi nhánh khác). Lúc này:

Tăng contrast + sharpen: Mở trong GIMP/Photoshop → Image → Adjustments → Levels. Kéo điểm đen và trắng lại gần nhau. Rồi Unsharp Mask.
Nếu cần text: Chạy OCR trên AloPDF. Engine OCR có khả năng đọc file mờ nhẹ tốt hơn mắt người vì nó dùng context (từ xung quanh) để đoán.
Dùng AI upscale: Các tool như waifu2x, Real-ESRGAN có thể upscale ảnh scan mờ lên 2x-4x. Nhưng chất lượng tùy file — đừng kỳ vọng quá.

Tips scan tốt từ đầu

#	Tip	Tại sao
1	Luôn scan 300 DPI	OCR cần ≥300 mới chính xác cao
2	Bật Auto Deskew	Sửa nghiêng ngay lúc scan
3	Dùng flatbed cho tài liệu quan trọng	ADF nhanh nhưng hay nghiêng + kẹt
4	Lau kính scan mỗi tuần	Bụi tích dần gây mờ/sọc
5	Scan grayscale thay B&W	B&W mất chi tiết ở vùng xám
6	Check 2-3 trang đầu trước khi scan hàng loạt	Phát hiện sớm, khỏi scan lại cả xấp

Workflow mình hay dùng: Scan 300 DPI, grayscale, auto deskew → lưu PDF → chạy OCR để tạo text layer → nén PDF xuống còn ~60% dung lượng. Kết quả: file vừa có text searchable, vừa nhẹ đủ gửi email.