Quy trình số hóa tài liệu: Giấy → Scan → OCR → Index → Lưu trữ

Văn phòng công ty mình có 3 tủ hồ sơ giấy — hợp đồng, công văn, biên bản từ 2018 đến nay. Mỗi lần cần tìm 1 văn bản là lật cả chồng, mất 20-30 phút. Có hôm sếp hỏi gấp, không tìm được → phải xin đối tác gửi lại bản copy.

Cuối năm ngoái mình bắt đầu số hóa — scan ra PDF, chạy OCR, lưu trên Drive. Giờ cần gì thì Ctrl+F trên Drive, 10 giây ra kết quả. Tốn khoảng 2 tuần scan hết (tranh thủ giờ rảnh), nhưng xong rồi thì đỡ vô cùng.

Đây là quy trình 6 bước mình dùng — cho văn phòng nhỏ 5-20 người, không cần phần mềm quản lý tài liệu đắt tiền.

Tổng quan workflow

Giấy → Scan → OCR → Đặt tên → Phân loại → Backup
         ↓                        ↓
    PDF ảnh              PDF searchable + tên chuẩn
                                  ↓
                         Google Drive / NAS
                                  ↓
                         Ctrl+F tìm kiếm

Bước 1: Scan — tạo file PDF từ giấy

Dùng máy scan văn phòng (tốt nhất)

Máy scan hoặc máy in có scan (Canon, Brother, HP). Setting:

DPI: 200-300 — 200 cho văn bản thường, 300 cho giấy tờ quan trọng hoặc font nhỏ
Màu: Grayscale — đủ cho text, nhẹ hơn color 3 lần. Chỉ dùng Color khi tài liệu có hình ảnh quan trọng
Format: PDF — đa số máy scan export PDF trực tiếp. Nếu chỉ ra JPG/TIFF → dùng chuyển ảnh sang PDF sau
Feeder: ADF (auto document feeder) — nếu máy có, đặt cả xấp 20-50 tờ, scan tự động

Dùng điện thoại (khi không có máy scan)

App: Microsoft Lens (miễn phí, tốt nhất theo kinh nghiệm mình), CamScanner, Adobe Scan.

Đặt giấy trên mặt phẳng, đủ sáng
Chụp thẳng (không nghiêng quá 5°)
App tự crop, deskew, tăng contrast
Export ra PDF

Kinh nghiệm: Điện thoại OK cho 10-20 trang lẻ. Nếu cần scan 200+ trang → mượn/mua máy scan có ADF. Chụp điện thoại 200 trang mất cả ngày và chất lượng không đều.

Bước 2: OCR — thêm text layer

File sau scan là "PDF ảnh" — nhìn thấy chữ nhưng không select/copy/search được. Cần chạy OCR để thêm text layer.

Mở AloPDF OCR
Upload file PDF scan
Chọn ngôn ngữ: Tiếng Việt
Chờ xử lý (khoảng 5-10 giây/trang)
Tải file mới — PDF searchable (ảnh gốc + text layer invisible)

File output nhìn y hệt file gốc — nhưng giờ có thể Ctrl+F tìm text, Select + Copy text.

Batch processing: Nếu có nhiều file, mình làm từng file (mỗi file 5-20 trang). Chưa có tính năng batch OCR trên AloPDF — nếu cần OCR hàng trăm file, xem xét cài Tesseract local trên máy.

Bước 3: Đặt tên file chuẩn

Đây là bước nhiều người skip — rồi 6 tháng sau không tìm được gì. Format mình dùng:

[Năm][Tháng]_[Loại]_[Mô tả ngắn].pdf

Ví dụ:

202501_HopDong_FPT-DichVuCloud.pdf
202503_CongVan_SoKHDT-CapPhepKinhDoanh.pdf
202506_BienBan_HopHDQT-Q2.pdf
202604_HoaDon_DienLuc-Thang4.pdf

Tại sao format này:

Năm+tháng ở đầu → sort theo thời gian tự động
Loại tài liệu → filter nhanh bằng search
Mô tả ngắn → biết nội dung không cần mở
Không dấu, không space → tránh lỗi trên một số hệ thống

Bước 4: Phân loại vào thư mục

TaiLieu/
├── HopDong/
│   ├── 2025/
│   └── 2026/
├── CongVan/
│   ├── DenCongTy/
│   └── DiCongTy/
├── BienBan/
├── HoaDon/
├── NhanSu/
│   ├── HopDongLaoDong/
│   └── QuyetDinh/
└── KeToan/
    ├── BaoCaoThue/
    └── ChungTu/

Cấu trúc tùy công ty — cái trên là của mình (công ty ~15 người). Nguyên tắc: không quá 3 cấp thư mục. Sâu hơn thì không ai nhớ đường dẫn, và search cũng nhanh hơn lật thư mục.

Bước 5: Upload lên cloud / NAS

Mình dùng Google Drive (gói Business Starter, 30 GB/user). Lý do:

Google Drive index nội dung PDF — search text bên trong file, không chỉ tên file
Share cho đồng nghiệp dễ
Version history — nếu ai xóa nhầm thì khôi phục được
Mobile app — tìm tài liệu từ điện thoại khi đi công tác

Nếu dữ liệu nhạy cảm không muốn đưa lên cloud: dùng NAS nội bộ (Synology, QNAP). Tốn 5-8 triệu cho thiết bị, nhưng data ở trong công ty.

Lưu ý: Google Drive chỉ index text trong PDF nếu file đã có text layer (tức là đã OCR). File scan thuần ảnh thì Drive chỉ search được tên file.

Bước 6: Test — tìm thử

Sau khi upload xong 1 batch, mình luôn test:

Mở Google Drive
Search: "FPT" → phải ra hợp đồng FPT
Search: "mã số thuế 0312345678" → phải ra hóa đơn đúng
Search: "biên bản họp quý 2" → phải ra file đúng

Nếu search không ra → file đó chưa OCR, hoặc OCR bị lỗi. Check lại.

Con số thực tế

Metric	Công ty mình
Tổng tài liệu đã scan	~800 trang (3 tủ hồ sơ)
Dung lượng trên Drive	2.1 GB
Thời gian scan + OCR	~2 tuần (tranh thủ 1-2 tiếng/ngày)
Thời gian tìm tài liệu trước	20-30 phút/lần
Thời gian tìm tài liệu sau	10-30 giây/lần

2 tuần đầu tư → tiết kiệm 20 phút mỗi lần tìm. Mình tìm khoảng 3-4 lần/tuần → tiết kiệm ~1 tiếng/tuần. Hoàn vốn thời gian sau ~3 tuần.

Mấy lỗi mình mắc ban đầu

Scan 100 DPI cho nhanh: Nhanh thật — nhưng OCR sau đó sai be bét. Scan lại mất double thời gian. Giờ luôn 200 DPI minimum.
Không OCR, chỉ scan: "Thấy chữ rồi, search sau tính". 3 tháng sau cần tìm — Drive search không ra vì file chỉ là ảnh. Phải OCR lại hết.
Tên file kiểu "scan001.pdf": 100 file tên scan001 đến scan100. Vô dụng. Đặt tên ngay khi scan, đừng "để sau rồi đổi" — sẽ không bao giờ đổi.
Scan 2 mặt quên lật: ADF scan 1 mặt → mất mặt sau. Check setting "Duplex" trước khi đặt xấp giấy.

Khi nào nên và không nên tự làm

Tự làm OK khi: Dưới 1000 trang, văn phòng nhỏ, không cần compliance đặc biệt (ISO, pháp lý).

Nên thuê dịch vụ khi: Trên 5000 trang, cần certification (công chứng số hóa), cần metadata phức tạp (Bates numbering, retention policy). Giá scan outsource: 500-2000đ/trang tùy yêu cầu.