Quy trình số hóa tài liệu: Giấy → Scan → OCR → Index → Lưu trữ
Workflow 6 bước số hóa tài liệu cho văn phòng nhỏ: từ giấy tờ → file PDF searchable, có index.
Văn phòng công ty mình có 3 tủ hồ sơ giấy — hợp đồng, công văn, biên bản từ 2018 đến nay. Mỗi lần cần tìm 1 văn bản là lật cả chồng, mất 20-30 phút. Có hôm sếp hỏi gấp, không tìm được → phải xin đối tác gửi lại bản copy.
Cuối năm ngoái mình bắt đầu số hóa — scan ra PDF, chạy OCR, lưu trên Drive. Giờ cần gì thì Ctrl+F trên Drive, 10 giây ra kết quả. Tốn khoảng 2 tuần scan hết (tranh thủ giờ rảnh), nhưng xong rồi thì đỡ vô cùng.
Đây là quy trình 6 bước mình dùng — cho văn phòng nhỏ 5-20 người, không cần phần mềm quản lý tài liệu đắt tiền.
Tổng quan workflow
Giấy → Scan → OCR → Đặt tên → Phân loại → Backup
↓ ↓
PDF ảnh PDF searchable + tên chuẩn
↓
Google Drive / NAS
↓
Ctrl+F tìm kiếm
Bước 1: Scan — tạo file PDF từ giấy
Dùng máy scan văn phòng (tốt nhất)
Máy scan hoặc máy in có scan (Canon, Brother, HP). Setting:
- DPI: 200-300 — 200 cho văn bản thường, 300 cho giấy tờ quan trọng hoặc font nhỏ
- Màu: Grayscale — đủ cho text, nhẹ hơn color 3 lần. Chỉ dùng Color khi tài liệu có hình ảnh quan trọng
- Format: PDF — đa số máy scan export PDF trực tiếp. Nếu chỉ ra JPG/TIFF → dùng chuyển ảnh sang PDF sau
- Feeder: ADF (auto document feeder) — nếu máy có, đặt cả xấp 20-50 tờ, scan tự động
Dùng điện thoại (khi không có máy scan)
App: Microsoft Lens (miễn phí, tốt nhất theo kinh nghiệm mình), CamScanner, Adobe Scan.
- Đặt giấy trên mặt phẳng, đủ sáng
- Chụp thẳng (không nghiêng quá 5°)
- App tự crop, deskew, tăng contrast
- Export ra PDF
Kinh nghiệm: Điện thoại OK cho 10-20 trang lẻ. Nếu cần scan 200+ trang → mượn/mua máy scan có ADF. Chụp điện thoại 200 trang mất cả ngày và chất lượng không đều.
Bước 2: OCR — thêm text layer
File sau scan là "PDF ảnh" — nhìn thấy chữ nhưng không select/copy/search được. Cần chạy OCR để thêm text layer.
- Mở AloPDF OCR
- Upload file PDF scan
- Chọn ngôn ngữ: Tiếng Việt
- Chờ xử lý (khoảng 5-10 giây/trang)
- Tải file mới — PDF searchable (ảnh gốc + text layer invisible)
File output nhìn y hệt file gốc — nhưng giờ có thể Ctrl+F tìm text, Select + Copy text.
Batch processing: Nếu có nhiều file, mình làm từng file (mỗi file 5-20 trang). Chưa có tính năng batch OCR trên AloPDF — nếu cần OCR hàng trăm file, xem xét cài Tesseract local trên máy.
Bước 3: Đặt tên file chuẩn
Đây là bước nhiều người skip — rồi 6 tháng sau không tìm được gì. Format mình dùng:
[Năm][Tháng]_[Loại]_[Mô tả ngắn].pdf
Ví dụ:
202501_HopDong_FPT-DichVuCloud.pdf202503_CongVan_SoKHDT-CapPhepKinhDoanh.pdf202506_BienBan_HopHDQT-Q2.pdf202604_HoaDon_DienLuc-Thang4.pdf
Tại sao format này:
- Năm+tháng ở đầu → sort theo thời gian tự động
- Loại tài liệu → filter nhanh bằng search
- Mô tả ngắn → biết nội dung không cần mở
- Không dấu, không space → tránh lỗi trên một số hệ thống
Bước 4: Phân loại vào thư mục
TaiLieu/
├── HopDong/
│ ├── 2025/
│ └── 2026/
├── CongVan/
│ ├── DenCongTy/
│ └── DiCongTy/
├── BienBan/
├── HoaDon/
├── NhanSu/
│ ├── HopDongLaoDong/
│ └── QuyetDinh/
└── KeToan/
├── BaoCaoThue/
└── ChungTu/
Cấu trúc tùy công ty — cái trên là của mình (công ty ~15 người). Nguyên tắc: không quá 3 cấp thư mục. Sâu hơn thì không ai nhớ đường dẫn, và search cũng nhanh hơn lật thư mục.
Bước 5: Upload lên cloud / NAS
Mình dùng Google Drive (gói Business Starter, 30 GB/user). Lý do:
- Google Drive index nội dung PDF — search text bên trong file, không chỉ tên file
- Share cho đồng nghiệp dễ
- Version history — nếu ai xóa nhầm thì khôi phục được
- Mobile app — tìm tài liệu từ điện thoại khi đi công tác
Nếu dữ liệu nhạy cảm không muốn đưa lên cloud: dùng NAS nội bộ (Synology, QNAP). Tốn 5-8 triệu cho thiết bị, nhưng data ở trong công ty.
Lưu ý: Google Drive chỉ index text trong PDF nếu file đã có text layer (tức là đã OCR). File scan thuần ảnh thì Drive chỉ search được tên file.
Bước 6: Test — tìm thử
Sau khi upload xong 1 batch, mình luôn test:
- Mở Google Drive
- Search: "FPT" → phải ra hợp đồng FPT
- Search: "mã số thuế 0312345678" → phải ra hóa đơn đúng
- Search: "biên bản họp quý 2" → phải ra file đúng
Nếu search không ra → file đó chưa OCR, hoặc OCR bị lỗi. Check lại.
Con số thực tế
| Metric | Công ty mình |
|---|---|
| Tổng tài liệu đã scan | ~800 trang (3 tủ hồ sơ) |
| Dung lượng trên Drive | 2.1 GB |
| Thời gian scan + OCR | ~2 tuần (tranh thủ 1-2 tiếng/ngày) |
| Thời gian tìm tài liệu trước | 20-30 phút/lần |
| Thời gian tìm tài liệu sau | 10-30 giây/lần |
2 tuần đầu tư → tiết kiệm 20 phút mỗi lần tìm. Mình tìm khoảng 3-4 lần/tuần → tiết kiệm ~1 tiếng/tuần. Hoàn vốn thời gian sau ~3 tuần.
Mấy lỗi mình mắc ban đầu
- Scan 100 DPI cho nhanh: Nhanh thật — nhưng OCR sau đó sai be bét. Scan lại mất double thời gian. Giờ luôn 200 DPI minimum.
- Không OCR, chỉ scan: "Thấy chữ rồi, search sau tính". 3 tháng sau cần tìm — Drive search không ra vì file chỉ là ảnh. Phải OCR lại hết.
- Tên file kiểu "scan001.pdf": 100 file tên scan001 đến scan100. Vô dụng. Đặt tên ngay khi scan, đừng "để sau rồi đổi" — sẽ không bao giờ đổi.
- Scan 2 mặt quên lật: ADF scan 1 mặt → mất mặt sau. Check setting "Duplex" trước khi đặt xấp giấy.
Khi nào nên và không nên tự làm
Tự làm OK khi: Dưới 1000 trang, văn phòng nhỏ, không cần compliance đặc biệt (ISO, pháp lý).
Nên thuê dịch vụ khi: Trên 5000 trang, cần certification (công chứng số hóa), cần metadata phức tạp (Bates numbering, retention policy). Giá scan outsource: 500-2000đ/trang tùy yêu cầu.
Dùng ngay: OCR PDF — Chuyển PDF scan thành văn bản có thể tìm kiếm
Nhận dạng văn bản OCR trong PDF scan online miễn phí. Hỗ trợ tiếng Việt có dấu. Chuyển ảnh scan thành text copy được, tìm kiếm được. Sử dụng Tesseract — chính xác và nhanh.
Mở công cụ →