Chuẩn bị hồ sơ pháp lý PDF: scan → OCR → kiểm tra → đánh số → ghép bộ
Workflow 6 bước chuẩn bị hồ sơ pháp lý: scan sạch, OCR, kiểm tra nội dung, đánh số, ghép thành bộ.
Một chị làm pháp chế doanh nghiệp nhờ mình hỗ trợ chuẩn bị hồ sơ cho vụ tranh chấp hợp đồng. Yêu cầu: 47 tài liệu gốc (hợp đồng, phụ lục, email, biên bản), scan sạch, search được text, đánh số trang liên tục, ghép thành 1 bộ. Deadline 3 ngày.
Nghe qua thì "scan rồi ghép thôi mà", nhưng thực tế có nhiều bước mà bỏ qua là phải làm lại. Chia sẻ workflow mình đã dùng — áp dụng được cho luật sư, pháp chế, hoặc bất kỳ ai cần nộp hồ sơ chuyên nghiệp.
Workflow chuẩn bị hồ sơ pháp lý
| Bước | Hành động | Tool | Thời gian (47 tài liệu) |
|---|---|---|---|
| 1 | Scan sạch 300 DPI | Máy scan | 2 tiếng |
| 2 | OCR để search được text | OCR PDF | 30 phút |
| 3 | Kiểm tra nội dung | Đọc thủ công | 3 tiếng |
| 4 | Đánh số trang (Bates style) | Đánh số trang PDF | 5 phút |
| 5 | Ghép thành bộ | Ghép PDF | 3 phút |
| 6 | Watermark "BẢN SAO" nếu cần | Watermark PDF | 2 phút |
Bước 1: Scan sạch — 300 DPI, không hơn không kém
Sai lầm phổ biến nhất: scan 150 DPI cho "nhẹ file". Kết quả: chữ nhỏ (footnote, điều khoản nhỏ cuối hợp đồng) bị mờ, OCR sai lung tung. Còn scan 600 DPI thì file nặng gấp 4 lần mà chất lượng OCR chỉ tốt hơn 2-3%.
300 DPI là sweet spot cho tài liệu văn bản. Quy tắc:
- Tài liệu chữ đánh máy: 300 DPI, grayscale
- Tài liệu có hình ảnh/biểu đồ: 300 DPI, color
- Tài liệu chữ viết tay: 400 DPI, grayscale (viết tay cần độ phân giải cao hơn)
47 tài liệu scan mất khoảng 2 tiếng, ra 47 file PDF, tổng 312 trang, ~180MB.
Bước 2: OCR — biến ảnh scan thành text searchable
File scan chỉ là ảnh. Ctrl+F không tìm được gì. Trong hồ sơ pháp lý, khả năng search là bắt buộc — luật sư cần tìm nhanh "điều 5.2" hoặc "bồi thường" trong 312 trang.
Dùng OCR tiếng Việt để thêm layer text lên file scan. Ảnh gốc giữ nguyên, nhưng giờ Ctrl+F hoạt động.
Kết quả thực tế: OCR 312 trang mất khoảng 25 phút. Độ chính xác ~96% cho tài liệu đánh máy rõ ràng. Có 2 file (biên bản viết tay) chỉ đạt ~78% — chấp nhận được vì vẫn search được từ khóa chính.
Sau OCR, thử search "bên B" → highlight đúng 43 chỗ trong bộ hồ sơ. Đúng rồi — tiết kiệm bao nhiêu thời gian lật từng trang.
Bước 3: Kiểm tra nội dung — đừng bỏ qua
Bước này không có tool nào thay thế được. Đọc qua từng tài liệu, check:
- Đủ trang không? (Hợp đồng 8 trang mà scan có 7 trang = thiếu)
- Trang nào bị nghiêng, mờ, cắt xén?
- Có trang nào scan nhầm tài liệu khác?
- Chữ ký, con dấu có rõ không?
Thực tế mình phát hiện: 3 trang scan bị nghiêng 15 độ, 1 trang bị cắt mất dòng cuối, 2 trang scan nhầm (lẫn tài liệu khác vào). Fix lại → scan lại 6 trang đó. Mất 30 phút nhưng tránh được lỗi nghiêm trọng khi nộp.
Bước 4: Đánh số trang — Bates numbering style
Trong hồ sơ pháp lý, đánh số trang kiểu Bates là chuẩn quốc tế. Format:
ABC-000001 đến ABC-000312
Trong đó "ABC" là mã vụ việc hoặc tên hồ sơ. Mỗi trang có 1 số duy nhất, không trùng, liên tục.
Dùng đánh số trang PDF với format:
- Vị trí: bottom right (góc phải dưới)
- Font: nhỏ (8-9pt), không che nội dung
- Format: prefix + số trang có padding zero
— Khi trích dẫn: "Xem tài liệu trang VVA-000047" — rõ ràng, không nhầm
— Khi đối chiếu: hai bên cùng nhìn vào đúng 1 trang
— Khi nộp tòa: chứng minh hồ sơ đầy đủ, không bị thêm/bớt trang
Bước 5: Ghép thành bộ
Sắp xếp 47 tài liệu theo thứ tự logic (thường là thời gian), rồi ghép thành 1 file.
Thứ tự mình dùng cho case này:
- Hợp đồng gốc (tháng 1/2024)
- Phụ lục 1 (tháng 3/2024)
- Phụ lục 2 (tháng 5/2024)
- Các email trao đổi (sort theo ngày)
- Biên bản họp (sort theo ngày)
- Tài liệu chứng minh thiệt hại
Kết quả: 1 file PDF, 312 trang, 145MB (sau nén còn 68MB). Gửi được qua email với attachment limit 100MB thoải mái.
Bước 6: Watermark (tùy trường hợp)
Nếu gửi bản sao cho đối phương hoặc bên thứ ba, thêm watermark "BẢN SAO — COPY" để phân biệt với bản gốc nộp tòa.
Cũng có thể watermark tên người nhận nếu gửi cho nhiều bên — truy vết được nếu bị leak.
Timeline thực tế
| Ngày | Việc | Thời gian |
|---|---|---|
| Ngày 1 | Scan + fix lỗi scan | 3 tiếng |
| Ngày 1 | OCR | 30 phút |
| Ngày 2 | Kiểm tra nội dung | 3 tiếng |
| Ngày 2 | Đánh số + ghép + nén | 15 phút |
| Ngày 3 | Review cuối + gửi | 1 tiếng |
Tổng: khoảng 8 tiếng thực làm cho 47 tài liệu, 312 trang. Nếu không có workflow rõ ràng, mình nghĩ phải mất gấp đôi — vì sẽ scan lại nhiều lần, quên OCR, đánh số sai rồi làm lại.
Chị pháp chế feedback là bộ hồ sơ nộp được luật sư đối phương khen "chuyên nghiệp, dễ tra cứu". Chi tiết nhỏ nhưng tạo ấn tượng tốt trong quá trình tố tụng.
Dùng ngay: Đánh số trang PDF — Thêm số trang tự động vào file PDF
Đánh số trang PDF online miễn phí. Tùy chỉnh vị trí, font, cỡ chữ, bắt đầu từ số bất kỳ. Hỗ trợ định dạng "Trang X/Y". Xử lý trên trình duyệt, không cần phần mềm.
Mở công cụ →