Chuẩn bị hồ sơ pháp lý PDF: scan → OCR → kiểm tra → đánh số → ghép bộ

Workflow 6 bước chuẩn bị hồ sơ pháp lý: scan sạch, OCR, kiểm tra nội dung, đánh số, ghép thành bộ.

Một chị làm pháp chế doanh nghiệp nhờ mình hỗ trợ chuẩn bị hồ sơ cho vụ tranh chấp hợp đồng. Yêu cầu: 47 tài liệu gốc (hợp đồng, phụ lục, email, biên bản), scan sạch, search được text, đánh số trang liên tục, ghép thành 1 bộ. Deadline 3 ngày.

Nghe qua thì "scan rồi ghép thôi mà", nhưng thực tế có nhiều bước mà bỏ qua là phải làm lại. Chia sẻ workflow mình đã dùng — áp dụng được cho luật sư, pháp chế, hoặc bất kỳ ai cần nộp hồ sơ chuyên nghiệp.

Workflow chuẩn bị hồ sơ pháp lý

BướcHành độngToolThời gian (47 tài liệu)
1Scan sạch 300 DPIMáy scan2 tiếng
2OCR để search được textOCR PDF30 phút
3Kiểm tra nội dungĐọc thủ công3 tiếng
4Đánh số trang (Bates style)Đánh số trang PDF5 phút
5Ghép thành bộGhép PDF3 phút
6Watermark "BẢN SAO" nếu cầnWatermark PDF2 phút

Bước 1: Scan sạch — 300 DPI, không hơn không kém

Sai lầm phổ biến nhất: scan 150 DPI cho "nhẹ file". Kết quả: chữ nhỏ (footnote, điều khoản nhỏ cuối hợp đồng) bị mờ, OCR sai lung tung. Còn scan 600 DPI thì file nặng gấp 4 lần mà chất lượng OCR chỉ tốt hơn 2-3%.

300 DPI là sweet spot cho tài liệu văn bản. Quy tắc:

  • Tài liệu chữ đánh máy: 300 DPI, grayscale
  • Tài liệu có hình ảnh/biểu đồ: 300 DPI, color
  • Tài liệu chữ viết tay: 400 DPI, grayscale (viết tay cần độ phân giải cao hơn)
Kiểm tra nhanh: Sau khi scan, zoom 200% vào dòng chữ nhỏ nhất trong tài liệu. Nếu đọc rõ → OK. Nếu mờ → tăng DPI lên 400.

47 tài liệu scan mất khoảng 2 tiếng, ra 47 file PDF, tổng 312 trang, ~180MB.

Bước 2: OCR — biến ảnh scan thành text searchable

File scan chỉ là ảnh. Ctrl+F không tìm được gì. Trong hồ sơ pháp lý, khả năng search là bắt buộc — luật sư cần tìm nhanh "điều 5.2" hoặc "bồi thường" trong 312 trang.

Dùng OCR tiếng Việt để thêm layer text lên file scan. Ảnh gốc giữ nguyên, nhưng giờ Ctrl+F hoạt động.

Kết quả thực tế: OCR 312 trang mất khoảng 25 phút. Độ chính xác ~96% cho tài liệu đánh máy rõ ràng. Có 2 file (biên bản viết tay) chỉ đạt ~78% — chấp nhận được vì vẫn search được từ khóa chính.

Sau OCR, thử search "bên B" → highlight đúng 43 chỗ trong bộ hồ sơ. Đúng rồi — tiết kiệm bao nhiêu thời gian lật từng trang.

Bước 3: Kiểm tra nội dung — đừng bỏ qua

Bước này không có tool nào thay thế được. Đọc qua từng tài liệu, check:

  • Đủ trang không? (Hợp đồng 8 trang mà scan có 7 trang = thiếu)
  • Trang nào bị nghiêng, mờ, cắt xén?
  • Có trang nào scan nhầm tài liệu khác?
  • Chữ ký, con dấu có rõ không?

Thực tế mình phát hiện: 3 trang scan bị nghiêng 15 độ, 1 trang bị cắt mất dòng cuối, 2 trang scan nhầm (lẫn tài liệu khác vào). Fix lại → scan lại 6 trang đó. Mất 30 phút nhưng tránh được lỗi nghiêm trọng khi nộp.

Bước 4: Đánh số trang — Bates numbering style

Trong hồ sơ pháp lý, đánh số trang kiểu Bates là chuẩn quốc tế. Format:

ABC-000001 đến ABC-000312

Trong đó "ABC" là mã vụ việc hoặc tên hồ sơ. Mỗi trang có 1 số duy nhất, không trùng, liên tục.

Dùng đánh số trang PDF với format:

  • Vị trí: bottom right (góc phải dưới)
  • Font: nhỏ (8-9pt), không che nội dung
  • Format: prefix + số trang có padding zero
Tại sao cần Bates numbering?
— Khi trích dẫn: "Xem tài liệu trang VVA-000047" — rõ ràng, không nhầm
— Khi đối chiếu: hai bên cùng nhìn vào đúng 1 trang
— Khi nộp tòa: chứng minh hồ sơ đầy đủ, không bị thêm/bớt trang

Bước 5: Ghép thành bộ

Sắp xếp 47 tài liệu theo thứ tự logic (thường là thời gian), rồi ghép thành 1 file.

Thứ tự mình dùng cho case này:

  1. Hợp đồng gốc (tháng 1/2024)
  2. Phụ lục 1 (tháng 3/2024)
  3. Phụ lục 2 (tháng 5/2024)
  4. Các email trao đổi (sort theo ngày)
  5. Biên bản họp (sort theo ngày)
  6. Tài liệu chứng minh thiệt hại

Kết quả: 1 file PDF, 312 trang, 145MB (sau nén còn 68MB). Gửi được qua email với attachment limit 100MB thoải mái.

Bước 6: Watermark (tùy trường hợp)

Nếu gửi bản sao cho đối phương hoặc bên thứ ba, thêm watermark "BẢN SAO — COPY" để phân biệt với bản gốc nộp tòa.

Cũng có thể watermark tên người nhận nếu gửi cho nhiều bên — truy vết được nếu bị leak.

Timeline thực tế

NgàyViệcThời gian
Ngày 1Scan + fix lỗi scan3 tiếng
Ngày 1OCR30 phút
Ngày 2Kiểm tra nội dung3 tiếng
Ngày 2Đánh số + ghép + nén15 phút
Ngày 3Review cuối + gửi1 tiếng

Tổng: khoảng 8 tiếng thực làm cho 47 tài liệu, 312 trang. Nếu không có workflow rõ ràng, mình nghĩ phải mất gấp đôi — vì sẽ scan lại nhiều lần, quên OCR, đánh số sai rồi làm lại.

Lưu ý pháp lý: Mình không phải luật sư. Workflow này là kỹ thuật chuẩn bị file, không phải tư vấn pháp lý. Yêu cầu cụ thể về format hồ sơ nộp tòa/cơ quan nhà nước — hỏi luật sư hoặc xem quy định tố tụng liên quan.

Chị pháp chế feedback là bộ hồ sơ nộp được luật sư đối phương khen "chuyên nghiệp, dễ tra cứu". Chi tiết nhỏ nhưng tạo ấn tượng tốt trong quá trình tố tụng.

Dùng ngay: Đánh số trang PDF — Thêm số trang tự động vào file PDF

Đánh số trang PDF online miễn phí. Tùy chỉnh vị trí, font, cỡ chữ, bắt đầu từ số bất kỳ. Hỗ trợ định dạng "Trang X/Y". Xử lý trên trình duyệt, không cần phần mềm.

Mở công cụ →

Bài viết liên quan

Xử lý 100 file PDF hàng loạt: đặt tên → ghép theo tháng → nén → backup Real case: 100 hóa đơn/tháng → đặt tên chuẩn → ghép theo tháng → nén → backup. Quy trình 4 bước. PDF cho team remote: tạo → review → ký → version control → archive Workflow quản lý tài liệu PDF cho team remote: tạo, review/comment, ký số, quản lý version, lưu trữ. Tạo ebook PDF từ nhiều nguồn: Word + ảnh + mục lục → 1 file có bookmark Workflow 5 bước: gom chapters Word, ảnh, cover → ghép → thêm mục lục, bookmark, số trang. Gửi tài liệu PDF an toàn: nén → mật khẩu → watermark → gửi → xác nhận Workflow 5 bước gửi tài liệu nhạy cảm: chọn file, nén, đặt mật khẩu, thêm watermark, gửi qua kênh p…