PDF sang Word giữ định dạng: test 30 file phức tạp, chấm điểm 1-10
Test chuyển 30 file PDF phức tạp (bảng, hình, header/footer) sang Word: chấm điểm giữ định dạng từ 1-10.
Ai cũng nói "PDF sang Word dễ mà" — cho đến khi gặp file có bảng lồng nhau, header 3 dòng, hình float 2 cột, và footnote. Mình test 30 file PDF thực tế (không phải file mẫu đẹp lung linh), chấm điểm từ 1-10 cho kết quả convert. Kết luận: không tool nào hoàn hảo, nhưng biết khi nào nên dùng gì sẽ tiết kiệm rất nhiều thời gian sửa.
Phương pháp test
Bộ test 30 file PDF:
- 10 file text thuần (hợp đồng, báo cáo, email in PDF)
- 5 file có bảng phức tạp (bảng lồng, merged cells, bảng xoay ngang)
- 5 file có header/footer + page number
- 5 file có hình ảnh + caption + text wrap
- 3 file multi-column (báo, tạp chí, brochure)
- 2 file scan (không có text layer — pure image)
Tiêu chí chấm điểm (1-10):
| Điểm | Ý nghĩa |
|---|---|
| 9-10 | Gần như giống hệt PDF gốc, chỉnh sửa nhỏ < 2 phút |
| 7-8 | Cấu trúc đúng, cần chỉnh lại font/spacing — 5-10 phút |
| 5-6 | Nội dung text đúng nhưng layout sai nhiều — 15-30 phút sửa |
| 3-4 | Mất nhiều nội dung hoặc layout hỏng nặng — làm lại nhanh hơn sửa |
| 1-2 | Không dùng được — output rác |
Mình convert mỗi file bằng Chuyển PDF sang Word trên AloPDF, rồi mở Word so sánh bằng mắt với PDF gốc.
Kết quả tổng hợp theo loại file
| Loại file PDF | Số file test | Điểm trung bình | Vấn đề chính |
|---|---|---|---|
| Text thuần (hợp đồng, báo cáo) | 10 | 8.5/10 | Font thay đổi nhẹ, spacing hơi khác |
| Có bảng phức tạp | 5 | 6.2/10 | Merged cells bị tách, border thiếu |
| Header/Footer + page number | 5 | 7.8/10 | Header đôi khi nhảy vào body text |
| Hình ảnh + text wrap | 5 | 5.8/10 | Hình đúng nhưng text wrap sai, đè lên nhau |
| Multi-column | 3 | 4.3/10 | Cột bị ghép thành 1, thứ tự đọc sai |
| File scan (pure image) | 2 | 1.5/10 | Output trắng hoặc chỉ có hình — cần OCR |
Phân tích chi tiết từng loại
1. Text thuần — 8.5/10 (Tốt)
Đây là best case. File hợp đồng, báo cáo dạng text chạy từ trên xuống, không layout phức tạp. Kết quả convert gần như hoàn hảo.
Vấn đề nhỏ thường gặp:
- Font gốc là "Times New Roman" → convert ra "Times New Roman" nhưng spacing giữa các chữ hơi khác (Word tính kerning khác PDF)
- Paragraph spacing chênh 1-2pt → tổng trang có thể lệch (VD: PDF 3 trang → Word 3.2 trang)
- Dấu tiếng Việt OK 100% — không bị lỗi với các file mình test
Thời gian sửa: 1-3 phút, chủ yếu chỉnh lại page break.
2. Bảng phức tạp — 6.2/10 (Trung bình)
Bảng là thứ khó convert nhất. PDF lưu bảng không giống Word — PDF vẽ từng đường line riêng lẻ, converter phải "đoán" đâu là cell boundary.
Test cụ thể:
| Loại bảng | Điểm | Chi tiết |
|---|---|---|
| Bảng đơn giản (grid đều) | 8/10 | OK, border đúng, text alignment đúng |
| Bảng có merged cells | 5/10 | Cell merge bị tách thành nhiều ô nhỏ, phải merge lại thủ công |
| Bảng không viền (borderless) | 4/10 | Converter không nhận ra đây là bảng → chuyển thành tab-separated text |
| Bảng xoay ngang (landscape) | 6/10 | Nội dung đúng nhưng orientation sai — cần xoay lại page trong Word |
| Bảng lồng nhau | 3/10 | Bảng trong thành text rời, bảng ngoài giữ được cấu trúc nhưng sai width |
3. Header/Footer — 7.8/10 (Khá tốt)
Kết quả khá bất ngờ — header/footer convert tốt hơn mình nghĩ. Vấn đề chính:
- Header của PDF đôi khi bị converter hiểu là body text → nằm trong nội dung thay vì phần header Word
- Page number convert đúng nhưng nằm dạng text thường, không phải auto page number của Word → nếu thêm/xóa trang sẽ sai số
- Logo trong header: giữ được nhưng kích thước có thể thay đổi 5-10%
4. Hình ảnh + text wrap — 5.8/10 (Dưới trung bình)
Đây là điểm yếu rõ rệt. PDF lưu hình ảnh ở tọa độ tuyệt đối (x, y trên page). Word dùng hệ thống anchor + wrapping. Hai thứ này không map 1:1.
Vấn đề cụ thể:
- Hình đúng vị trí nhưng text wrap sai mode (Behind text thay vì Square) → text chồng lên hình
- Caption bị tách khỏi hình, nhảy sang đoạn khác
- Hình có border/shadow trong PDF → convert mất effect
Workaround: Sau khi convert, chọn từng hình → đổi wrapping mode về Square hoặc In line. Mất thêm 5-10 phút cho file 5-10 hình.
5. Multi-column — 4.3/10 (Kém)
File dạng báo, tạp chí, brochure 2-3 cột. Kết quả: converter thường gộp text các cột thành 1 cột, thứ tự đọc sai (đọc ngang thay vì đọc dọc từng cột).
Ví dụ: Báo cáo thường niên 2 cột. Cột trái nói về doanh thu, cột phải nói về chi phí. Convert ra: "Doanh thu năm 2024 đạt Chi phí hoạt động 500 tỷ đồng gồm..." — text 2 cột mix lẫn nhau.
Với file multi-column: không nên convert trực tiếp. Tốt hơn: copy-paste text thủ công từ PDF, hoặc dùng OCR rồi edit lại.
6. File scan — 1.5/10 (Không dùng được)
File scan (chụp/scan giấy thành PDF) không có text layer. Converter nhận vào → output chỉ là hình ảnh embed trong Word, không có text nào.
Với file scan: bắt buộc dùng OCR trước. Workflow:
- OCR file PDF → tạo text layer
- Sau đó Convert PDF sang Word
- Kết quả phụ thuộc chất lượng OCR + chất lượng scan gốc
Khi nào converter thất bại hoàn toàn?
Trong 30 file test, có 4 file mình đánh giá "làm lại nhanh hơn sửa":
| File | Điểm | Lý do thất bại | Giải pháp thay thế |
|---|---|---|---|
| Brochure 3 cột + hình chồng | 2/10 | Layout quá phức tạp, cột mix lẫn | Dùng InDesign/Canva làm lại |
| Scan cũ, mờ, xoay lệch | 1/10 | Không có text, OCR cũng khó đọc | Scan lại chất lượng cao hơn |
| PDF có form fields + JavaScript | 3/10 | Form fields mất, chỉ giữ text | Copy text thủ công + tạo form mới trong Word |
| File có bảng lồng 3 cấp | 2/10 | Cấu trúc bảng hỏng hoàn toàn | Tạo bảng mới trong Word, copy data |
So sánh: Convert vs OCR — khi nào dùng gì?
| Tình huống | Dùng Convert | Dùng OCR |
|---|---|---|
| PDF có text layer (tạo từ Word/Excel) | ✅ Ưu tiên | Không cần |
| PDF scan (ảnh chụp/scan) | ❌ Không hiệu quả | ✅ Bắt buộc |
| PDF có text nhưng font lạ (text hiện □□) | Thử trước | ✅ Nếu convert lỗi font |
| PDF layout phức tạp (multi-column) | Thử trước | ✅ OCR thường xử lý cột tốt hơn |
Tips để kết quả convert tốt nhất
- Dùng file PDF gốc — đừng dùng PDF đã in rồi scan lại. File gốc (export trực tiếp từ Word/Excel) luôn convert tốt hơn
- File càng đơn giản → kết quả càng tốt. Nếu chỉ cần text, bỏ qua layout — copy-paste text từ PDF nhanh hơn convert rồi sửa layout
- Kiểm tra ngay sau convert: mở Word so sánh với PDF gốc, đặc biệt bảng và hình
- Nếu convert lỗi nặng: thử OCR + convert — đôi khi kết quả tốt hơn convert trực tiếp (vì OCR nhận diện layout theo cách khác)
Kết luận
Trung bình 30 file: 6.4/10. Tốt nhất với text thuần (8.5), tệ nhất với multi-column và scan (dưới 4). Converter không phải magic — nó là tool tiết kiệm thời gian cho 70% trường hợp. 30% còn lại, cần kết hợp OCR hoặc làm lại thủ công.
Biết giới hạn của tool = biết khi nào nên dùng, khi nào nên chọn cách khác. Đó là kỹ năng thực sự.
Dùng ngay: Chuyển PDF sang Word (.docx) — Giữ nguyên font, bảng biểu
Chuyển PDF sang Word online miễn phí, giữ nguyên bảng biểu, hình ảnh, font chữ tiếng Việt. Hỗ trợ OCR cho PDF scan. Không cần cài phần mềm, nhanh và chính xác.
Mở công cụ →