PDF sang Word giữ định dạng: test 30 file phức tạp, chấm điểm 1-10

Test chuyển 30 file PDF phức tạp (bảng, hình, header/footer) sang Word: chấm điểm giữ định dạng từ 1-10.

Ai cũng nói "PDF sang Word dễ mà" — cho đến khi gặp file có bảng lồng nhau, header 3 dòng, hình float 2 cột, và footnote. Mình test 30 file PDF thực tế (không phải file mẫu đẹp lung linh), chấm điểm từ 1-10 cho kết quả convert. Kết luận: không tool nào hoàn hảo, nhưng biết khi nào nên dùng gì sẽ tiết kiệm rất nhiều thời gian sửa.

Phương pháp test

Bộ test 30 file PDF:

  • 10 file text thuần (hợp đồng, báo cáo, email in PDF)
  • 5 file có bảng phức tạp (bảng lồng, merged cells, bảng xoay ngang)
  • 5 file có header/footer + page number
  • 5 file có hình ảnh + caption + text wrap
  • 3 file multi-column (báo, tạp chí, brochure)
  • 2 file scan (không có text layer — pure image)

Tiêu chí chấm điểm (1-10):

ĐiểmÝ nghĩa
9-10Gần như giống hệt PDF gốc, chỉnh sửa nhỏ < 2 phút
7-8Cấu trúc đúng, cần chỉnh lại font/spacing — 5-10 phút
5-6Nội dung text đúng nhưng layout sai nhiều — 15-30 phút sửa
3-4Mất nhiều nội dung hoặc layout hỏng nặng — làm lại nhanh hơn sửa
1-2Không dùng được — output rác

Mình convert mỗi file bằng Chuyển PDF sang Word trên AloPDF, rồi mở Word so sánh bằng mắt với PDF gốc.

Kết quả tổng hợp theo loại file

Loại file PDFSố file testĐiểm trung bìnhVấn đề chính
Text thuần (hợp đồng, báo cáo)108.5/10Font thay đổi nhẹ, spacing hơi khác
Có bảng phức tạp56.2/10Merged cells bị tách, border thiếu
Header/Footer + page number57.8/10Header đôi khi nhảy vào body text
Hình ảnh + text wrap55.8/10Hình đúng nhưng text wrap sai, đè lên nhau
Multi-column34.3/10Cột bị ghép thành 1, thứ tự đọc sai
File scan (pure image)21.5/10Output trắng hoặc chỉ có hình — cần OCR

Phân tích chi tiết từng loại

1. Text thuần — 8.5/10 (Tốt)

Đây là best case. File hợp đồng, báo cáo dạng text chạy từ trên xuống, không layout phức tạp. Kết quả convert gần như hoàn hảo.

Vấn đề nhỏ thường gặp:

  • Font gốc là "Times New Roman" → convert ra "Times New Roman" nhưng spacing giữa các chữ hơi khác (Word tính kerning khác PDF)
  • Paragraph spacing chênh 1-2pt → tổng trang có thể lệch (VD: PDF 3 trang → Word 3.2 trang)
  • Dấu tiếng Việt OK 100% — không bị lỗi với các file mình test

Thời gian sửa: 1-3 phút, chủ yếu chỉnh lại page break.

2. Bảng phức tạp — 6.2/10 (Trung bình)

Bảng là thứ khó convert nhất. PDF lưu bảng không giống Word — PDF vẽ từng đường line riêng lẻ, converter phải "đoán" đâu là cell boundary.

Test cụ thể:

Loại bảngĐiểmChi tiết
Bảng đơn giản (grid đều)8/10OK, border đúng, text alignment đúng
Bảng có merged cells5/10Cell merge bị tách thành nhiều ô nhỏ, phải merge lại thủ công
Bảng không viền (borderless)4/10Converter không nhận ra đây là bảng → chuyển thành tab-separated text
Bảng xoay ngang (landscape)6/10Nội dung đúng nhưng orientation sai — cần xoay lại page trong Word
Bảng lồng nhau3/10Bảng trong thành text rời, bảng ngoài giữ được cấu trúc nhưng sai width
Mẹo: Nếu file PDF chủ yếu là bảng (như báo cáo tài chính, bảng giá) — convert sang Excel sẽ tốt hơn Word. Bảng trong Excel giữ cấu trúc tốt hơn nhiều.

3. Header/Footer — 7.8/10 (Khá tốt)

Kết quả khá bất ngờ — header/footer convert tốt hơn mình nghĩ. Vấn đề chính:

  • Header của PDF đôi khi bị converter hiểu là body text → nằm trong nội dung thay vì phần header Word
  • Page number convert đúng nhưng nằm dạng text thường, không phải auto page number của Word → nếu thêm/xóa trang sẽ sai số
  • Logo trong header: giữ được nhưng kích thước có thể thay đổi 5-10%

4. Hình ảnh + text wrap — 5.8/10 (Dưới trung bình)

Đây là điểm yếu rõ rệt. PDF lưu hình ảnh ở tọa độ tuyệt đối (x, y trên page). Word dùng hệ thống anchor + wrapping. Hai thứ này không map 1:1.

Vấn đề cụ thể:

  • Hình đúng vị trí nhưng text wrap sai mode (Behind text thay vì Square) → text chồng lên hình
  • Caption bị tách khỏi hình, nhảy sang đoạn khác
  • Hình có border/shadow trong PDF → convert mất effect

Workaround: Sau khi convert, chọn từng hình → đổi wrapping mode về Square hoặc In line. Mất thêm 5-10 phút cho file 5-10 hình.

5. Multi-column — 4.3/10 (Kém)

File dạng báo, tạp chí, brochure 2-3 cột. Kết quả: converter thường gộp text các cột thành 1 cột, thứ tự đọc sai (đọc ngang thay vì đọc dọc từng cột).

Ví dụ: Báo cáo thường niên 2 cột. Cột trái nói về doanh thu, cột phải nói về chi phí. Convert ra: "Doanh thu năm 2024 đạt Chi phí hoạt động 500 tỷ đồng gồm..." — text 2 cột mix lẫn nhau.

Với file multi-column: không nên convert trực tiếp. Tốt hơn: copy-paste text thủ công từ PDF, hoặc dùng OCR rồi edit lại.

6. File scan — 1.5/10 (Không dùng được)

File scan (chụp/scan giấy thành PDF) không có text layer. Converter nhận vào → output chỉ là hình ảnh embed trong Word, không có text nào.

Với file scan: bắt buộc dùng OCR trước. Workflow:

  1. OCR file PDF → tạo text layer
  2. Sau đó Convert PDF sang Word
  3. Kết quả phụ thuộc chất lượng OCR + chất lượng scan gốc

Khi nào converter thất bại hoàn toàn?

Trong 30 file test, có 4 file mình đánh giá "làm lại nhanh hơn sửa":

FileĐiểmLý do thất bạiGiải pháp thay thế
Brochure 3 cột + hình chồng2/10Layout quá phức tạp, cột mix lẫnDùng InDesign/Canva làm lại
Scan cũ, mờ, xoay lệch1/10Không có text, OCR cũng khó đọcScan lại chất lượng cao hơn
PDF có form fields + JavaScript3/10Form fields mất, chỉ giữ textCopy text thủ công + tạo form mới trong Word
File có bảng lồng 3 cấp2/10Cấu trúc bảng hỏng hoàn toànTạo bảng mới trong Word, copy data

So sánh: Convert vs OCR — khi nào dùng gì?

Tình huốngDùng ConvertDùng OCR
PDF có text layer (tạo từ Word/Excel)✅ Ưu tiênKhông cần
PDF scan (ảnh chụp/scan)❌ Không hiệu quả✅ Bắt buộc
PDF có text nhưng font lạ (text hiện □□)Thử trước✅ Nếu convert lỗi font
PDF layout phức tạp (multi-column)Thử trước✅ OCR thường xử lý cột tốt hơn
Cách kiểm tra PDF có text layer không: Mở PDF → Ctrl+A (select all). Nếu text được bôi xanh = có text layer → dùng convert. Nếu không select được gì = file scan → dùng OCR.

Tips để kết quả convert tốt nhất

  1. Dùng file PDF gốc — đừng dùng PDF đã in rồi scan lại. File gốc (export trực tiếp từ Word/Excel) luôn convert tốt hơn
  2. File càng đơn giản → kết quả càng tốt. Nếu chỉ cần text, bỏ qua layout — copy-paste text từ PDF nhanh hơn convert rồi sửa layout
  3. Kiểm tra ngay sau convert: mở Word so sánh với PDF gốc, đặc biệt bảng và hình
  4. Nếu convert lỗi nặng: thử OCR + convert — đôi khi kết quả tốt hơn convert trực tiếp (vì OCR nhận diện layout theo cách khác)

Kết luận

Trung bình 30 file: 6.4/10. Tốt nhất với text thuần (8.5), tệ nhất với multi-column và scan (dưới 4). Converter không phải magic — nó là tool tiết kiệm thời gian cho 70% trường hợp. 30% còn lại, cần kết hợp OCR hoặc làm lại thủ công.

Biết giới hạn của tool = biết khi nào nên dùng, khi nào nên chọn cách khác. Đó là kỹ năng thực sự.

Dùng ngay: Chuyển PDF sang Word (.docx) — Giữ nguyên font, bảng biểu

Chuyển PDF sang Word online miễn phí, giữ nguyên bảng biểu, hình ảnh, font chữ tiếng Việt. Hỗ trợ OCR cho PDF scan. Không cần cài phần mềm, nhanh và chính xác.

Mở công cụ →

Bài viết liên quan

Ảnh trong PDF mất nét khi nào? Test 72/150/300 DPI — ngưỡng chấp nhận Test ảnh 72/150/300 DPI trong PDF: khi nào bị mờ, ngưỡng DPI chấp nhận được cho in và xem màn hình. Font tiếng Việt trong PDF: test 20 font — lỗi gì khi convert? Test 20 font VN phổ biến (Times New Roman, Arial, VNI, .vnTime): liệt kê lỗi cụ thể khi chuyển đổi … Tốc độ xử lý PDF online: benchmark AloPDF vs 3 đối thủ — có case thua Benchmark tốc độ và kích thước output: AloPDF vs SmallPDF vs iLovePDF vs PDF24. Trung thực, có case… OCR tiếng Việt: test 50 file scan — độ chính xác theo font, DPI, góc nghiêng Test OCR 50 file scan tiếng Việt (hóa đơn, giấy tờ, sách): đo tỉ lệ chính xác theo font, DPI, góc n…