Làm thế nào để chuyển đổi PDF được quét sang tài liệu văn bản có thể tìm kiếm trong .NET

PDF được quét thường là thách thức để làm việc với vì chúng về cơ bản chỉ là hình ảnh văn bản. Việc chuyển đổi những hình ảnh này thành các tài liệu văn bản có thể tìm kiếm, chỉnh sửa mở ra một thế giới của khả năng quản lý tài liệu và khả năng truy cập nội dung. Với Aspose.OCR cho .NET, bạn có thể chuyển đổi PDF được quét thành các tài liệu có thể tìm kiếm đầy đủ trong khi duy trì hình ảnh ban đầu.

Tại sao chuyển đổi PDF được quét thành tài liệu văn bản có thể tìm kiếm?

Khả năng tiếp cận:- Làm cho nội dung quét dễ tìm kiếm, làm cho nó dễ dàng để tìm thông tin mà không cần đọc bằng tay thông qua tài liệu.
Nội dung chỉnh sửa:- Sau khi chuyển đổi thành văn bản, nội dung có thể được chỉnh sửa, cập nhật hoặc tái sử dụng trong các định dạng khác.
Hiệu quả:- Tiết kiệm thời gian bằng cách tự động hóa quá trình chuyển đổi PDF được quét thành tài liệu văn bản có thể truy cập đầy đủ.

Yêu cầu: Cài đặt cho PDF Text Extraction Scanned

Trước khi lấy văn bản từ các PDF được quét, hãy làm theo các bước sau đây để đảm bảo mọi thứ được thiết lập:

Cài đặt Aspose.OCR cho .NET:- Thêm Aspose.OCR vào dự án của bạn bằng NuGet: dotnet add package Aspose.OCR
Nhận giấy phép của bạn:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.
Cập trình PDF được quét:- Đảm bảo rằng các PDF được quét có chất lượng tốt cho độ chính xác nhận dạng tốt hơn.

Hướng dẫn từng bước: Chuyển đổi PDF được quét sang văn bản có thể tìm kiếm

Bước 1: Tạo giấy phép của bạn

Bắt đầu bằng cách cấu hình giấy phép Aspose.OCR của bạn để mở khóa tất cả các tính năng.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Bước 2: Tải PDF quét vào đối tượng nhập OCR

Tiếp theo, tải PDF được quét vào đối tượng OcrInput để bắt đầu quá trình OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Bước 3: Thiết lập động cơ OCR để nhận dạng

Thiết lập động cơ OCR và thiết lập bất kỳ cài đặt nhận dạng nào, chẳng hạn như ngôn ngữ và độ chính xác.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Bước 4: Xóa và xóa văn bản được công nhận

Bây giờ, lấy văn bản từ PDF quét bằng cách sử dụng động cơ OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Bước 5: Kiểm tra PDF có thể tìm kiếm

Đảm bảo rằng văn bản thu được có thể được tìm kiếm và chỉnh sửa bằng cách kiểm tra kết quả trong trình xem PDF hoặc biên tập.

Các vấn đề chung và Fixes

• Độ chính xác OCR thấp

Giải pháp: đảm bảo rằng PDF được quét là chất lượng cao (khoảng 300 DPI) để cải thiện kết quả nhận dạng.

2.Không hỗ trợ Fonts

Giải pháp: đảm bảo ngôn ngữ chính xác được đặt trong cài đặt OCR để nhận dạng văn bản chính xác, đặc biệt là đối với các ký tự không Latin.

• Hiệu suất chậm cho PDF lớn

Giải pháp: Đối với PDF lớn, xử lý tài liệu trong các mảnh nhỏ hơn hoặc các trang để giảm sử dụng bộ nhớ và tăng tốc quá trình.