如何在 .NET 中从扫描的 PDF 中提取文本,使用 Aspose.OCR

扫描的PDF经常很困难,因为它们基本上只是文本图像。将这些图像转换为可搜索、可编辑的文本文档,为文档管理和内容可访问的可能性开启了一个世界。使用 Aspose.OCR for .NET,您可以将扫描的PDF转换为完全可搜索的文档,同时保存原始图像。

为什么光学字符识别(OCR)对扫描PDF至关重要

数据提取:- OCR 允许您将扫描文本转换为机器可读的数据,可编辑和索引。
可搜索:- 通过将扫描的 PDF 转换为可搜索的文档,您可以快速找到相关信息,而无需通过页面进行手动搜索。
提高生产力:- 通过自动化扫描文档转换为可编辑格式,如Word或Excel,节省时间。

要求: 设置扫描 PDF 文本提取

在您开始从您的扫描PDF中提取文本之前,请确保以下步骤完成:

安装 Aspose.OCR 为 .NET:- 使用 NuGet 将 Aspose.OCR 添加到您的项目中: dotnet add package Aspose.OCR
获取测量许可证:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().
修复您的扫描PDF文件:- 确保您的扫描的 PDF 是高质量的. 更好的质量结果在更准确的 OCR。

步骤指南:从扫描的PDF中提取文本

步骤1:安装所需图书馆

开始安装 Aspose.OCR for .NET 在您的项目中,您可以直接从 NuGet 进行此操作。

dotnet add package Aspose.OCR

步骤2:设置您的许可密钥

在开始之前,请设置 Aspose.OCR 的许可证,以解锁所有功能。

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

步骤3:将扫描的 PDF 加载到 OCR 输入对象

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

步骤4:使用OCR引擎处理扫描的PDF

通过 PDF 加载,将其转移到 Aspose OCR 引擎以获取识别。

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

步骤5:输出已识别的文本或保存它

一旦 OCR 引擎处理 PDF,您可以直接输出已识别的文本或将其保存到文件中。

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

步骤6:测试和优化OCR结果

提取文本后,检查输出准确性,如有必要,您可以调整 OCR 设置,以改善不同文档配置的结果。

常见问题和解决方案

1、低准确性

解决方案:确保扫描的PDF质量高,使用高分辨率扫描以提高识别准确性。

二、未支持的字体

解决方案:在OCR选项中提供正确的语言设置,以提高非拉丁字符的识别。

3、慢性能

解决方案:将PDF分成较小的片段或页面,以便更快的处理,尤其是大型文件。