如何在 .NET 中从扫描的 PDF 中提取文本,使用 Aspose.OCR
扫描的PDF经常很困难,因为它们基本上只是文本图像。 将这些图像转换为可搜索、可编辑的文本文档,为文档管理和内容可访问的可能性开启了一个世界。 使用 Aspose.OCR for .NET,您可以将扫描的PDF转换为完全可搜索的文档,同时保存原始图像。
为什么光学字符识别(OCR)对扫描PDF至关重要
数据提取:- OCR 允许您将扫描文本转换为机器可读的数据,可编辑和索引。
可搜索:- 通过将扫描的 PDF 转换为可搜索的文档,您可以快速找到相关信息,而无需通过页面进行手动搜索。
提高生产力:- 通过自动化扫描文档转换为可编辑格式,如Word或Excel,节省时间。
要求: 设置扫描 PDF 文本提取
在您开始从您的扫描PDF中提取文本之前,请确保以下步骤完成:
安装 Aspose.OCR 为 .NET:- 使用 NuGet 将 Aspose.OCR 添加到您的项目中:
dotnet add package Aspose.OCR
获取测量许可证:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.修复您的扫描PDF文件:- 确保您的扫描的 PDF 是高质量的. 更好的质量结果在更准确的 OCR。
步骤指南:从扫描的PDF中提取文本
步骤1:安装所需图书馆
开始安装 Aspose.OCR for .NET 在您的项目中,您可以直接从 NuGet 进行此操作。
dotnet add package Aspose.OCR
步骤2:设置您的许可密钥
在开始之前,请设置 Aspose.OCR 的许可证,以解锁所有功能。
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
步骤3:将扫描的 PDF 加载到 OCR 输入对象
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
步骤4:使用OCR引擎处理扫描的PDF
通过 PDF 加载,将其转移到 Aspose OCR 引擎以获取识别。
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
步骤5:输出已识别的文本或保存它
一旦 OCR 引擎处理 PDF,您可以直接输出已识别的文本或将其保存到文件中。
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
步骤6:测试和优化OCR结果
提取文本后,检查输出准确性,如有必要,您可以调整 OCR 设置,以改善不同文档配置的结果。
常见问题和解决方案
1、低准确性
- 解决方案:确保扫描的PDF质量高,使用高分辨率扫描以提高识别准确性。
二、未支持的字体
- 解决方案:在OCR选项中提供正确的语言设置,以提高非拉丁字符的识别。
3、慢性能
- 解决方案:将PDF分成较小的片段或页面,以便更快的处理,尤其是大型文件。