Aspose.OCR を使用して .NET でスキャンされた PDF からテキストを抽出する方法
スキャンされたPDFは、基本的に単なるテキスト画像であるため、仕事をしばしば挑戦します. これらの画像を検索可能で編集可能なテキストドキュメントに変換すると、ドキュメント管理とコンテンツのアクセス可能性の世界が開きます. Aspose.OCR for .NET では、スキャンされたPDFを完全に検索可能なドキュメントに変換し、オリジナルの画像を保存することができます。
OCR(オプティック・キャラクター・認識)がスキャンされたPDFに重要な理由
データ抽出(データ抽出:- OCRは、スキャンされたテキストを機械読みやすいデータに変換し、編集およびインデックスすることができます。
検索可能:- スキャンされたPDFを検索可能なドキュメントに変換することで、手動でページを検索することなく、適切な情報をすぐに見つけることができます。
生産性の向上:- スキャンされたドキュメントを編集可能なフォーマットに変換する自動化によって時間を節約する、WordやExcelなど。
要件: スキャンされた PDF テキスト抽出の設定
スキャンされたPDFからテキストを抽出する前に、以下のステップが完了することを確認してください。
NET のための Aspose.OCR をインストールする:- NuGet を使用してプロジェクトに Aspose.OCR を追加する:
dotnet add package Aspose.OCR
メーターライセンスを取得する:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.スキャンされたPDFを準備する:- スキャンされたPDFが高品質であることを確認し、より正確なOCRでより良い品質の結果を得ることができます。
ステップ・ステップ・ガイド:スキャンされたPDFからテキストを抽出する
ステップ1:必要な図書館をインストール
プロジェクトに Aspose.OCR for .NET をインストールすることから始まります. NuGet から直接行うことができます。
dotnet add package Aspose.OCR
ステップ2:ライセンスキーの設定
プロセスを開始する前に、すべての機能を解除するために Aspose.OCR のライセンスを設定してください。
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
ステップ3:スキャンされたPDFをOCR入力オブジェクトにアップロードする
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
ステップ4:OKRエンジンを使用してスキャンされたPDFを処理する
PDF が充電されている場合は、認識のために Aspose OCR エンジンに送信します。
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
ステップ5:認識されたテキストをリリースまたは保存する
OCR エンジンが PDF を処理すると、認識されたテキストを直接リリースしたり、ファイルに保存したりできます。
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
ステップ6:OCR結果のテストと最適化
テキストを抽出した後、正確性のために出力をテストします。必要に応じて、さまざまなドキュメントの配置の結果を改善するために、OCRの設定をタップすることができます。
共通の問題と修正
1.OCRの正確性
- ソリューション:スキャンされたPDFの品質が高いことを確認します。高解像度スキャンを使用して認識の正確性を向上させます。
2.サポートされていないフォント
- ソリューション: OCR オプションで正しい言語設定を提供し、非ラテン文字の認識を向上させます。
3.ゆっくりパフォーマンス
- ソリューション: PDF をより速い処理のために、特に大きな文書のために、より小さな部分またはページに分解します。