.NET で OCR でスキャンされたドキュメントを栽培する方法

.NET で OCR でスキャンされたドキュメントを栽培する方法

スキャンされた文書を準備する際に 光学的な性格認識(OCR) は、画像を収穫し、テキスト重い領域に焦点を当てることが不可欠です. 文書の不適切な部分を掘り起こすことは、OCR ソフトウェアがより正確かつ効率的にテキストを抽出することができることを保証します. Aspose.Imaging for .NET は、スキャンされた文書を収穫し、OCR 処理のための準備に必要なツールを提供します。

OCRのためのクロップスキャンドキュメントの利点

  • 正確性の向上:- OCRの取り組みは、関連するテキストセクションに焦点を当て、騒音や無関連のコンテンツを避ける。

  • 処理時間の短縮:- 画像を植え、処理される領域を最小限にし、OCRプロセスを加速させる。

  • より良いテキスト抽出:- テキストがOKRエンジンに適切に調整され、よくフレームされていることを確認します。

原題:Setting Up Aspose.Imaging

  • Install the ネット SDK on your system.
  • Aspose.Imaging をあなたのプロジェクトに追加する: dotnet add package Aspose.Imaging
  • Obtain a metered license and configure it using SetMeteredKey().

OCRのための植物スキャンドキュメントへのステップ・ステップガイド

ステップ1:測定ライセンスの設定

Aspose.Imaging を設定して、掘削機能への無制限のアクセスを提供します。

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

ステップ2:スキャンされたドキュメント画像をアップロード

OCRの準備のために積み重ねる必要があるスキャンされたドキュメントファイルをアップロードします。

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

ステップ3:収穫区域を定義する

抽出する必要があるテキストの周りの直角領域を定義します。

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

ステップ4:作物作業を実施

Use the Crop() method to extract the required text section from the image.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

ステップ5:画像を保存する

OCR処理のための掘り下げ画像を保存します。

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

利用と利用

  • ドキュメント処理システム(ドキュメント処理システム:- OCRのための画像を準備するために自動ドキュメントスキャンシステムで掘削を実施します。

  • OCRワークフローインテグレーション:- 収穫文書は、より迅速かつより正確なテキスト抽出のためのOCRエンジンに渡す前に。

  • 出力認証:- クロップされた画像を開いて、テキストが明確に表示され、正しくフレームされていることを確認します。

現実世界アプリケーション

  • 法的および医療文書スキャン:- 植物をスキャンした契約や医療記録は、OCR処理のための重要なテキストに焦点を当てます。

  • アーカイブシステム:- テキスト抽出とデジタル化のための歴史文書の準備。

  • 電子管理サービス:- スキャンされたフォームやアプリケーションからテキストの抽出を自動化します。

共通の問題と修正

  • 不適切な収穫地域:- Ensure the Rectangle coordinates match the section with text.

  • 低品質の画像:- スキャンされた画像がOKRの正確性に十分な高解像度を持っていることを保証します。

  • ファイルの許可:- 出力ディレクトリが適切な書き込み許可を有することを確認します。

結論

Aspose.Imaging for .NET を使用すると、簡単にスキャンされた文書を収穫して、OCR 処理の重要なセクションに焦点を当て、正確性と効率性を向上させることができます。

 日本語