How to Convert Scanned PDFs to Searchable Text Documents in .NET

How to Convert Scanned PDFs to Searchable Text Documents in .NET

Scanned PDFs sind oft herausfordernd zu arbeiten, weil sie im Wesentlichen nur Bilder von Text sind. Die Umwandlung dieser Bilder in Suchbare, bearbeitbare Textdokumente öffnet eine Welt von Möglichkeiten für Dokumentverwaltung und Inhaltezugänglichkeit. Mit Aspose.OCR für .NET können Sie scanned PDFs in vollständig suchtbare Dokumente umwandeln und die ursprünglichen Bilder bewahren.

Warum Scanned PDFs in Suchbare Textdokumente umwandeln?

  • Zugänglichkeit:- Machen Sie gescannte Inhalte Suchbar, so dass es einfach ist, Informationen zu finden, ohne manuell durch das Dokument zu lesen.

  • Inhalte zu veröffentlichen:- Sobald es in Text umgewandelt wird, kann die Inhalte in anderen Formaten geändert, aktualisiert oder neu verwendet werden.

  • Effizienz:- Sparen Sie Zeit, indem Sie den Prozess der Konvertierung skannter PDFs in vollständig zugängliche Textdokumente automatisieren.

Voraussetzungen: Setting Up for Scanned PDF Text Extraction

Bevor Sie Text aus scannen PDFs extrahieren, folgen Sie diesen Schritten, um sicherzustellen, dass alles eingestellt ist:

  • Installieren Sie Aspose.OCR für .NET:- Aspose.OCR** zu Ihrem Projekt mit NuGet hinzufügen: dotnet add package Aspose.OCR

  • Erhalten Sie Ihre Lizenz:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.

  • Vorbereiten Sie Ihren Scanned PDF:- Stellen Sie sicher, dass die gescannten PDF-Dateien von guter Qualität sind, um eine bessere Erkennungsgenauigkeit zu gewährleisten.

Schritt für Schritt Guide: Umwandeln von Scanned PDFs in Suchbare Text

Schritt 1: Installieren Sie Ihre Lizenz

Beginnen Sie mit der Konfiguration Ihrer Aspose.OCR-Lizenz, um alle Funktionen zu löschen.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Schritt 2: Laden Sie die Scanned PDF in das OCR Input Object

Danach laden Sie das skannte PDF in das OcrInput Objekt herunter, um den OCR-Prozess zu starten.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Schritt 3: Konfigurieren Sie den OCR-Motor für die Anerkennung

Installieren Sie den OCR-Motor und konfigurieren Sie alle Erkennungsinstellungen, wie z. B. Sprache und Genauigkeit.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Schritt 4: Extrakt und Ausgabe des anerkannten Textes

Jetzt extrahieren Sie den Text aus dem scannen PDF mit dem OCR-Motor.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Schritt 5: Prüfen Sie die Suchbare PDF

Stellen Sie sicher, dass der extrahierte Text gesucht und bearbeitet werden kann, indem Sie den Ausgang in einem PDF-Viewer oder Editor testen.

Gemeinsame Probleme und Fixes

1. Niedrige OCR-Genauigkeit

  • Lösung: Stellen Sie sicher, dass das geschanete PDF von hoher Qualität (mindestens 300 DPI) ist, um die Erkennungsergebnisse zu verbessern.

2. Ununterstützte Fonts

  • Lösung: Stellen Sie sicher, dass die richtige Sprache in den OCR-Einstellungen eingestellt wird, um genaue Texterkennung zu gewährleisten, insbesondere für nicht-Latinereichen.

3. Slow Performance für große PDFs

  • Lösung: Für große PDF-Dateien verarbeiten Sie das Dokument in kleineren Teilen oder Seiten, um die Speicherverwendung zu reduzieren und den Prozess zu beschleunigen.
 Deutsch