Hur man konverterar skannade PDF-filer till sökbara textdokument i .NET

Skannade PDF-filer är ofta utmanande att arbeta med eftersom de i huvudsak är bara bilder av text. Omvandlingen av dessa bilder till sökbara, redigerbara textdokument öppnar upp en värld av möjligheter för dokumenthantering och innehållstillgänglighet. Med Aspose.OCR för .NET kan du omvandla skannade PDF-filer till fullt sökbara dokument samtidigt som du behåller de ursprungliga bilderna.

Varför konvertera skannade PDF-filer till sökbara textdokument?

Tillgänglighet:- Gör scannat innehåll sökbart, vilket gör det enkelt att hitta information utan att manuellt läsa igenom dokumentet.
Innehåll redigerad:- När innehållet omvandlas till text kan det redigeras, uppdateras eller återanvändas i andra format.
Effektivitet:- Spara tid genom att automatisera processen att konvertera skannade PDF-filer till fullt tillgängliga textdokument.

Förutsättningar: Inställningar för skannad PDF Text Extraction

Innan du extraherar text från skannade PDF-filer, följ dessa steg för att se till att allt är inställt:

Installera Aspose.OCR för .NET:- Lägg till Aspose.OCR till ditt projekt med NuGet: dotnet add package Aspose.OCR
Få din licens:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.
Förbered din skannade PDF:- Se till att de skannade PDF-filen är av god kvalitet för bättre erkännande noggrannhet.

Steg för steg Guide: Konvertera skannade PDF-filer till sökbar text

Steg 1: Ställ in din licens

Börja med att konfigurera din Aspose.OCR-licens för att låsa upp alla funktioner.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Steg 2: Ladda upp den skannade PDF-filen till OCR Input Object

Ladda sedan den skannade PDF-filen in i OcrInput-objektet för att starta OCR-processen.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Steg 3: Konfigurera OCR-motorn för erkännande

Ställ in OCR-motorn och konfigurera alla erkännandeinställningar, såsom språk och noggrannhet.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Steg 4: Uttag och uttag av den erkända texten

Nu extrahera texten från den skannade PDF-filen med OCR-motorn.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Steg 5: Testa den sökbara PDF

Se till att den extraherade texten är sökbar och redigerbar genom att testa utgången i en PDF-sökare eller redigerare.

Vanliga problem och fixar

Låg OCR noggrannhet

Lösning: Se till att den skannade PDF-filen är av hög kvalitet (minst 300 DPI) för att förbättra upptäcktsresultaten.

2.Ounderstödda Fonts

Lösning: Se till att det rätta språket ställs in i OCR-inställningarna för korrekt textuppfattning, särskilt för icke-latinska tecken.

Långt prestanda för stora PDF-filer

Lösning: För stora PDF-filer bearbetar du dokumentet i mindre bitar eller sidor för att minska minnesanvändningen och påskynda processen.