Jak extrahovat text z skenovaných PDF v .NET pomocí Aspose.OCR

Jak extrahovat text z skenovaných PDF v .NET pomocí Aspose.OCR

Scanned PDFs jsou často náročné pracovat s tím, protože jsou v podstatě jen obrázky textu. Konverzace těchto obrázků do vyhledatelných, editovatelných textových dokumentů otevírá svět možností pro správu dokumentů a přístupnost obsahu. Aspose.OCR pro .NET, můžete konverzovat scanned PDFs do plně vyhledatelných dokumentů při zachování původních obrázk.

Proč OCR (Optical Character Recognition) je důležité pro skenované PDF

  • Data extrakce:- OCR umožňuje konverzi skenovaného textu do strojově čitelných dat, které lze upravit a indexovat.

  • Vyhledávací kapacita:- Konvertováním skenovaných PDF do vyhledatelných dokumentů můžete rychle najít relevantní informace bez ručního vyhledávání stránek.

  • Zlepšená produktivita:- Ušetřete čas automatizací konverze skenovaných dokumentů do editovatelných formátů, jako je Word nebo Excel.

Předpoklady: Nastavení skenované PDF textové extrakce

Než začnete extrahovat text z skenovaných PDF, ujistěte se, že následující kroky jsou kompletn:

  • Install Aspose.OCR pro .NET:- Přidejte Aspose.OCR do vašeho projektu pomocí NuGet: dotnet add package Aspose.OCR

  • Získejte měřené licence:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().

  • Připravte své skenované PDF soubory:- Ujistěte se, že vaše skenované PDF jsou vysoce kvalitní. Lepší kvalita výsledků v přesnější OCR.

Krok za krokem průvodce: Odstraňování textu z skenovaných PDF

Krok 1: Instalace požadované knihovny

Začněte instalováním Aspose.OCR pro .NET do vašeho projektu.

dotnet add package Aspose.OCR

Krok 2: Nastavení licenčních klíčů

Před zahájením řízení nastavte svou licenci pro Aspose.OCR a odemkněte všechny funkce.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Krok 3: Stáhněte skenovaný PDF do OCR vstupního objektu

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Krok 4: Proces skenovaného PDF pomocí motoru OCR

S PDF nahrazeným, přejděte do Aspose OCR motoru pro rozpoznán.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Krok 5: Vyjměte rozpoznaný text nebo ho uložte

Jakmile OCR motor zpracovává PDF, můžete buď vytáhnout uznávaný text přímo nebo ho uložit do souboru.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Krok 6: Testování a optimalizace výsledků OCR

Po extrahování textu zkontrolujte výstup pro přesnost.Pokud je to nutné, můžete otisknout nastavení OCR pro zlepšení výsledků pro různé rozložení dokumentu.

Společné problémy a fixy

1. špatná OCR přesnost

  • Rozhodnutí: Ujistěte se, že skenovaná kvalita PDF je vysok.

• Nepodporované fonty

  • Rozhodnutí: Poskytněte správné nastavení jazyka v možnostech OCR, abyste zvýšili rozpoznávání ne-latinských znak.

3. pomalá výkonnost

  • Rozhodnutí: Rozdělte PDF do menších kusů nebo stránek pro rychlejší zpracování, zejména pro velké dokumenty.
 Čeština