Jak extrahovat text z skenovaných PDF v .NET pomocí Aspose.OCR
Scanned PDFs jsou často náročné pracovat s tím, protože jsou v podstatě jen obrázky textu. Konverzace těchto obrázků do vyhledatelných, editovatelných textových dokumentů otevírá svět možností pro správu dokumentů a přístupnost obsahu. Aspose.OCR pro .NET, můžete konverzovat scanned PDFs do plně vyhledatelných dokumentů při zachování původních obrázk.
Proč OCR (Optical Character Recognition) je důležité pro skenované PDF
Data extrakce:- OCR umožňuje konverzi skenovaného textu do strojově čitelných dat, které lze upravit a indexovat.
Vyhledávací kapacita:- Konvertováním skenovaných PDF do vyhledatelných dokumentů můžete rychle najít relevantní informace bez ručního vyhledávání stránek.
Zlepšená produktivita:- Ušetřete čas automatizací konverze skenovaných dokumentů do editovatelných formátů, jako je Word nebo Excel.
Předpoklady: Nastavení skenované PDF textové extrakce
Než začnete extrahovat text z skenovaných PDF, ujistěte se, že následující kroky jsou kompletn:
Install Aspose.OCR pro .NET:- Přidejte Aspose.OCR do vašeho projektu pomocí NuGet:
dotnet add package Aspose.OCR
Získejte měřené licence:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Připravte své skenované PDF soubory:- Ujistěte se, že vaše skenované PDF jsou vysoce kvalitní. Lepší kvalita výsledků v přesnější OCR.
Krok za krokem průvodce: Odstraňování textu z skenovaných PDF
Krok 1: Instalace požadované knihovny
Začněte instalováním Aspose.OCR pro .NET do vašeho projektu.
dotnet add package Aspose.OCR
Krok 2: Nastavení licenčních klíčů
Před zahájením řízení nastavte svou licenci pro Aspose.OCR a odemkněte všechny funkce.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Krok 3: Stáhněte skenovaný PDF do OCR vstupního objektu
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Krok 4: Proces skenovaného PDF pomocí motoru OCR
S PDF nahrazeným, přejděte do Aspose OCR motoru pro rozpoznán.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Krok 5: Vyjměte rozpoznaný text nebo ho uložte
Jakmile OCR motor zpracovává PDF, můžete buď vytáhnout uznávaný text přímo nebo ho uložit do souboru.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Krok 6: Testování a optimalizace výsledků OCR
Po extrahování textu zkontrolujte výstup pro přesnost.Pokud je to nutné, můžete otisknout nastavení OCR pro zlepšení výsledků pro různé rozložení dokumentu.
Společné problémy a fixy
1. špatná OCR přesnost
- Rozhodnutí: Ujistěte se, že skenovaná kvalita PDF je vysok.
• Nepodporované fonty
- Rozhodnutí: Poskytněte správné nastavení jazyka v možnostech OCR, abyste zvýšili rozpoznávání ne-latinských znak.
3. pomalá výkonnost
- Rozhodnutí: Rozdělte PDF do menších kusů nebo stránek pro rychlejší zpracování, zejména pro velké dokumenty.