Jak przekonwertować skanowane pliki PDF do wyszukiwanych dokumentów tekstowych w .NET
Skanowane pliki PDF są często trudne do pracy, ponieważ są one w zasadzie tylko obrazami tekstu. Konwertowanie tych obrazów do wyszukiwalnych, edytowalnych dokumentów tekstowych otwiera świat możliwości zarządzania dokumentami i dostępności treści. Aspose.OCR dla .NET, można konwertować skanowane pliki PDF do w pełni wyszukiwalnych dokumentów podczas zachowania oryginalnych obrazów.
Dlaczego konwertować skanowane pliki PDF do wyszukiwanych dokumentów tekstowych?
Dostępność:- Uczynić skanowany treść wyszukiwalną, ułatwiając znalezienie informacji bez czytania przez dokument ręcznie.
edycja treści:- Po przekształceniu w tekst, treść może być edytowana, zaktualizowana lub ponownie wykorzystywana w innych formach.
efektywność:- Oszczędzaj czas, automatyzując proces konwersji skanowanych plików PDF do w pełni dostępnych dokumentów tekstowych.
Wymagania: Ustawienia do skanowanej ekstrakcji tekstu PDF
Przed wyciągnięciem tekstu z skanowanych plików PDF postępuj zgodnie z następującymi krokami, aby upewnić się, że wszystko jest ustawione:
Instalacja Aspose.OCR dla .NET:- Dodaj Aspose.OCR do projektu za pomocą NuGet:
dotnet add package Aspose.OCR
Zdobądź swoją licencję:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Przygotuj swój skanowany PDF:- Upewnij się, że skanowane pliki PDF są wysokiej jakości dla lepszej dokładności rozpoznawania.
Krok po kroku Przewodnik: Konwertowanie skanowanych plików PDF do wyszukiwanego tekstu
Krok 1: Ustaw licencję
Zacznij od konfiguracji licencji Aspose.OCR, aby odblokować wszystkie funkcje.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Krok 2: Pobierz skanowany PDF do obiektu wejściowego OCR
Następnie pobierz skanowany PDF do obiektu OcrInput, aby rozpocząć proces OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Krok 3: Konfiguracja silnika OCR do rozpoznawania
Ustaw silnik OCR i skonfigurować wszelkie ustawienia rozpoznawania, takie jak język i dokładność.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Krok 4: Wyciągnij i wyciągnij uznany tekst
Teraz wyciągnij tekst z skanowanego PDF za pomocą silnika OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Krok 5: Testowanie wyszukiwanego PDF
Upewnij się, że wyciągnięty tekst jest wyszukiwalny i edytowalny poprzez testowanie wyjścia w przeglądarce PDF lub edytorze.
Wspólne problemy i korekty
Niska dokładność OCR
- Rozwiązanie: Upewnij się, że skanowany PDF jest wysokiej jakości (co najmniej 300 DPI) w celu poprawy wyników rozpoznawania.
2 Niepotrzebne fonty
- Rozwiązanie: Upewnij się, że poprawny język jest ustawiony w ustawieniach OCR w celu dokładnego rozpoznawania tekstu, zwłaszcza w przypadku nie-latynskich znaków.
Powolna wydajność dla dużych plików PDF
- Rozwiązanie: W przypadku dużych plików PDF przetwarzaj dokument w mniejszych fragmentach lub stronach, aby zmniejszyć wykorzystanie pamięci i przyspieszyć proces.