Jak przekonwertować skanowane pliki PDF do wyszukiwanych dokumentów tekstowych w .NET

Skanowane pliki PDF są często trudne do pracy, ponieważ są one w zasadzie tylko obrazami tekstu. Konwertowanie tych obrazów do wyszukiwalnych, edytowalnych dokumentów tekstowych otwiera świat możliwości zarządzania dokumentami i dostępności treści. Aspose.OCR dla .NET, można konwertować skanowane pliki PDF do w pełni wyszukiwalnych dokumentów podczas zachowania oryginalnych obrazów.

Dlaczego konwertować skanowane pliki PDF do wyszukiwanych dokumentów tekstowych?

Dostępność:- Uczynić skanowany treść wyszukiwalną, ułatwiając znalezienie informacji bez czytania przez dokument ręcznie.
edycja treści:- Po przekształceniu w tekst, treść może być edytowana, zaktualizowana lub ponownie wykorzystywana w innych formach.
efektywność:- Oszczędzaj czas, automatyzując proces konwersji skanowanych plików PDF do w pełni dostępnych dokumentów tekstowych.

Wymagania: Ustawienia do skanowanej ekstrakcji tekstu PDF

Przed wyciągnięciem tekstu z skanowanych plików PDF postępuj zgodnie z następującymi krokami, aby upewnić się, że wszystko jest ustawione:

Instalacja Aspose.OCR dla .NET:- Dodaj Aspose.OCR do projektu za pomocą NuGet: dotnet add package Aspose.OCR
Zdobądź swoją licencję:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.
Przygotuj swój skanowany PDF:- Upewnij się, że skanowane pliki PDF są wysokiej jakości dla lepszej dokładności rozpoznawania.

Krok po kroku Przewodnik: Konwertowanie skanowanych plików PDF do wyszukiwanego tekstu

Krok 1: Ustaw licencję

Zacznij od konfiguracji licencji Aspose.OCR, aby odblokować wszystkie funkcje.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Krok 2: Pobierz skanowany PDF do obiektu wejściowego OCR

Następnie pobierz skanowany PDF do obiektu OcrInput, aby rozpocząć proces OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Krok 3: Konfiguracja silnika OCR do rozpoznawania

Ustaw silnik OCR i skonfigurować wszelkie ustawienia rozpoznawania, takie jak język i dokładność.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Krok 4: Wyciągnij i wyciągnij uznany tekst

Teraz wyciągnij tekst z skanowanego PDF za pomocą silnika OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Krok 5: Testowanie wyszukiwanego PDF

Upewnij się, że wyciągnięty tekst jest wyszukiwalny i edytowalny poprzez testowanie wyjścia w przeglądarce PDF lub edytorze.

Wspólne problemy i korekty

Niska dokładność OCR

Rozwiązanie: Upewnij się, że skanowany PDF jest wysokiej jakości (co najmniej 300 DPI) w celu poprawy wyników rozpoznawania.

2 Niepotrzebne fonty

Rozwiązanie: Upewnij się, że poprawny język jest ustawiony w ustawieniach OCR w celu dokładnego rozpoznawania tekstu, zwłaszcza w przypadku nie-latynskich znaków.

Powolna wydajność dla dużych plików PDF

Rozwiązanie: W przypadku dużych plików PDF przetwarzaj dokument w mniejszych fragmentach lub stronach, aby zmniejszyć wykorzystanie pamięci i przyspieszyć proces.