Πώς να μετατρέψετε τα λογισμικά PDF σε αναζητούμενα έγγραφα κειμένου .NET

Τα Scaned PDFs είναι συχνά δύσκολο να δουλέψουν μαζί τους, επειδή είναι ουσιαστικά απλά εικόνες κειμένου. Η μετατροπή αυτών των εικόνων σε αναζησιμότα, επεξεργαστικά έγγραφα κειμένου ανοίγει έναν κόσμο δυνατοτήτων για τη διαχείριση εγγράφων και την προσβασιμότητα περιεχομένου. Με Aspose.OCR για .NET, μπορείτε να μετατρέψετε τα Scaned PDFs σε πλήρως αναζησιμότα έγγραφα ενώ διατηρείτε τις αρχικές εικόνες.

Γιατί να μετατρέψετε τα Scaned PDFs σε Searchable Text Documents;

Διαθεσιμότητα:- Κάντε το σαρωμένο περιεχόμενο αναζησιμό, καθιστώντας εύκολο να βρείτε πληροφορίες χωρίς να διαβάσετε με το χέρι μέσω του εγγράφου.
Διαβάστε το περιεχόμενο:- Μόλις μετατραπεί σε κείμενο, το περιεχόμενο μπορεί να επεξεργαστεί, να ενημερωθεί ή να επαναχρησιμοποιηθεί σε άλλες μορφές.
Αποτελεσματικότητα:- Εξοικονομήστε χρόνο αυτοματοποιώντας τη διαδικασία μετατροπής scanned PDFs σε πλήρως προσιτά έγγραφα κειμένου.

Προϋποθέσεις: Ρυθμίσεις για το Scanned PDF Text Extraction

Πριν από την εξόρυξη κειμένου από τα scanned PDFs, ακολουθήστε αυτά τα βήματα για να βεβαιωθείτε ότι όλα είναι εγκατεστημένα:

Εγκατάσταση Aspose.OCR για .NET:- Προσθήκη Aspose.OCR στο έργο σας χρησιμοποιώντας το NuGet: dotnet add package Aspose.OCR
Αποκτήστε την άδεια σας:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.
Ετοιμάστε το Scanned PDF σας:- Βεβαιωθείτε ότι τα scanned PDFs είναι καλής ποιότητας για καλύτερη ακρίβεια αναγνώρισης.

Βήμα προς βήμα Οδηγός: Μετατρέποντας σκανδισμένα PDF σε αναζησιμό κείμενο

Βήμα 1: Εισάγετε την άδεια σας

Ξεκινήστε με τη διαμόρφωση της άδειας Aspose.OCR για να αποκλείσετε όλα τα χαρακτηριστικά.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Βήμα 2: Κατεβάστε το Scanned PDF στο αντικείμενο εισόδου OCR

Στη συνέχεια, φορτώστε το σαρωμένο PDF στο OcrInput αντικείμενο για να ξεκινήσετε τη διαδικασία OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Βήμα 3: Ρυθμίστε τον κινητήρα OCR για αναγνώριση

Ρυθμίστε τον κινητήρα OCR και ρυθμίστε όλες τις ρυθμίσεις αναγνώρισης, όπως η γλώσσα και η ακρίβεια.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Βήμα 4: Εξαγωγή και εξαγωγή του αναγνωρισμένου κειμένου

Τώρα, αφαιρέστε το κείμενο από το σαρωμένο PDF χρησιμοποιώντας τον κινητήρα OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Βήμα 5: Δοκιμάστε το αναζητούμενο PDF

Βεβαιωθείτε ότι το κείμενο που εξάγεται είναι αναζησιμό και επεξεργαστό δοκιμάζοντας την έκδοση σε ένα πρόγραμμα περιήγησης PDF ή επεξεργαστή.

Κοινά ζητήματα και διορθώσεις

Λιγότερη ακρίβεια OCR

Λύση: Βεβαιωθείτε ότι το σαρωμένο PDF είναι υψηλής ποιότητας (τουλάχιστον 300 DPI) για τη βελτίωση των αποτελεσμάτων αναγνώρισης.

2.Οι μη υποστηριζόμενες γραμμές

Λύση: Βεβαιωθείτε ότι η σωστή γλώσσα ρυθμίζεται στις ρυθμίσεις OCR για ακριβή αναγνώριση κειμένου, ειδικά για μη λατινικούς χαρακτήρες.

Λιγότερη απόδοση για μεγάλα PDF

Λύση: Για μεγάλα PDF, επεξεργαστείτε το έγγραφο σε μικρότερα κομμάτια ή σελίδες για να μειωθεί η χρήση μνήμης και να επιταχυνθεί η διαδικασία.