Як перетворити скановані PDF-файли в пошукові текстові документи в .NET

Як перетворити скановані PDF-файли в пошукові текстові документи в .NET

Перетворення цих зображень в пошукові, редагувальні текстові документи відкриває світ можливостей для управління документами та доступу до контенту. Aspose.OCR для .NET, ви можете перетворити скановані PDF в повністю пошукові документи, зберігаючи оригінальні зображення.

Чому перетворювати скановані PDF-файли в пошукові текстові документи?

  • Доступність:- Зробіть сканований контент пошуковим, що дозволяє легко знайти інформацію без ручного читання через документ.

  • Редагування контенту:- Після перетворення в текст, вміст може бути редагується, оновлюється або повторно використовується в інших форматах.

  • Ефективність:- Зберегти час шляхом автоматизації процесу конвертації сканованих PDF-файлів в повністю доступні текстові документи.

Вимоги: Налаштування для сканованого PDF-текстового екстракції

Перед тим, як витягнути текст з сканованих ПДФ, слідкуйте за цими кроками, щоб переконатися, що все встановлено:

  • Завантажити Aspose.OCR для .NET:- Додайте Aspose.OCR до вашого проекту за допомогою NuGet: dotnet add package Aspose.OCR

  • Отримайте свою ліцензію:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.

  • Підготуйте свій сканований PDF:- Переконайтеся, що скановані PDF-диски мають хорошу якість для кращої точності розпізнавання.

Крок за кроком Руководство: Конвертувати скановані PDF-файли в пошуковий текст

Крок 1: Налаштуйте ліцензію

Почніть, налаштуючи ліцензію Aspose.OCR, щоб розблокувати всі функції.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Крок 2: Завантажити сканований PDF в об’єкт входу OCR

Потім завантажуйте сканований PDF в об’єкт OcrInput, щоб почати процес OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Крок 3: Налаштування двигуна OCR для розпізнавання

Налаштуйте двигун OCR і налаштуйте будь-які налаштування розпізнавання, такі як мова та точність.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Крок 4: Витяг і витяг визнаного тексту

Тепер витягніть текст з сканованого PDF за допомогою двигуна OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Крок 5: Перевірте пошуковий PDF

Переконайтеся, що витягнутий текст можна шукати і редагувати, перевіряючи вихід у PDF-видавнику або редакторі.

Загальні питання та рішення

Низька точність OCR

  • Рішення: Переконайтеся, що сканований PDF має високу якість (принаймні 300 ДПІ), щоб поліпшити результати розпізнавання.

2 Непідтримлені шрифти

  • Рішення: Переконайтеся, що правильний мову встановлюється в налаштуваннях ОКР для точного розпізнавання тексту, особливо для нелатинських символів.

Поступова продуктивність для великих PDF

  • Рішення: Для великих ПДФ, обробка документа в менших шматочках або сторінках для зменшення використання пам’яті і прискорення процесу.
 Українська