Як перетворити скановані PDF-файли в пошукові текстові документи в .NET
Перетворення цих зображень в пошукові, редагувальні текстові документи відкриває світ можливостей для управління документами та доступу до контенту. Aspose.OCR для .NET, ви можете перетворити скановані PDF в повністю пошукові документи, зберігаючи оригінальні зображення.
Чому перетворювати скановані PDF-файли в пошукові текстові документи?
Доступність:- Зробіть сканований контент пошуковим, що дозволяє легко знайти інформацію без ручного читання через документ.
Редагування контенту:- Після перетворення в текст, вміст може бути редагується, оновлюється або повторно використовується в інших форматах.
Ефективність:- Зберегти час шляхом автоматизації процесу конвертації сканованих PDF-файлів в повністю доступні текстові документи.
Вимоги: Налаштування для сканованого PDF-текстового екстракції
Перед тим, як витягнути текст з сканованих ПДФ, слідкуйте за цими кроками, щоб переконатися, що все встановлено:
Завантажити Aspose.OCR для .NET:- Додайте Aspose.OCR до вашого проекту за допомогою NuGet:
dotnet add package Aspose.OCR
Отримайте свою ліцензію:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Підготуйте свій сканований PDF:- Переконайтеся, що скановані PDF-диски мають хорошу якість для кращої точності розпізнавання.
Крок за кроком Руководство: Конвертувати скановані PDF-файли в пошуковий текст
Крок 1: Налаштуйте ліцензію
Почніть, налаштуючи ліцензію Aspose.OCR, щоб розблокувати всі функції.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Крок 2: Завантажити сканований PDF в об’єкт входу OCR
Потім завантажуйте сканований PDF в об’єкт OcrInput, щоб почати процес OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Крок 3: Налаштування двигуна OCR для розпізнавання
Налаштуйте двигун OCR і налаштуйте будь-які налаштування розпізнавання, такі як мова та точність.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Крок 4: Витяг і витяг визнаного тексту
Тепер витягніть текст з сканованого PDF за допомогою двигуна OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Крок 5: Перевірте пошуковий PDF
Переконайтеся, що витягнутий текст можна шукати і редагувати, перевіряючи вихід у PDF-видавнику або редакторі.
Загальні питання та рішення
Низька точність OCR
- Рішення: Переконайтеся, що сканований PDF має високу якість (принаймні 300 ДПІ), щоб поліпшити результати розпізнавання.
2 Непідтримлені шрифти
- Рішення: Переконайтеся, що правильний мову встановлюється в налаштуваннях ОКР для точного розпізнавання тексту, особливо для нелатинських символів.
Поступова продуктивність для великих PDF
- Рішення: Для великих ПДФ, обробка документа в менших шматочках або сторінках для зменшення використання пам’яті і прискорення процесу.