Cómo convertir PDFs escaneados en documentos de texto buscables en .NET
Convertir estas imágenes en documentos de texto buscables y editables abre un mundo de posibilidades para la gestión de documentos y la accesibilidad de contenidos. Aspose.OCR para .NET, puede convertir los PDF escaneados en documentos totalmente buscables mientras conserva las imágenes originales.
Por qué convertir PDFs escaneados en documentos de texto buscables?
Accesibilidad:- Hacer que el contenido escaneado sea buscable, haciendo que sea fácil encontrar información sin leer manualmente a través del documento.
Redacción de contenido:- Una vez convertido en texto, el contenido puede ser editado, actualizado o reutilizado en otros formatos.
Eficiencia:- Ahorra tiempo automatizando el proceso de conversión de PDFs escaneados en documentos de texto totalmente accesibles.
Prerequisitos: Configuración para la extracción de texto de PDF escaneo
Antes de extraer texto de los PDFs escaneados, siga estos pasos para asegurarse de que todo está configurado:
Instalar Aspose.OCR para .NET:- Añadir Aspose.OCR a su proyecto utilizando NuGet:
dotnet add package Aspose.OCR
Obtenga tu licencia:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Repara tu PDF escaneo:- Asegúrese de que los PDFs escaneados sean de buena calidad para una mejor exactitud de reconocimiento.
Guía paso a paso: Convertir PDFs escaneados en texto buscable
Paso 1: Crea tu licencia
Comience configurando su licencia Aspose.OCR para desbloquear todas las características.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Paso 2: Cargar el PDF escaneado en el objeto de entrada OCR
A continuación, cargue el PDF escaneado en el objeto OcrInput para comenzar el proceso OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Paso 3: Configure el motor OCR para el reconocimiento
Configure el motor OCR y configure cualquier configuración de reconocimiento, como el lenguaje y la precisión.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Paso 4: Extraer y extraer el texto reconocido
Ahora, extrae el texto del PDF escaneado utilizando el motor OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Paso 5: Testar el PDF buscable
Asegúrese de que el texto extraído sea buscable y editable mediante la prueba de la salida en un visualizador de PDF o editor.
Problemas y soluciones comunes
Bajo nivel de precisión OCR
- Solución: Asegúrese de que el PDF escaneado sea de alta calidad (al menos 300 DPI) para mejorar los resultados de reconocimiento.
2 Fontes sin soporte
- Solución: Asegúrese de que el idioma correcto está configurado en las configuraciones de la OCR para el reconocimiento de texto exacto, especialmente para los caracteres no latinos.
Desempeño lento para grandes PDFs
- Solución: Para PDFs grandes, procesar el documento en piezas o páginas más pequeñas para reducir el uso de la memoria y acelerar el proceso.