Cara Mengkonversi PDF yang Dipindai ke Dokumen Teks yang dapat dicari di .NET

PDF yang dipindai sering menjadi tantangan untuk bekerja dengan karena mereka pada dasarnya hanya gambar teks.Mengubah gambar ini menjadi dokumen teks yang dapat dicari dan dapat diedit membuka dunia kemungkinan untuk pengelolaan dokumen dan aksesibilitas konten.Dengan Aspose.OCR untuk .NET, Anda dapat mengubah PDF yang dipindai menjadi dokumen yang dapat dicari sepenuhnya sambil mempertahankan gambar asli.

Mengapa Mengkonversi PDF yang Dipindai ke Dokumen Teks yang dapat dicari?

Aksesibilitas:- Membuat konten yang dipindai dapat dicari, menjadikannya mudah untuk menemukan informasi tanpa membaca secara manual melalui dokumen.
Mengedit konten:- Setelah terkonversi menjadi teks, konten dapat diedit, diperbarui, atau digunakan kembali dalam format lain.
Efisiensi:- Menjimatkan waktu dengan mengautomatikkan proses penukaran PDF yang dipindai menjadi dokumen teks yang dapat diakses sepenuhnya.

Persyaratan: Menetapkan untuk Scanned PDF Text Extraction

Sebelum mengekstrak teks dari PDF yang dipindai, ikuti langkah-langkah ini untuk memastikan semuanya diatur:

Memasang Aspose.OCR untuk .NET:- Tambah Aspose.OCR ke proyek Anda menggunakan NuGet: dotnet add package Aspose.OCR
Dapatkan lisensi Anda:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.
Memperbaiki PDF yang dipancarkan:- Pastikan PDF yang dipindai berkualitas baik untuk keaslian pengenalan yang lebih baik.

Panduan Langkah-Langkah: Mengkonversi PDF yang Dipindai ke Teks yang dapat dicari

Langkah 1: Mengatur Lisensi Anda

Mulai dengan mengkonfigurasi lisensi Aspose.OCR Anda untuk membuka semua fitur.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Langkah 2: Muat turun PDF yang dipindai ke OCR Input Object

Selanjutnya, muat PDF yang dipindai ke objek OcrInput untuk memulai proses OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Langkah 3: Mengkonfigurasi OCR Engine untuk Pengenalan

Mengatur mesin OCR dan mengkonfigurasi pengaturan pengenalan apapun, seperti bahasa dan ketepatan.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Langkah 4: Mengekstrak dan mengekstrak teks yang diakui

Sekarang, mengekstrak teks dari PDF yang dipindai menggunakan mesin OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Langkah 5: Menguji PDF yang dapat dicari

Pastikan bahwa teks yang dikeluarkan dapat dicari dan dapat diedit dengan menguji output dalam penonton PDF atau editor.

Masalah dan Fix

• Ketepatan OCR yang rendah

Solusi: Pastikan PDF yang dipindai berkualitas tinggi (sekurang-kurangnya 300 DPI) untuk meningkatkan hasil pengenalan.

2. font yang tidak didukung

Solusi: Pastikan bahasa yang tepat ditetapkan dalam pengaturan OCR untuk pengenalan teks yang tepat, terutama untuk karakter non-Latin.

Performa lambat untuk PDF besar

Solusi: Untuk PDF besar, memproses dokumen dalam kepingan atau halaman yang lebih kecil untuk mengurangi penggunaan memori dan mempercepat proses.