Cara Mengkonversi PDF yang Dipindai ke Dokumen Teks yang dapat dicari di .NET

Cara Mengkonversi PDF yang Dipindai ke Dokumen Teks yang dapat dicari di .NET

PDF yang dipindai biasanya tidak dapat diedit, file berbasis gambar, yang membuatnya sulit untuk mengekstrak teks dari mereka. bagaimanapun, dengan Aspose.OCR untuk .NET, Anda dapat dengan cepat mengubah PDF yang dipindai ini menjadi dokumen teks yang dapat diedit, yang membuat pengambilan data dan pengelolaan dokumen jauh lebih mudah.

Mengapa Anda Harus Mengkonversi PDF yang Dipindai ke Teks yang dapat dicari?

  • Akses yang lebih baik:- PDF yang dipindai dapat dikonversi menjadi teks yang dapat dicari dan diedit, memungkinkan aksesibilitas yang lebih baik ke konten.

  • Organisasi Data:- Setelah terkonversi, teks dapat diorganisir, dimanipulasi, dan digunakan kembali dalam berbagai format seperti Word, Excel, atau teks rata.

  • Penyimpanan konten:- Aspose.OCR memastikan bahwa gambar asli dan tataletak disimpan saat teks dikeluarkan, memberikan Anda konten dan konteks.

Persyaratan: Bersiaplah untuk Scanned PDF Conversion

Sebelum Anda memulai proses pengekstrakan teks dari PDF yang dipindai, pastikan sebagai berikut:

  • Memasang Aspose.OCR untuk .NET:- Instal perpustakaan yang diperlukan menggunakan NuGet dengan perintah: dotnet add package Aspose.OCR

  • Pengaturan Lisensi:- Obtain and configure a metered license using the SetMeteredKey() method to unlock all features.

  • Bersiapkan PDF yang telah dipancarkan:- Pastikan PDF yang dipindai Anda dalam kualitas yang baik (300 DPI atau lebih tinggi) untuk hasil OCR terbaik.

Panduan Langkah demi Langkah untuk Konversi PDF yang Dipindai ke Teks

Langkah 1: Mengatur Lisensi Anda

Mulai dengan mengkonfigurasi lisensi Aspose.OCR Anda untuk memastikan akses penuh ke fitur.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Langkah 2: Muat turun PDF yang dipindai ke OCR Input Object

Muat file PDF yang dipindai ke mesin OCR untuk pengenalan teks.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Langkah 3: Mengkonfigurasi OCR Engine untuk Pengenalan

Setkan mesin OCR untuk mengoptimalkan ekstraksi teks dari PDF yang dipindai.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Langkah 4: Mengekstrak dan menyimpan teks yang diakui

Memproses PDF yang dipindai untuk mengekstrak teks dan mengekstrak ke file.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Langkah 5: Menguji teks yang diidentifikasi

Setelah ekstraksi, periksa ketepatan pengenalan teks dengan memeriksa file output atau menampilkan pada konsol.

Masalah dan Fix

1. ketepatan OCR yang buruk

  • Solusi: Pastikan kualitas PDF yang dipindai tinggi (300 DPI atau lebih) untuk ketepatan pengenalan yang lebih baik.

2) Pengenalan bahasa yang tidak benar

  • Solution: Tentukan secara eksplisit tetapan bahasa dalam RecognitionSettings untuk hasil yang lebih baik, terutama untuk karakter non-Latin.

Performa lambat untuk file besar

  • Solusi: Memproses PDF besar dalam kepingan atau mengoptimalkan penggunaan memori untuk mempercepat proses OCR.
 Indonesia