Cara Mengkonversi PDF yang Dipindai ke Dokumen Teks yang dapat dicari di .NET
PDF yang dipindai biasanya tidak dapat diedit, file berbasis gambar, yang membuatnya sulit untuk mengekstrak teks dari mereka. bagaimanapun, dengan Aspose.OCR untuk .NET, Anda dapat dengan cepat mengubah PDF yang dipindai ini menjadi dokumen teks yang dapat diedit, yang membuat pengambilan data dan pengelolaan dokumen jauh lebih mudah.
Mengapa Anda Harus Mengkonversi PDF yang Dipindai ke Teks yang dapat dicari?
Akses yang lebih baik:- PDF yang dipindai dapat dikonversi menjadi teks yang dapat dicari dan diedit, memungkinkan aksesibilitas yang lebih baik ke konten.
Organisasi Data:- Setelah terkonversi, teks dapat diorganisir, dimanipulasi, dan digunakan kembali dalam berbagai format seperti Word, Excel, atau teks rata.
Penyimpanan konten:- Aspose.OCR memastikan bahwa gambar asli dan tataletak disimpan saat teks dikeluarkan, memberikan Anda konten dan konteks.
Persyaratan: Bersiaplah untuk Scanned PDF Conversion
Sebelum Anda memulai proses pengekstrakan teks dari PDF yang dipindai, pastikan sebagai berikut:
Memasang Aspose.OCR untuk .NET:- Instal perpustakaan yang diperlukan menggunakan NuGet dengan perintah:
dotnet add package Aspose.OCR
Pengaturan Lisensi:- Obtain and configure a metered license using the
SetMeteredKey()
method to unlock all features.Bersiapkan PDF yang telah dipancarkan:- Pastikan PDF yang dipindai Anda dalam kualitas yang baik (300 DPI atau lebih tinggi) untuk hasil OCR terbaik.
Panduan Langkah demi Langkah untuk Konversi PDF yang Dipindai ke Teks
Langkah 1: Mengatur Lisensi Anda
Mulai dengan mengkonfigurasi lisensi Aspose.OCR Anda untuk memastikan akses penuh ke fitur.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Langkah 2: Muat turun PDF yang dipindai ke OCR Input Object
Muat file PDF yang dipindai ke mesin OCR untuk pengenalan teks.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Langkah 3: Mengkonfigurasi OCR Engine untuk Pengenalan
Setkan mesin OCR untuk mengoptimalkan ekstraksi teks dari PDF yang dipindai.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Langkah 4: Mengekstrak dan menyimpan teks yang diakui
Memproses PDF yang dipindai untuk mengekstrak teks dan mengekstrak ke file.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Langkah 5: Menguji teks yang diidentifikasi
Setelah ekstraksi, periksa ketepatan pengenalan teks dengan memeriksa file output atau menampilkan pada konsol.
Masalah dan Fix
1. ketepatan OCR yang buruk
- Solusi: Pastikan kualitas PDF yang dipindai tinggi (300 DPI atau lebih) untuk ketepatan pengenalan yang lebih baik.
2) Pengenalan bahasa yang tidak benar
- Solution: Tentukan secara eksplisit tetapan bahasa dalam RecognitionSettings untuk hasil yang lebih baik, terutama untuk karakter non-Latin.
Performa lambat untuk file besar
- Solusi: Memproses PDF besar dalam kepingan atau mengoptimalkan penggunaan memori untuk mempercepat proses OCR.