Cara Mengekstrak Teks dari PDF yang Dipindai di .NET Dengan Aspose.OCR

Cara Mengekstrak Teks dari PDF yang Dipindai di .NET Dengan Aspose.OCR

PDF yang dipindai sering menjadi tantangan untuk bekerja dengan karena mereka pada dasarnya hanya gambar teks.Mengubah gambar ini menjadi dokumen teks yang dapat dicari dan dapat diedit membuka dunia kemungkinan untuk pengelolaan dokumen dan aksesibilitas konten.Dengan Aspose.OCR untuk .NET, Anda dapat mengubah PDF yang dipindai menjadi dokumen yang dapat dicari sepenuhnya sambil mempertahankan gambar asli.

Mengapa OCR (Optical Character Recognition) Penting untuk PDF yang Dipindai

  • Pengumpulan Data:- OCR memungkinkan Anda untuk mengubah teks yang dipindai menjadi data yang dapat dibaca mesin, yang dapat diedit dan diindeks.

  • Cara Mencari:- Dengan menukar PDF yang dipindai menjadi dokumen yang dapat dicari, Anda dapat dengan cepat menemukan informasi yang relevan tanpa secara manual mencari melalui halaman.

  • Meningkatkan produktivitas:- Menjimatkan waktu dengan mengautomatikkan konversi dokumen yang dipindai ke format yang dapat diedit seperti Word atau Excel.

Persyaratan: Menetapkan untuk Scanned PDF Text Extraction

Sebelum Anda mulai mengekstrak teks dari PDF Anda, pastikan langkah-langkah berikut selesai:

  • Memasang Aspose.OCR untuk .NET:- Tambah Aspose.OCR ke proyek Anda menggunakan NuGet: dotnet add package Aspose.OCR

  • Dapatkan Lisensi Metered:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().

  • Bersiapkan PDF yang telah dipancarkan:- Pastikan PDF yang Anda scan berkualitas tinggi. hasil kualitas yang lebih baik dalam OCR yang lebih akurat.

Panduan Langkah demi Langkah: Mengekstrak Teks dari PDF yang Dipindai

Langkah 1: Menginstal perpustakaan yang diperlukan

Mulai dengan memasang Aspose.OCR untuk .NET ke dalam proyek Anda. Anda dapat melakukannya langsung dari NuGet.

dotnet add package Aspose.OCR

Langkah 2: Menetapkan kunci lisensi Anda

Sebelum melanjutkan, tetapkan lisensi Anda untuk Aspose.OCR untuk membuka semua fitur.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Langkah 3: Muat turun PDF yang dipindai ke OCR Input Object

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Langkah 4: Memproses PDF yang Dipindai menggunakan OCR Engine

Dengan PDF yang dimuat, kirim ke mesin Aspose OCR untuk pengenalan.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Langkah 5: Keluarkan teks yang diidentifikasi atau simpan

Setelah mesin OCR memproses PDF, Anda dapat mengeluarkan teks yang diakui secara langsung atau menyimpannya ke dalam file.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Langkah 6: Uji dan mengoptimalkan hasil OCR

Setelah mengekstrak teks, coba output untuk ketepatan.Jika perlu, Anda dapat menggandakan pengaturan OCR untuk meningkatkan hasil untuk tata letak dokumen yang berbeda.

Masalah dan Fix

1. ketepatan OCR yang buruk

  • Solusi: Pastikan kualitas PDF yang dipindai tinggi.Menggunakan pemindai resolusi tinggi untuk meningkatkan ketepatan pengenalan.

2. font yang tidak didukung

  • Solution: Menyediakan pengaturan bahasa yang benar dalam opsi OCR untuk meningkatkan pengenalan karakter non-Latin.

3. prestasi lambat

  • Solusi: Memecahkan PDF menjadi kepingan atau halaman yang lebih kecil untuk pemrosesan yang lebih cepat, terutama untuk dokumen besar.
 Indonesia