Ekstrak Teks dari File PDF dan Gambar

Punya dokumen PDF(PDF document) yang ingin Anda ekstrak semua teksnya? Bagaimana dengan file gambar dari dokumen yang dipindai yang ingin Anda ubah menjadi teks yang dapat diedit? Ini adalah beberapa masalah paling umum yang pernah saya lihat di tempat kerja saat bekerja dengan file.

Dalam artikel ini, saya akan berbicara tentang beberapa cara berbeda yang dapat Anda coba untuk mengekstrak teks dari PDF atau dari gambar. Hasil ekstraksi Anda akan bervariasi tergantung pada jenis dan kualitas(type and quality) teks dalam PDF atau gambar(PDF or image) . Selain itu, hasil Anda akan bervariasi tergantung pada alat yang Anda gunakan, jadi yang terbaik adalah mencoba sebanyak mungkin opsi di bawah ini untuk mendapatkan hasil terbaik.

Ekstrak Teks dari Gambar atau PDF

Cara termudah dan tercepat untuk memulai adalah mencoba layanan pengekstrak (extractor service)teks PDF(PDF text) online . Ini biasanya gratis dan dapat memberikan apa yang Anda cari tanpa harus menginstal apa pun di komputer Anda. Berikut adalah dua yang telah saya gunakan dengan hasil yang sangat baik hingga sangat baik:

EkstrakPDF

ekstrakpdf

ExtractPDF adalah alat gratis untuk mengambil gambar, teks, dan font(text and fonts) dari file PDF(PDF file) . Satu-satunya batasan adalah ukuran maksimal(max size) untuk file PDF(PDF file) adalah 10 MB. Itu agak kecil; jadi jika Anda memiliki file yang lebih besar, coba beberapa metode lain di bawah ini. Pilih file Anda dan kemudian klik tombol Kirim file(Send file) . Hasilnya biasanya sangat cepat dan Anda akan melihat pratinjau teks saat Anda mengklik tab Teks(Text tab) .

unduh teks

Ini juga merupakan manfaat tambahan yang bagus karena mengekstrak gambar dari file PDF(PDF file) juga, jika Anda membutuhkannya! Secara keseluruhan, alat online berfungsi dengan baik, tetapi saya telah menemukan beberapa dokumen PDF(PDF docs) yang memberi saya hasil yang lucu. Teks diekstraksi dengan baik, tetapi untuk beberapa alasan itu akan memiliki jeda baris(line break) setelah setiap kata! Bukan masalah besar untuk file PDF(PDF file) pendek , tetapi tentu saja masalah untuk file dengan banyak teks. Jika itu terjadi pada Anda, coba alat berikutnya.

OCR online

OCR online(Online OCR) biasanya cenderung berfungsi untuk dokumen yang tidak terkonversi dengan benar dengan ExtractPDF , jadi sebaiknya coba kedua layanan untuk melihat mana yang memberi Anda hasil lebih baik. OCR online(Online OCR) juga memiliki beberapa fitur yang lebih bagus yang terbukti berguna bagi siapa saja yang memiliki file PDF(PDF file) besar yang hanya perlu mengonversi teks pada beberapa halaman daripada seluruh dokumen.

Hal pertama yang ingin Anda lakukan adalah melanjutkan dan membuat akun gratis. Ini agak mengganggu, tetapi jika Anda tidak membuat akun gratis, itu hanya akan mengonversi sebagian PDF Anda daripada seluruh dokumen. Selain itu, daripada hanya dapat mengunggah dokumen 5 MB(MB document) saja , Anda dapat mengunggah hingga 100 MB per file dengan akun.

ocr online

Pertama, pilih bahasa dan kemudian pilih jenis format output yang Anda inginkan untuk file yang dikonversi. Anda memiliki beberapa opsi dan Anda dapat memilih lebih dari satu jika Anda mau. Di bawah Dokumen multihalaman(Multipage document) , Anda dapat memilih Nomor halaman(Page numbers) lalu memilih hanya halaman yang ingin Anda konversi. Kemudian Anda pilih file dan klik (file and click) Convert !

dokumen ocr online

Setelah konversi, Anda akan dibawa ke bagian Dokumen(Documents) (jika Anda masuk) di mana Anda dapat melihat berapa banyak halaman gratis yang tersisa dan tautan untuk mengunduh file yang dikonversi. Sepertinya Anda hanya memiliki 25 halaman gratis sehari, jadi jika Anda membutuhkan lebih dari itu, Anda harus menunggu sebentar atau membeli lebih banyak halaman.

OCR online(Online OCR) melakukan pekerjaan yang sangat baik dalam mengonversi PDF saya karena mampu mempertahankan tata letak teks yang sebenarnya. Dalam pengujian saya, saya mengambil dokumen Word(Word doc) yang menggunakan peluru, ukuran font yang berbeda, dll dan mengonversinya menjadi PDF . Kemudian saya menggunakan OCR Online(Online OCR) untuk mengubahnya kembali ke format Word(Word format) dan itu sekitar 95% sama dengan aslinya. Itu cukup mengesankan bagi saya.

Plus, jika Anda ingin mengonversi gambar menjadi teks, maka OCR Online(Online OCR) dapat melakukannya semudah mengekstraksi teks dari file PDF .

OCR Online Gratis

Karena berbicara tentang gambar ke teks OCR , izinkan saya menyebutkan situs web bagus lainnya yang berfungsi sangat baik pada gambar. OCR Online Gratis(Free Online OCR) sangat bagus dan sangat akurat saat mengekstrak teks dari gambar pengujian saya. Saya mengambil beberapa foto dari halaman iPhone saya dari buku, pamflet, dll dan saya terkejut melihat seberapa baik itu dapat mengubah teks.

ocr online gratis

Pilih file Anda, lalu klik tombol Unggah(Upload button) . Di layar berikutnya, ada beberapa opsi dan pratinjau gambar. Anda dapat memotongnya jika Anda tidak ingin melakukan OCR secara keseluruhan. Kemudian cukup klik tombol OCR(OCR button) dan teks Anda yang dikonversi akan muncul di bawah pratinjau gambar(image preview) . Itu juga tidak memiliki batasan, yang sangat bagus.

Selain layanan online, ada dua konverter PDF freeware yang ingin saya sebutkan jika Anda memerlukan perangkat lunak yang berjalan secara lokal di komputer Anda untuk melakukan konversi. Dengan layanan online, Anda akan selalu membutuhkan koneksi Internet(Internet connection) dan itu mungkin tidak dapat dilakukan oleh semua orang. Namun, saya perhatikan bahwa kualitas konversi dari program freeware secara signifikan lebih buruk daripada situs web.

Ekstraktor Teks A-PDF

A-PDF Text Extractor adalah freeware yang melakukan pekerjaan yang cukup baik untuk mengekstrak teks dari file PDF(PDF file) s. Setelah(Once) Anda mendownload dan menginstalnya, klik tombol Open(Open button) untuk memilih file PDF(PDF file) Anda . Kemudian klik Ekstrak teks(Extract text) untuk memulai proses.

ekstraktor apdf

Ini akan menanyakan lokasi untuk menyimpan file output teks(text output file) dan kemudian akan mulai mengekstrak. Anda juga dapat mengklik tombol Option , yang memungkinkan Anda memilih hanya halaman tertentu untuk diekstrak dan jenis ekstraksi(extraction type) . Opsi kedua menarik karena mengekstrak teks dalam tata letak yang berbeda dan ketiganya patut dicoba untuk melihat mana yang memberi Anda hasil terbaik.

Percontohan Teks PDF2

PDF2Text Pilot  melakukan pekerjaan yang baik untuk mengekstraksi teks. Itu tidak memiliki opsi apa pun; Anda hanya menambahkan file atau folder, mengkonversi dan berharap(convert and hope) yang terbaik. Ini bekerja dengan baik pada beberapa PDF(PDFs) , tetapi untuk sebagian besar dari mereka, ada banyak masalah.

pdf2teks

Cukup klik Add Files lalu klik Convert . Setelah konversi selesai, klik Browse untuk membuka file. Jarak tempuh Anda akan bervariasi menggunakan program ini jadi jangan berharap banyak.

Juga, perlu disebutkan bahwa jika Anda berada di lingkungan perusahaan atau dapat memperoleh salinan Adobe Acrobat dari tempat kerja, maka Anda benar-benar dapat memperoleh hasil yang jauh lebih baik. Acrobat jelas tidak gratis, tetapi memiliki opsi untuk mengonversi PDF ke format Word , Excel, dan HTML(Excel and HTML format) . Itu juga melakukan pekerjaan terbaik untuk mempertahankan struktur dokumen asli dan mengonversi teks yang rumit.



About the author

Saya seorang insinyur perangkat lunak dengan pengalaman lebih dari 10 tahun di bidang teknik Windows. Saya mengkhususkan diri dalam mengembangkan aplikasi berbasis Windows, serta driver perangkat keras dan suara untuk sistem operasi Microsoft Windows generasi berikutnya, Windows 11. Pengalaman saya dengan membuat aplikasi windows menjadikan saya aset yang sangat berharga bagi perusahaan mana pun yang ingin mengembangkan produk teknologi inovatif.



Related posts