Bagaimana Mengekstrak Teks yang Disorot dari PDF sebagai File Teks?

Menyoroti teks dalam dokumen PDF berguna untuk menandai area penting yang dapat Anda akses nanti dengan cepat. Anda dapat menggunakan Microsoft Edge untuk menyorot PDF(Microsoft Edge to highlight PDF)  atau perangkat lunak lain yang disertakan dengan fitur penyorotan PDF . Terkadang, Anda mungkin juga merasa perlu hanya memiliki teks yang disorot sehingga Anda dapat memiliki ringkasan PDF yang berisi semua teks penting. Jika Anda mencari beberapa cara untuk menyimpan hanya teks yang disorot dari PDF sebagai file TXT , maka posting ini dapat membantu.

Ekstrak Teks yang Disorot dari PDF

Ada beberapa perangkat lunak gratis dan layanan untuk mengekstrak teks yang disorot dari file PDF dan menyimpannya sebagai file teks:

  • Ekstraktor Sorotan PDF
  • Pembaca Foxit
  • Sumnotes.net
  • DyAnnotationExtractor.

Mari kita periksa software PDF Highlight Extractor ini satu per satu.

1] Ekstraktor Sorotan PDF

Perangkat lunak Ekstraktor Sorotan PDF

PDF Highlight Extractor adalah salah satu opsi termudah untuk mengekstrak teks yang disorot dari file PDF . Ekstraktor sorotan teks PDF (PDF text highlight extractor)sumber terbuka(open-source) ini memiliki dua fitur yang menarik perhatian. Anda dapat melihat pratinjau teks(preview highlighted text) PDF yang disorot pada antarmuka perangkat lunak.

Fitur kedua adalah Anda dapat mengatur halaman awal atau akhir atau rentang halaman untuk mengekstrak teks(set start or end page or page range to extract the text) . Jadi, alih-alih memindai seluruh PDF , Anda dapat menentukan nomor halaman untuk mendapatkan teks yang disorot.

Fitur bagus lainnya adalah Anda memiliki opsi untuk menyimpan teks sebagai teks biasa(save text as plain text) atau file Excel(Excel file) .

Pada antarmukanya, tambahkan file PDF Anda menggunakan opsi yang diberikan, lalu tekan tombol Ekstrak(Extract) . Hapus centang opsi Semua Halaman(All Pages) jika Anda ingin mengatur rentang halaman atau membiarkannya apa adanya. Setelah teks diambil, Anda dapat mempratinjaunya. Terakhir, tekan tombol Teks(Text) atau Excel untuk menyimpan teks yang disorot.

Anda dapat mengunduh perangkat lunak ini dari sini(here) . Java juga diperlukan untuk menggunakan perangkat lunak ini. Jadi, instal Java (jika belum) dan jalankan perangkat lunak ini untuk digunakan.

2] Pembaca Foxit

Ekstrak Teks yang Disorot dari PDF

Foxit Reader adalah salah satu pembaca PDF gratis terbaik . Anda dapat membuka beberapa file PDF di tab terpisah, menyorot PDF , menambahkan catatan, mengekspor komentar(export comments) , menambahkan tanda tangan(add signatures) , dan banyak lagi. Di antara daftar besar fitur, mengekstraksi teks yang disorot dari PDF juga ada. Bagian terbaik dari fitur ini adalah juga menyimpan nomor halaman bersama dengan teks yang diekstraksi(saves page numbers along with the extracted text) .

Untuk mengambil teks yang disorot dari PDF , buka file PDF pada antarmukanya, dan akses tab Komentar . (Comment)Di tab itu, klik opsi Ekspor yang tersedia di bagian (Export)Kelola Komentar(Manage Comments) . Anda akan melihat opsi Teks yang Disorot(Highlighted Text) . Gunakan opsi itu dan kemudian Anda dapat menyimpan semua teks yang disorot sebagai file teks.

Berikut(Here) adalah tautan unduhan untuk perangkat lunak ini. Selama penginstalan, Anda harus memilih penginstalan khusus(custom installation) untuk menyertakan hanya komponen yang diperlukan dari perangkat lunak ini.

3] Sumnotes.net

Catatan Umum

Sumnotes.net adalah layanan gratis yang memungkinkan Anda membuat anotasi PDF serta mengekstrak teks yang disorot. Semua teks yang disorot terlihat secara terpisah di bilah sisi kiri. Dengan menggunakan bilah sisi itu, Anda juga dapat menghapus teks yang disorot yang tidak Anda perlukan(remove highlighted text that you don’t need) dan kemudian mengunduh sisa teks yang disorot.

Sebelum mengunduh teks yang disorot, Anda juga dapat menyertakan nomor halaman dan mengecualikan(exclude) teks yang disorot dengan warna tertentu(highlighted text of specific color) .

Anda juga memiliki opsi untuk menyimpan teks yang disorot dari PDF sebagai(save highlighted text from PDF as Excel) file Excel atau Word . Jadi, fitur-fiturnya bagus. Anda dapat mendaftar dengan paket gratis dan kemudian mengekstrak 50 sorotan(extract 50 highlights) atau anotasi per unduhan(per download) , yang cukup dalam banyak kasus.

Berikut(Here) ini tautan ke berandanya. Untuk mengekstrak teks yang disorot dari PDF , tambahkan PDF dari PC atau Google Drive . Saat PDF diunggah, anotasi dan teks yang disorot terlihat di sisi kiri. Gunakan opsi Unduh Anotasi(Download Annotations) dan kemudian Anda dapat menyimpan teks yang disorot dalam file format TXT , XLSX , atau DOC .

4] DyAnnotationExtractor

Perangkat lunak baris perintah DyAnnotationExtractor

Perangkat lunak DyAnnotationExtractor(DyAnnotationExtractor) dapat membantu Anda mengekstrak teks dan komentar(comments) yang disorot dari dokumen PDF. Ini adalah perangkat lunak baris perintah(command-line) , tetapi menggunakannya sangat sederhana. Hanya satu perintah yang akan mengambil teks yang disorot dalam file PDF masukan.

Anda bisa mendapatkan software ini menggunakan link ini(this link) . Unduh file (Download)ZIP -nya lalu ekstrak. Untuk memudahkan menjalankan perintah, Anda juga harus meletakkan PDF di folder yang sama tempat Anda mengekstrak software ini. Setelah itu, buka jendela Command Prompt di folder tersebut. Anda dapat melakukannya dengan mengetik cmd di kotak alamat folder itu dan kemudian menekan tombol Enter .

Ketika jendela CMD dibuka, tambahkan file BAT dari perangkat lunak ini, perintah input termasuk jalur input PDF , perintah output, dan nama file output bersama dengan ekstensi '.txt'. Perintah lengkapnya adalah-

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

Jalankan perintah. Tunggu(Wait) beberapa detik dan file teks biasa akan siap berisi semua teks dan komentar yang disorot yang diambil dari PDF itu . File output disimpan dalam folder input yang sama.

Jadi, ini adalah beberapa opsi yang dapat Anda gunakan untuk mengekstrak teks yang disorot dari PDF dan kemudian menyimpan hasilnya sebagai file teks. Semoga(Hope) ini membantu.



About the author

Saya bekerja sebagai konsultan untuk Microsoft. Saya mengkhususkan diri dalam pengembangan aplikasi seluler untuk perangkat Apple dan Android, dan saya juga terlibat dalam pengembangan aplikasi Windows 7. Pengalaman saya dengan smartphone dan Windows 7 menjadikan saya kandidat ideal untuk posisi ini.



Related posts