Cara mengekstrak Tabel dari dokumen PDF
Artikel ini akan menunjukkan cara mengekstrak tabel dari dokumen PDF(extract tables from PDF documents) . Anda mungkin memiliki banyak file PDF yang berisi beberapa tabel yang ingin Anda gunakan secara terpisah. Menyalin(Copying) dan menempel tabel tersebut bukanlah pilihan yang baik karena mungkin tidak memberikan hasil yang diharapkan, oleh karena itu Anda memerlukan beberapa opsi sederhana lainnya yang dapat mengekstrak tabel dari file PDF dan menyimpan tabel tersebut sebagai file terpisah.
Sebagian besar alat pengekstrak tabel PDF(PDF table extractor tools) ini tidak dapat membantu jika tabel PDF dipindai. Dalam kasus seperti itu, pertama-tama Anda harus membuat PDF dapat dicari(make the PDF searchable) dan kemudian mencoba opsi ini.
Ekstrak Tabel dari dokumen PDF
Dalam posting ini, kami telah menambahkan 2 layanan online gratis dan 3 perangkat lunak gratis untuk mengekstrak tabel dari file PDF :
- PDF ke XLS
- PDFtoExcel.com
- tabula
- Multitool PDF ByteScout
- Sejda PDF Desktop.
1] PDF ke XLS
PDF ke XLS adalah salah satu opsi terbaik untuk mengekstrak tabel dari PDF . Ini memiliki dua fitur yang membuatnya berguna. Anda dapat mengambil tabel dari 20 dokumen PDF(20 PDF) secara bersamaan. Juga, ekstraksi tabel PDF otomatis. Ini menghasilkan output sebagai file XLSX . Jika PDF memiliki beberapa tabel, maka setiap tabel disimpan secara terpisah di lembar file XLSX keluaran yang berbeda.(XLSX)
Buka beranda(Open the homepage) layanan ini. Setelah itu, drag n drop file PDF atau gunakan tombol UPLOAD FILES . Setiap PDF yang diunggah dikonversi ke file format XLSX secara otomatis. Ketika file output sudah siap, Anda dapat mendownloadnya satu per satu atau mendownload file ZIP yang akan berisi semua file output.
2] PDFtoExcel.com
Layanan PDFtoExcel.com(PDFtoExcel.com) dapat mengekstrak tabel dari satu PDF sekaligus tetapi mendukung banyak platform untuk mengunggah PDF . Ini mendukung platform OneDrive , desktop , Google Drive , dan Dropbox untuk mengunggah PDF . Juga, proses konversi otomatis.
Beranda layanan ini ada di sini(here) . Di sana, pilih opsi unggah untuk menambahkan PDF . Setelah itu, secara otomatis mengunggah dan mengonversi file PDF ke Excel ( XLSX ). Ketika output sudah siap, Anda akan mendapatkan link download untuk menyimpan file output yang berisi tabel PDF .
Catatan:(Note: ) Meskipun layanan ini menyebutkan bahwa itu dapat mengekstrak tabel dari file PDF yang dipindai juga, itu tidak berfungsi untuk saya. Anda masih dapat mencobanya untuk PDF yang dipindai .
3] tabula
Tabula adalah perangkat lunak canggih yang dapat secara otomatis mendeteksi tabel yang ada dalam PDF dan kemudian memungkinkan Anda menyimpan tabel tersebut sebagai file TSV , JSON , atau CSV . Anda dapat memilih opsi untuk menyimpan file CSV terpisah untuk setiap tabel (CSV)PDF atau menyimpan semua tabel dalam satu file CSV .
Untuk mengunduh ekstraktor tabel PDF sumber terbuka ini, (open-source)klik di sini(click here) . Ini juga membutuhkan Java(requires Java) untuk menjalankan dan menggunakannya dengan sukses.
Ekstrak file ZIP yang Anda download, dan jalankan file tabula.exe . Ini akan membuka halaman di browser default Anda. Jika halaman tidak terbuka, tambahkan http://localhost:8080 di browser Anda dan tekan Enter .
Sekarang Anda akan melihat antarmukanya di mana Anda dapat menggunakan opsi Browse untuk menambahkan PDF . Setelah itu, tekan tombol Impor(Import) . Saat PDF ditambahkan, Anda dapat melihat halaman PDF di antarmukanya.
Gunakan tombol Autodetect Tables dan itu akan menyorot semua tabel yang ada dalam PDF itu secara otomatis. Anda juga dapat menyorot tabel secara manual dengan memilih tabel tertentu. Jika mau, Anda juga dapat menghapus tabel(remove selected tables) pilihan Anda.
Ini akan membantu Anda menyimpan hanya tabel yang Anda inginkan. Saat tabel PDF disorot, klik tombol Pratinjau & Ekspor Data yang Diekstrak(Preview & Export Extracted Data) .
Terakhir, gunakan menu tarik-turun yang tersedia di bagian atas untuk memilih format keluaran, dan tekan tombol Ekspor(Export) . Ini akan menyimpan tabel PDF dalam file format output yang Anda pilih.
4] ByteScout PDF Multitool
Seperti namanya, perangkat lunak ini dilengkapi dengan banyak alat. Ini memiliki alat seperti mengonversi PDF ke TIFF multihalaman(convert PDF to multipage TIFF) , memutar dokumen PDF(rotate PDF document) , membuat PDF tidak dapat dicari(make PDF unsearchable) , mengoptimalkan PDF(optimize PDF) , menambahkan gambar ke PDF(add an image to PDF) , dan banyak lagi. Fitur pendeteksi tabel PDF juga ada yang cukup mengagumkan. (PDF)Keuntungan dari alat ini adalah Anda juga dapat mengekstrak tabel dari PDF yang dipindai(extract tables from scanned PDF) . Anda dapat mendeteksi tabel di beberapa halaman lalu mengekstrak tabel tersebut sebagai file format CSV , XLS , XML , TXT , atau JSON . Sebelum ekstraksi, ini juga memungkinkan Anda mengatur rentang halaman(page range)untuk mengekstrak tabel dari halaman tertentu saja.
Anda dapat mengambil perangkat lunak ini di sini(here) . Ini gratis untuk penggunaan non-komersial(free for non-commercial use) saja. Setelah instalasi, jalankan software ini dan gunakan opsi Open Document untuk menambahkan PDF . Setelah itu, klik alat Deteksi tabel(Detect tables) seperti yang disorot pada gambar di atas. Alat ini hadir di bawah kategori Ekstraksi Data .(Data Extraction)
Ini akan membuka kotak di mana Anda dapat mengatur kondisi untuk mendeteksi tabel. Misalnya, Anda dapat mengatur jumlah minimum kolom, baris, jeda baris minimum antar tabel, mengatur mode deteksi tabel ke tabel tanpa batas atau batas, dll. Gunakan opsi atau pertahankan pengaturan default.
Setelah itu, tekan tombol Deteksi tabel berikutnya(Detect next table) di kotak itu. Ini akan mengidentifikasi dan memilih tabel pada halaman saat ini. Dengan cara itu, Anda dapat pindah ke halaman lain dan mendeteksi lebih banyak tabel.
Setelah selesai, gunakan tombol Lanjutkan ke ekstraksi(Proceed to extraction) , dan pilih format output. Terakhir, Anda dapat menggunakan opsi untuk menyimpan tabel dari halaman saat ini atau menentukan rentang halaman, dan menyimpan hasilnya.
Alat ini memberikan output yang memuaskan. Namun terkadang, ini mungkin mendeteksi konten lain dalam PDF , dan mungkin tidak dapat mengekstrak tabel dari beberapa halaman. Dalam hal ini, Anda harus menggunakannya untuk mengambil dan menyimpan tabel satu per satu.
5] Sejda PDF Desktop
Sejda PDF Desktop juga merupakan perangkat lunak serbaguna. Itu dapat mengoptimalkan atau mengompres PDF(compress PDF) , menambahkan tanda air ke PDF, menghapus batasan dari PDF(remove restrictions from PDF) , mengedit dokumen PDF , dll. Namun, paket gratisnya memiliki batasan. Dalam paket gratis, hanya 3 tugas per hari yang dapat dilakukan. Selain itu, batas ukuran PDF adalah (PDF)50 MB atau 10 halaman(10 pages) .
Anda dapat menggunakan alat konversi PDF ke Excel(PDF to Excel) untuk mengekstrak tabel PDF . Ini secara otomatis mendeteksi tabel di halaman PDF dan memungkinkan Anda menyimpan tabel tersebut sebagai XLSX atau CSV .
Link download nya ada disini(here) . Setelah instalasi, gunakan alat PDF ke Excel dari antarmuka utamanya. Setelah memilih alat itu, gunakan tombol Pilih file PDF . (Choose PDF files)Hanya satu PDF yang dapat ditambahkan ke paket gratis.
Ketika PDF ditambahkan, itu akan menyediakan tombol Convert PDF to CSV dan Convert PDF to Excel . Gunakan tombol dan kemudian Anda dapat menyimpan output ke lokasi yang diinginkan pada PC Anda.
Alat pendeteksi tabel PDF - nya bagus. Anda tidak perlu mendeteksi tabel secara manual. Namun, terkadang itu mungkin menyertakan konten teks lain sebagai tabel PDF dan menyimpannya di output. Tapi hasil keseluruhan bagus.
Itu saja.
Ini adalah beberapa alat yang baik untuk mengekstrak tabel dari PDF . Perangkat lunak Tabula(Tabula) lebih efektif daripada alat lain. Namun, Anda dapat mencoba semua alat dan memeriksa mana yang membantu.
Bacaan serupa:(Similar reads:)
- Ekstrak lampiran dari PDF(Extract attachments from PDF)
- Ekstrak teks yang disorot dari PDF(Extract highlighted text from PDF) .
Related posts
Document Converter: Convert DOC, PDF, DOCX, RTF, TXT, file HTML
Apa PPS file sebuah? Bagaimana mengkonversi PPS untuk PDF di Windows 11/10?
PDF text menghilang saat mengedit atau menyimpan file di Windows 10
Best Free PDF Editor Online Tools yang berbasis cloud
PDF Editor Online Tool gratis untuk mengedit file PDF - PDF Yeah
Adobe Reader Tidak Bekerja di Windows 10
Cara Melindungi Kata Sandi dan Mengamankan Dokumen PDf dengan LibreOffice
Cara memangkas PDF Pages di Windows 11 menggunakan alat online atau perangkat lunak gratis
Cara mengekstrak dan Save PDF Metadata di Windows 11/10
Cara Mengonversi PDF document ke Multigie TIFF image di Windows
Best Free PDF Editing software untuk Windows 10
Best Free PDF Stamp Creator software untuk Windows 10
PDF24 Creator adalah PDF Creator gratis untuk membuat, mengubah, menggabungkan file PDF
Best PDF word counter software and online tools
Cara menyimpan halaman web sebagai PDF di Chrome or Firefox
Cara Mengonversi Plain Text ke Musical Notation PDF di Windows 10
PDF Candy adalah all-in-one online tool untuk mengelola PDFs
Cara Mengonversi Excel file ke PDF online Menggunakan Google Drive
Compress PDF Software: Compress PDF File menggunakan alat PDF Reducer online
7-PDF Website Converter: Convert Web Pages ke PDF