Эта статья покажет вам, как извлекать таблицы из PDF-документов^{(extract tables from PDF documents)} . У вас может быть много файлов PDF , содержащих несколько таблиц, которые вы хотите использовать по отдельности. Копирование^(Copying) и вставка этих таблиц не является хорошим вариантом, так как это может не дать ожидаемого результата, поэтому вам нужны другие простые параметры, которые могут извлекать таблицы из файла PDF и сохранять эти таблицы в виде отдельных файлов.

Большинство этих инструментов для извлечения таблиц PDF^{(PDF table extractor tools)} не могут помочь, если таблица PDF сканируется. В таком случае вы должны сначала сделать PDF доступным для поиска,^{(make the PDF searchable)} а затем попробовать эти варианты.

Извлечение таблиц из PDF-документов

В этом посте мы добавили 2 бесплатных онлайн-сервиса и 3 бесплатных программы для извлечения таблиц из PDF - файла:

PDF в XLS
PDFtoExcel.com
Табула
Многофункциональный инструмент ByteScout PDF
Сейда PDF Рабочий стол.

1] PDF в XLS

Сервис PDF в XLS

PDF в XLS — один из лучших вариантов для извлечения таблиц из PDF . У него есть две особенности, которые делают его удобным. Вы можете получить таблицы из 20 PDF- документов одновременно. Кроме того, извлечение таблицы PDF происходит автоматически. ^(PDF)Он генерирует вывод в виде файла XLSX . Если PDF -файл содержит несколько таблиц, каждая таблица хранится отдельно на разных листах выходного файла XLSX .

Откройте домашнюю страницу^{(Open the homepage)} этого сервиса. После этого перетащите файлы PDF или используйте кнопку ЗАГРУЗИТЬ ФАЙЛЫ . ^{(UPLOAD FILES)}Каждый загруженный PDF -файл автоматически конвертируется в файл формата XLSX. Когда выходные файлы будут готовы, вы можете загрузить их по одному или загрузить ZIP - файл, который будет содержать все выходные файлы.

2] PDFtoExcel.com

Извлечение таблиц из PDF-документов

Служба PDFtoExcel.com^{(PDFtoExcel.com)} может одновременно извлекать таблицы из одного PDF -файла , но поддерживает несколько платформ для загрузки PDF -файлов . Он поддерживает платформы OneDrive , Desktop , Google Drive и Dropbox для загрузки PDF -файлов . Кроме того, процесс преобразования является автоматическим.

Домашняя страница этой службы находится здесь^(here) . Там выберите вариант загрузки, чтобы добавить PDF . После этого он автоматически загружает и конвертирует PDF в файл Excel ( XLSX ). Когда вывод будет готов, вы получите ссылку для скачивания, чтобы сохранить выходной файл, содержащий таблицы (таблицы) в формате PDF .^(PDF)

Примечание.^{(Note: )} Хотя в этом сервисе упоминается, что он также может извлекать таблицы из отсканированных PDF - файлов, у меня это не сработало. Вы все еще можете попробовать его для отсканированного PDF .

3] Табула

Программное обеспечение для извлечения PDF-файлов Tabula

Tabula — это мощное программное обеспечение, которое может автоматически обнаруживать таблицы, присутствующие в PDF -файле, а затем позволяет сохранять эти таблицы в виде файла TSV , JSON или CSV . Вы можете выбрать вариант сохранения отдельных CSV - файлов для каждой таблицы PDF или сохранения всех таблиц в одном CSV - файле.

Чтобы загрузить этот инструмент для извлечения таблиц PDF с открытым исходным кодом , ^{(open-source)}щелкните здесь^{(click here)} . Для запуска и успешного использования также требуется Java .^{(requires Java)}

Извлеките загруженный ZIP - файл и запустите файл tabula.exe . Он откроет страницу в вашем браузере по умолчанию. Если страница не открывается, то добавьте в браузере http://localhost:8080 и нажмите Enter .

Теперь вы увидите его интерфейс, в котором вы можете использовать опцию « Обзор^(Browse) », чтобы добавить PDF -файл . После этого нажмите кнопку Импорт^(Import) . Когда PDF -файл добавлен, вы можете увидеть PDF - страницы в его интерфейсе.

Используйте кнопку « Автоопределение таблиц^{(Autodetect Tables)} », и она автоматически выделит все таблицы, присутствующие в этом PDF - файле. Вы также можете вручную выделить таблицу, выбрав конкретную таблицу. Если вы хотите, вы также можете удалить выбранные таблицы^{(remove selected tables)} по вашему выбору.

Это поможет вам сохранить только те таблицы, которые вам нужны. Когда таблицы PDF выделены, нажмите кнопку « Просмотр и экспорт извлеченных данных^{(Preview & Export Extracted Data)} » .

Наконец, используйте раскрывающееся меню в верхней части, чтобы выбрать выходной формат, и нажмите кнопку « Экспорт^(Export) » . Это позволит сохранить таблицы PDF в файле выходного формата, выбранном вами.

4] Многофункциональный инструмент ByteScout PDF

ByteScout PDF Multitool - добавление PDF и обнаружение таблиц

Как следует из названия, это программное обеспечение поставляется с несколькими инструментами. В нем есть такие инструменты, как преобразование PDF в многостраничный TIFF^{(convert PDF to multipage TIFF)} , поворот документа^{(rotate PDF document)} PDF , запрет поиска в PDF^{(make PDF unsearchable)} , оптимизация PDF^{(optimize PDF)} , добавление изображения в PDF^{(add an image to PDF)} и многое другое. Также есть функция обнаружения таблиц PDF , что довольно круто. ^(PDF)Преимущество этого инструмента в том, что вы также можете извлекать таблицы из отсканированного PDF^{(extract tables from scanned PDF)} -файла . Вы можете обнаружить таблицы на нескольких страницах, а затем извлечь эти таблицы в виде файла формата CSV , XLS , XML , TXT или JSON . Перед извлечением он также позволяет вам установить диапазон страниц^{(page range)}для извлечения таблиц только из указанных страниц.

Вы можете получить это программное обеспечение здесь^(here) . Это бесплатно только для некоммерческого использования^{(free for non-commercial use)} . После установки запустите это программное обеспечение и используйте опцию « Открыть документ^{(Open Document)} », чтобы добавить PDF -файл . После этого щелкните инструмент « Определить таблицы^{(Detect tables)} » , как показано на изображении выше. Этот инструмент находится в категории «Извлечение данных^{(Data Extraction)} ».

Откроется окно, в котором вы можете установить условия для обнаружения таблиц. Например, вы можете установить минимальное количество столбцов, строк, минимальное количество разрывов строк между таблицами, установить режим обнаружения таблиц с рамкой или без рамки и т. д. Используйте параметры или оставьте настройки по умолчанию.

После этого нажмите кнопку «Определить следующую таблицу^{(Detect next table)} » в этом поле. Он определит и выберет таблицу на текущей странице. Таким образом, вы можете перейти на другую страницу и обнаружить больше таблиц.

обнаруживать таблицы и сохранять таблицы PDF с выбранным выводом

Когда вы закончите, используйте кнопку Приступить к извлечению^{(Proceed to extraction)} и выберите выходной формат. Наконец, вы можете использовать параметры для сохранения таблиц с текущей страницы или определить диапазон страниц и сохранить вывод.

Инструмент дает удовлетворительный результат. Но иногда он может обнаружить другое содержимое в PDF и не сможет извлечь таблицы с нескольких страниц. В этом случае вы должны использовать его для извлечения и сохранения таблиц по одной.

5] Сейда PDF для рабочего стола

Sejda PDF Desktop с конвертером pdf в excel

Sejda PDF Desktop также является многоцелевым программным обеспечением. Он может оптимизировать или сжимать PDF^{(compress PDF)} -файлы , добавлять водяные знаки в PDF-файлы, снимать ограничения с PDF^{(remove restrictions from PDF)} -файлов , редактировать PDF - документы и т. д. Однако его бесплатный план имеет ограничения. В бесплатном плане можно выполнять только 3 задания в день. Кроме того, ограничение размера PDF составляет ^(PDF)50 МБ^{(50 MB)} или 10 страниц^{(10 pages)} .

Вы можете использовать его инструмент преобразования PDF в Excel^{(PDF to Excel)} для извлечения таблиц PDF . Он автоматически обнаруживает таблицы на страницах PDF и позволяет сохранять эти таблицы в форматах XLSX или CSV .

Его ссылка для скачивания находится здесь^(here) . После установки используйте инструмент PDF в Excel из его основного интерфейса. После выбора этого инструмента используйте кнопку «Выбрать PDF-файлы ». ^{(Choose PDF files)}В бесплатный план можно добавить только один PDF -файл.^(PDF)

Когда PDF -файл будет добавлен, он предоставит кнопки « Преобразовать PDF в CSV^{(Convert PDF to CSV)} » и « Преобразовать PDF в Excel ». ^{(Convert PDF to Excel)}Используйте кнопку, а затем вы можете сохранить вывод в нужное место на вашем ПК.

преобразовать таблицу pdf в excel или csv

Его инструмент обнаружения таблиц PDF хорош. Вам не нужно вручную определять таблицы. Тем не менее, иногда он может включать другое текстовое содержимое в виде таблицы PDF и сохранять его в выходных данных. ^(PDF)Но в целом результаты хорошие.

Это все.

Вот несколько хороших инструментов для извлечения таблиц из PDF . Программное обеспечение Tabula^(Tabula) более эффективно, чем другие инструменты. Тем не менее, вы можете попробовать все инструменты и проверить, какие из них помогают.

Аналогично читается:^{(Similar reads:)}

Извлечь вложения из PDF^{(Extract attachments from PDF)}
Извлечение выделенного текста из PDF^{(Extract highlighted text from PDF)} .

How to extract Tables from PDF documents

This article will show you how to extract tables from PDF documents. You might have many PDF files that contain multiple tables that you want to use separately. Copying and pasting those tables is not a good option as it may not give the expected output, therefore you need some other simple options that can extract tables from a PDF file and save those tables as separate files.

Most of these PDF table extractor tools can’t help if the PDF table is scanned. In such a case, you should first make the PDF searchable and then try these options.

Extract Tables from PDF documents

In this post, we have added 2 free online services and 3 free software to extract tables from a PDF file:

PDF to XLS
PDFtoExcel.com
Tabula
ByteScout PDF Multitool
Sejda PDF Desktop.

1] PDF to XLS

PDF to XLS service

PDF to XLS is one of the best options for extracting tables from PDF. It has two features that make it handy. You can fetch tables from 20 PDF documents together. Also, the PDF table extraction is automatic. It generates the output as an XLSX file. If a PDF has multiple tables, then each table is stored separately in different sheets of output XLSX file.

Open the homepage of this service. After that, drag n drop PDF files or use UPLOAD FILES button. Each uploaded PDF is converted to XLSX format file automatically. When the output files are ready, you can download them one by one or download a ZIP file that will contain all the output files.

2] PDFtoExcel.com

Extract Tables from PDF documents

PDFtoExcel.com service can extract tables from one PDF at once but it supports multiple platforms to upload PDF. It supports OneDrive, desktop, Google Drive, and Dropbox platforms to upload a PDF. Also, the conversion process is automatic.

This service homepage is here. There, select an upload option to add PDF. After that, it automatically uploads and converts PDF to Excel (XLSX) file. When the output is ready, you will get the download link to save the output file containing PDF table(s).

Note: Though this service mentions that it can extract tables from scanned PDF files also, it didn’t work for me. You can still try it for scanned PDF.

3] Tabula

Tabula PDF extractor software

Tabula is a powerful software that can automatically detect tables present in a PDF and then lets you save those tables as TSV, JSON, or CSV file. You can select the option to save separate CSV files for each PDF table or save all the tables in a single CSV file.

To download this open-source PDF table extractor, click here. It also requires Java to run and use it successfully.

Extract the ZIP file that you downloaded, and run tabula.exe file. It will open a page in your default browser. If the page is not opened, then add http://localhost:8080 in your browser and press Enter.

Now you will see its interface where you can use the Browse option to add a PDF. After that, press Import button. When the PDF is added, you can see PDF pages on its interface.

Use Autodetect Tables button and it will highlight all the tables present in that PDF automatically. You can also manually highlight a table by selecting a particular table. If you want, you can also remove selected tables of your choice.

This will help you save only those tables that you want. When PDF tables are highlighted, click on the Preview & Export Extracted Data button.

Finally, use the drop-down menu available on the top part to select an output format, and press Export button. This will save PDF tables in the output format file selected by you.

4] ByteScout PDF Multitool

ByteScout PDF Multitool- add pdf and detect tables

As the name suggests, this software comes with multiple tools. It has tools such as convert PDF to multipage TIFF, rotate PDF document, make PDF unsearchable, optimize PDF, add an image to PDF, and more. PDF table detector feature is also there which is pretty awesome. The advantage of this tool is you can extract tables from scanned PDF too. You can detect tables in multiple pages and then extract those tables as CSV, XLS, XML, TXT, or JSON format file. Before extraction, it also lets you set a page range to extract tables from specified pages only.

You can grab this software here. It is free for non-commercial use only. After installation, run this software and use Open Document option to add a PDF. After that, click on the Detect tables tool as highlighted in the image above. This tool is present under Data Extraction category.

It will open a box where you can set conditions to detect tables. For example, you can set a minimum number of columns, rows, minimum line breaks between tables, set table detection mode to bordered or borderless table, etc. Use options or keep the default settings.

After that, press Detect next table button in that box. It will identify and select a table on the current page. In that way, you can move to another page and detect more tables.

detect tables and save pdf tables with selected output

When you’re done, use Proceed to extraction button, and select the output format. Finally, you can use options to save the tables from the current page or define a page range, and save the output.

The tool gives a satisfactory output. But sometimes, it might detect other content in PDF, and might not be able to extract tables from multiple pages. In that case, you should use it to fetch and save tables one by one.

5] Sejda PDF Desktop

Sejda PDF Desktop with pdf to excel converter

Sejda PDF Desktop is also a multipurpose software. It can optimize or compress PDF, add watermark to PDF, remove restrictions from PDF, edit PDF document, etc. However, its free plan has limitations. In the free plan, only 3 tasks per day can be done. Also, the PDF size limit is 50 MB or 10 pages.

You can use its PDF to Excel conversion tool to extract PDF tables. It automatically detects the tables in PDF pages and lets you save those tables as XLSX or CSV.

Its download link is here. After installation, use PDF to Excel tool from its main interface. After selecting that tool, use Choose PDF files button. Only one PDF can be added to the free plan.

When the PDF is added, it will provide Convert PDF to CSV and Convert PDF to Excel buttons. Use a button and then you can save the output to the desired location on your PC.

convert pdf table to excel or csv

Its PDF table detection tool is good. You don’t have to manually detect tables. Still, sometimes it might include other text content as a PDF table and store it in the output. But overall results are good.

That’s all.

These are some good tools to extract tables from PDF. Tabula software is more effective than other tools. Still, you can try all the tools and check which helps.

Similar reads:

Share this post!

Facebook Twitter Pinterest LinkedIn Reddit Pocket Telegram Email

Регина Новицкая

About the author

Я выпускник Университета штата Юта по специальности компьютерная инженерия с более чем 10-летним опытом разработки программного обеспечения и разработки для Windows. Имею опыт работы с документами PDF и Office, а также создания гаджетов на платформах iOS и Android.

Как извлечь таблицы из документов PDF

Извлечение таблиц из PDF-документов

1] PDF в XLS

2] PDFtoExcel.com

3] Табула

4] Многофункциональный инструмент ByteScout PDF

5] Сейда PDF для рабочего стола

How to extract Tables from PDF documents

Extract Tables from PDF documents

1] PDF to XLS

2] PDFtoExcel.com

3] Tabula

4] ByteScout PDF Multitool

5] Sejda PDF Desktop

Share this post!

Регина Новицкая

About the author

Related posts

Document Converter: Convert DOC, PDF, DOCX, RTF, TXT, HTML Файлы

Что такое PPS file? Как конвертировать PPS на PDF в Windows 11/10?

PDF text исчезает при редактировании или сохранении файла в Windows 10

Best Free PDF Editor Online Tools, которые находятся на основе облаков

Free PDF Editor Online Tool для редактирования PDF файлов - PDF Yeah

Как конвертировать Documents в PDF с Google Docs с помощью браузера

Convert PDF до PPT (PowerPoint) Используя эти бесплатные software & online tools

Как обрезать PDF Pages в Windows 11, используя онлайн-инструмент или бесплатное программное обеспечение

Convert JPG file до PDF Online Free

7-PDF Website Converter: Convert Web Pages в PDF

Best Free PDF Stamp Creator software для Windows 10

Compress PDF Software: Compress PDF Файлы с использованием инструментов PDF Reducer online

Как сохранить веб-страницы как PDF в Chrome or Firefox

PDFTK Builder - это бесплатное программное обеспечение для модификации и разделения файлов PDF

Как конвертировать PDF на MOBI на Windows 10

Adobe Reader не работает в Windows 10

Как сэкономить Email как PDF в Gmail and Outlook

PDF24 Creator - бесплатный PDF Creator для создания, конвертации, объединения файлов PDF

Optimize, компресс и уменьшить PDF File size в Windows 10

Как конвертировать Excel file на PDF online, используя Google Drive