Как извлечь таблицы из документов PDF

Эта статья покажет вам, как извлекать таблицы из PDF-документов(extract tables from PDF documents) . У вас может быть много файлов PDF , содержащих несколько таблиц, которые вы хотите использовать по отдельности. Копирование(Copying) и вставка этих таблиц не является хорошим вариантом, так как это может не дать ожидаемого результата, поэтому вам нужны другие простые параметры, которые могут извлекать таблицы из файла PDF и сохранять эти таблицы в виде отдельных файлов.

Большинство этих инструментов для извлечения таблиц PDF(PDF table extractor tools) не могут помочь, если таблица PDF сканируется. В таком случае вы должны сначала сделать PDF доступным для поиска,(make the PDF searchable)  а затем попробовать эти варианты.

Извлечение таблиц из PDF-документов

В этом посте мы добавили 2 бесплатных онлайн-сервиса и 3 бесплатных программы для извлечения таблиц из PDF - файла:

  1. PDF в XLS
  2. PDFtoExcel.com
  3. Табула
  4. Многофункциональный инструмент ByteScout PDF
  5. Сейда PDF Рабочий стол.

1] PDF в XLS

Сервис PDF в XLS

PDF в XLS — один из лучших вариантов для извлечения таблиц из PDF . У него есть две особенности, которые делают его удобным. Вы можете получить таблицы из 20 PDF- документов одновременно. Кроме того, извлечение таблицы PDF происходит автоматически. (PDF)Он генерирует вывод в виде файла XLSX . Если PDF -файл содержит несколько таблиц, каждая таблица хранится отдельно на разных листах выходного файла XLSX .

Откройте домашнюю страницу(Open the homepage) этого сервиса. После этого перетащите файлы PDF или используйте кнопку ЗАГРУЗИТЬ ФАЙЛЫ . (UPLOAD FILES)Каждый загруженный PDF -файл автоматически конвертируется в файл формата XLSX. Когда выходные файлы будут готовы, вы можете загрузить их по одному или загрузить ZIP - файл, который будет содержать все выходные файлы.

2] PDFtoExcel.com

Извлечение таблиц из PDF-документов

Служба PDFtoExcel.com(PDFtoExcel.com) может одновременно извлекать таблицы из одного PDF -файла , но поддерживает несколько платформ для загрузки PDF -файлов . Он поддерживает платформы OneDrive , Desktop , Google Drive и Dropbox для загрузки PDF -файлов . Кроме того, процесс преобразования является автоматическим.

Домашняя страница этой службы находится здесь(here) . Там выберите вариант загрузки, чтобы добавить PDF . После этого он автоматически загружает и конвертирует PDF в файл Excel ( XLSX ). Когда вывод будет готов, вы получите ссылку для скачивания, чтобы сохранить выходной файл, содержащий таблицы (таблицы) в формате PDF .(PDF)

Примечание.(Note: ) Хотя в этом сервисе упоминается, что он также может извлекать таблицы из отсканированных PDF - файлов, у меня это не сработало. Вы все еще можете попробовать его для отсканированного PDF .

3] Табула

Программное обеспечение для извлечения PDF-файлов Tabula

Tabula — это мощное программное обеспечение, которое может автоматически обнаруживать таблицы, присутствующие в PDF -файле, а затем позволяет сохранять эти таблицы в виде файла TSV , JSON или CSV . Вы можете выбрать вариант сохранения отдельных CSV - файлов для каждой таблицы PDF или сохранения всех таблиц в одном CSV - файле.

Чтобы загрузить этот инструмент для извлечения таблиц PDF с открытым исходным кодом , (open-source)щелкните здесь(click here) . Для запуска и успешного использования также требуется Java .(requires Java)

Извлеките загруженный ZIP - файл и запустите файл tabula.exe . Он откроет страницу в вашем браузере по умолчанию. Если страница не открывается, то добавьте в браузере http://localhost:8080 и нажмите Enter .

Теперь вы увидите его интерфейс, в котором вы можете использовать опцию « Обзор(Browse) », чтобы добавить PDF -файл . После этого нажмите кнопку Импорт(Import) . Когда PDF -файл добавлен, вы можете увидеть PDF - страницы в его интерфейсе.

Используйте кнопку « Автоопределение таблиц(Autodetect Tables) », и она автоматически выделит все таблицы, присутствующие в этом PDF - файле. Вы также можете вручную выделить таблицу, выбрав конкретную таблицу. Если вы хотите, вы также можете удалить выбранные таблицы(remove selected tables) по вашему выбору.

Это поможет вам сохранить только те таблицы, которые вам нужны. Когда таблицы PDF выделены, нажмите кнопку « Просмотр и экспорт извлеченных данных(Preview & Export Extracted Data) » .

Наконец, используйте раскрывающееся меню в верхней части, чтобы выбрать выходной формат, и нажмите кнопку « Экспорт(Export) » . Это позволит сохранить таблицы PDF в файле выходного формата, выбранном вами.

4] Многофункциональный инструмент ByteScout PDF

ByteScout PDF Multitool - добавление PDF и обнаружение таблиц

Как следует из названия, это программное обеспечение поставляется с несколькими инструментами. В нем есть такие инструменты, как преобразование PDF в многостраничный TIFF(convert PDF to multipage TIFF) , поворот документа(rotate PDF document) PDF , запрет поиска в PDF(make PDF unsearchable) , оптимизация PDF(optimize PDF) , добавление изображения в PDF(add an image to PDF) и многое другое. Также есть функция обнаружения таблиц PDF , что довольно круто. (PDF)Преимущество этого инструмента в том, что вы также можете извлекать таблицы из отсканированного PDF(extract tables from scanned PDF) -файла . Вы можете обнаружить таблицы на нескольких страницах, а затем извлечь эти таблицы в виде файла формата CSV , XLS , XML , TXT или JSON . Перед извлечением он также позволяет вам установить диапазон страниц(page range)для извлечения таблиц только из указанных страниц.

Вы можете получить это программное обеспечение здесь(here) . Это бесплатно только для некоммерческого использования(free for non-commercial use) . После установки запустите это программное обеспечение и используйте опцию « Открыть документ(Open Document) », чтобы добавить PDF -файл . После этого щелкните инструмент « Определить таблицы(Detect tables) » , как показано на изображении выше. Этот инструмент находится в категории «Извлечение данных(Data Extraction) ».

Откроется окно, в котором вы можете установить условия для обнаружения таблиц. Например, вы можете установить минимальное количество столбцов, строк, минимальное количество разрывов строк между таблицами, установить режим обнаружения таблиц с рамкой или без рамки и т. д. Используйте параметры или оставьте настройки по умолчанию.

После этого нажмите кнопку «Определить следующую таблицу(Detect next table) » в этом поле. Он определит и выберет таблицу на текущей странице. Таким образом, вы можете перейти на другую страницу и обнаружить больше таблиц.

обнаруживать таблицы и сохранять таблицы PDF с выбранным выводом

Когда вы закончите, используйте кнопку Приступить к извлечению(Proceed to extraction) и выберите выходной формат. Наконец, вы можете использовать параметры для сохранения таблиц с текущей страницы или определить диапазон страниц и сохранить вывод.

Инструмент дает удовлетворительный результат. Но иногда он может обнаружить другое содержимое в PDF и не сможет извлечь таблицы с нескольких страниц. В этом случае вы должны использовать его для извлечения и сохранения таблиц по одной.

5] Сейда PDF для рабочего стола

Sejda PDF Desktop с конвертером pdf в excel

Sejda PDF Desktop также является многоцелевым программным обеспечением. Он может оптимизировать или сжимать PDF(compress PDF) -файлы , добавлять водяные знаки в PDF-файлы, снимать ограничения с PDF(remove restrictions from PDF) -файлов , редактировать PDF - документы и т. д. Однако его бесплатный план имеет ограничения. В бесплатном плане можно выполнять только 3 задания в день. Кроме того, ограничение размера PDF составляет (PDF)50 МБ(50 MB) или 10 страниц(10 pages) .

Вы можете использовать его инструмент преобразования PDF в Excel(PDF to Excel) для извлечения таблиц PDF . Он автоматически обнаруживает таблицы на страницах PDF и позволяет сохранять эти таблицы в форматах XLSX или CSV .

Его ссылка для скачивания находится здесь(here) . После установки используйте инструмент PDF в Excel из его основного интерфейса. После выбора этого инструмента используйте кнопку «Выбрать PDF-файлы ». (Choose PDF files)В бесплатный план можно добавить только один PDF -файл.(PDF)

Когда PDF -файл будет добавлен, он предоставит кнопки « Преобразовать PDF в CSV(Convert PDF to CSV) » и « Преобразовать PDF в Excel ». (Convert PDF to Excel)Используйте кнопку, а затем вы можете сохранить вывод в нужное место на вашем ПК.

преобразовать таблицу pdf в excel или csv

Его инструмент обнаружения таблиц PDF хорош. Вам не нужно вручную определять таблицы. Тем не менее, иногда он может включать другое текстовое содержимое в виде таблицы PDF и сохранять его в выходных данных. (PDF)Но в целом результаты хорошие.

Это все.

Вот несколько хороших инструментов для извлечения таблиц из PDF . Программное обеспечение Tabula(Tabula) более эффективно, чем другие инструменты. Тем не менее, вы можете попробовать все инструменты и проверить, какие из них помогают.

Аналогично читается:(Similar reads:)



About the author

Я выпускник Университета штата Юта по специальности компьютерная инженерия с более чем 10-летним опытом разработки программного обеспечения и разработки для Windows. Имею опыт работы с документами PDF и Office, а также создания гаджетов на платформах iOS и Android.



Related posts