Как извлечь таблицы из документов PDF
Эта статья покажет вам, как извлекать таблицы из PDF-документов(extract tables from PDF documents) . У вас может быть много файлов PDF , содержащих несколько таблиц, которые вы хотите использовать по отдельности. Копирование(Copying) и вставка этих таблиц не является хорошим вариантом, так как это может не дать ожидаемого результата, поэтому вам нужны другие простые параметры, которые могут извлекать таблицы из файла PDF и сохранять эти таблицы в виде отдельных файлов.
Большинство этих инструментов для извлечения таблиц PDF(PDF table extractor tools) не могут помочь, если таблица PDF сканируется. В таком случае вы должны сначала сделать PDF доступным для поиска,(make the PDF searchable) а затем попробовать эти варианты.
Извлечение таблиц из PDF-документов
В этом посте мы добавили 2 бесплатных онлайн-сервиса и 3 бесплатных программы для извлечения таблиц из PDF - файла:
- PDF в XLS
- PDFtoExcel.com
- Табула
- Многофункциональный инструмент ByteScout PDF
- Сейда PDF Рабочий стол.
1] PDF в XLS
PDF в XLS — один из лучших вариантов для извлечения таблиц из PDF . У него есть две особенности, которые делают его удобным. Вы можете получить таблицы из 20 PDF- документов одновременно. Кроме того, извлечение таблицы PDF происходит автоматически. (PDF)Он генерирует вывод в виде файла XLSX . Если PDF -файл содержит несколько таблиц, каждая таблица хранится отдельно на разных листах выходного файла XLSX .
Откройте домашнюю страницу(Open the homepage) этого сервиса. После этого перетащите файлы PDF или используйте кнопку ЗАГРУЗИТЬ ФАЙЛЫ . (UPLOAD FILES)Каждый загруженный PDF -файл автоматически конвертируется в файл формата XLSX. Когда выходные файлы будут готовы, вы можете загрузить их по одному или загрузить ZIP - файл, который будет содержать все выходные файлы.
2] PDFtoExcel.com
Служба PDFtoExcel.com(PDFtoExcel.com) может одновременно извлекать таблицы из одного PDF -файла , но поддерживает несколько платформ для загрузки PDF -файлов . Он поддерживает платформы OneDrive , Desktop , Google Drive и Dropbox для загрузки PDF -файлов . Кроме того, процесс преобразования является автоматическим.
Домашняя страница этой службы находится здесь(here) . Там выберите вариант загрузки, чтобы добавить PDF . После этого он автоматически загружает и конвертирует PDF в файл Excel ( XLSX ). Когда вывод будет готов, вы получите ссылку для скачивания, чтобы сохранить выходной файл, содержащий таблицы (таблицы) в формате PDF .(PDF)
Примечание.(Note: ) Хотя в этом сервисе упоминается, что он также может извлекать таблицы из отсканированных PDF - файлов, у меня это не сработало. Вы все еще можете попробовать его для отсканированного PDF .
3] Табула
Tabula — это мощное программное обеспечение, которое может автоматически обнаруживать таблицы, присутствующие в PDF -файле, а затем позволяет сохранять эти таблицы в виде файла TSV , JSON или CSV . Вы можете выбрать вариант сохранения отдельных CSV - файлов для каждой таблицы PDF или сохранения всех таблиц в одном CSV - файле.
Чтобы загрузить этот инструмент для извлечения таблиц PDF с открытым исходным кодом , (open-source)щелкните здесь(click here) . Для запуска и успешного использования также требуется Java .(requires Java)
Извлеките загруженный ZIP - файл и запустите файл tabula.exe . Он откроет страницу в вашем браузере по умолчанию. Если страница не открывается, то добавьте в браузере http://localhost:8080 и нажмите Enter .
Теперь вы увидите его интерфейс, в котором вы можете использовать опцию « Обзор(Browse) », чтобы добавить PDF -файл . После этого нажмите кнопку Импорт(Import) . Когда PDF -файл добавлен, вы можете увидеть PDF - страницы в его интерфейсе.
Используйте кнопку « Автоопределение таблиц(Autodetect Tables) », и она автоматически выделит все таблицы, присутствующие в этом PDF - файле. Вы также можете вручную выделить таблицу, выбрав конкретную таблицу. Если вы хотите, вы также можете удалить выбранные таблицы(remove selected tables) по вашему выбору.
Это поможет вам сохранить только те таблицы, которые вам нужны. Когда таблицы PDF выделены, нажмите кнопку « Просмотр и экспорт извлеченных данных(Preview & Export Extracted Data) » .
Наконец, используйте раскрывающееся меню в верхней части, чтобы выбрать выходной формат, и нажмите кнопку « Экспорт(Export) » . Это позволит сохранить таблицы PDF в файле выходного формата, выбранном вами.
4] Многофункциональный инструмент ByteScout PDF
Как следует из названия, это программное обеспечение поставляется с несколькими инструментами. В нем есть такие инструменты, как преобразование PDF в многостраничный TIFF(convert PDF to multipage TIFF) , поворот документа(rotate PDF document) PDF , запрет поиска в PDF(make PDF unsearchable) , оптимизация PDF(optimize PDF) , добавление изображения в PDF(add an image to PDF) и многое другое. Также есть функция обнаружения таблиц PDF , что довольно круто. (PDF)Преимущество этого инструмента в том, что вы также можете извлекать таблицы из отсканированного PDF(extract tables from scanned PDF) -файла . Вы можете обнаружить таблицы на нескольких страницах, а затем извлечь эти таблицы в виде файла формата CSV , XLS , XML , TXT или JSON . Перед извлечением он также позволяет вам установить диапазон страниц(page range)для извлечения таблиц только из указанных страниц.
Вы можете получить это программное обеспечение здесь(here) . Это бесплатно только для некоммерческого использования(free for non-commercial use) . После установки запустите это программное обеспечение и используйте опцию « Открыть документ(Open Document) », чтобы добавить PDF -файл . После этого щелкните инструмент « Определить таблицы(Detect tables) » , как показано на изображении выше. Этот инструмент находится в категории «Извлечение данных(Data Extraction) ».
Откроется окно, в котором вы можете установить условия для обнаружения таблиц. Например, вы можете установить минимальное количество столбцов, строк, минимальное количество разрывов строк между таблицами, установить режим обнаружения таблиц с рамкой или без рамки и т. д. Используйте параметры или оставьте настройки по умолчанию.
После этого нажмите кнопку «Определить следующую таблицу(Detect next table) » в этом поле. Он определит и выберет таблицу на текущей странице. Таким образом, вы можете перейти на другую страницу и обнаружить больше таблиц.
Когда вы закончите, используйте кнопку Приступить к извлечению(Proceed to extraction) и выберите выходной формат. Наконец, вы можете использовать параметры для сохранения таблиц с текущей страницы или определить диапазон страниц и сохранить вывод.
Инструмент дает удовлетворительный результат. Но иногда он может обнаружить другое содержимое в PDF и не сможет извлечь таблицы с нескольких страниц. В этом случае вы должны использовать его для извлечения и сохранения таблиц по одной.
5] Сейда PDF для рабочего стола
Sejda PDF Desktop также является многоцелевым программным обеспечением. Он может оптимизировать или сжимать PDF(compress PDF) -файлы , добавлять водяные знаки в PDF-файлы, снимать ограничения с PDF(remove restrictions from PDF) -файлов , редактировать PDF - документы и т. д. Однако его бесплатный план имеет ограничения. В бесплатном плане можно выполнять только 3 задания в день. Кроме того, ограничение размера PDF составляет (PDF)50 МБ(50 MB) или 10 страниц(10 pages) .
Вы можете использовать его инструмент преобразования PDF в Excel(PDF to Excel) для извлечения таблиц PDF . Он автоматически обнаруживает таблицы на страницах PDF и позволяет сохранять эти таблицы в форматах XLSX или CSV .
Его ссылка для скачивания находится здесь(here) . После установки используйте инструмент PDF в Excel из его основного интерфейса. После выбора этого инструмента используйте кнопку «Выбрать PDF-файлы ». (Choose PDF files)В бесплатный план можно добавить только один PDF -файл.(PDF)
Когда PDF -файл будет добавлен, он предоставит кнопки « Преобразовать PDF в CSV(Convert PDF to CSV) » и « Преобразовать PDF в Excel ». (Convert PDF to Excel)Используйте кнопку, а затем вы можете сохранить вывод в нужное место на вашем ПК.
Его инструмент обнаружения таблиц PDF хорош. Вам не нужно вручную определять таблицы. Тем не менее, иногда он может включать другое текстовое содержимое в виде таблицы PDF и сохранять его в выходных данных. (PDF)Но в целом результаты хорошие.
Это все.
Вот несколько хороших инструментов для извлечения таблиц из PDF . Программное обеспечение Tabula(Tabula) более эффективно, чем другие инструменты. Тем не менее, вы можете попробовать все инструменты и проверить, какие из них помогают.
Аналогично читается:(Similar reads:)
- Извлечь вложения из PDF(Extract attachments from PDF)
- Извлечение выделенного текста из PDF(Extract highlighted text from PDF) .
Related posts
Document Converter: Convert DOC, PDF, DOCX, RTF, TXT, HTML Файлы
Что такое PPS file? Как конвертировать PPS на PDF в Windows 11/10?
PDF text исчезает при редактировании или сохранении файла в Windows 10
Best Free PDF Editor Online Tools, которые находятся на основе облаков
Free PDF Editor Online Tool для редактирования PDF файлов - PDF Yeah
Как конвертировать Documents в PDF с Google Docs с помощью браузера
Convert PDF до PPT (PowerPoint) Используя эти бесплатные software & online tools
Как обрезать PDF Pages в Windows 11, используя онлайн-инструмент или бесплатное программное обеспечение
Convert JPG file до PDF Online Free
7-PDF Website Converter: Convert Web Pages в PDF
Best Free PDF Stamp Creator software для Windows 10
Compress PDF Software: Compress PDF Файлы с использованием инструментов PDF Reducer online
Как сохранить веб-страницы как PDF в Chrome or Firefox
PDFTK Builder - это бесплатное программное обеспечение для модификации и разделения файлов PDF
Как конвертировать PDF на MOBI на Windows 10
Adobe Reader не работает в Windows 10
Как сэкономить Email как PDF в Gmail and Outlook
PDF24 Creator - бесплатный PDF Creator для создания, конвертации, объединения файлов PDF
Optimize, компресс и уменьшить PDF File size в Windows 10
Как конвертировать Excel file на PDF online, используя Google Drive