Как извлечь выделенный текст из PDF в виде текстового файла?

Выделение текста в документе PDF удобно, чтобы отметить важные области, к которым вы сможете быстро получить доступ позже. Вы можете использовать Microsoft Edge для выделения PDF(Microsoft Edge to highlight PDF)  или любого другого программного обеспечения, которое поставляется с функцией выделения PDF . Иногда вы, возможно, также чувствовали необходимость иметь только выделенный текст, чтобы иметь сводку PDF , содержащую весь основной текст. Если вы ищете способы сохранить только выделенный текст из PDF в виде файла TXT , этот пост может быть полезен.

Извлечь выделенный текст из PDF

Существует некоторое бесплатное программное обеспечение и служба для извлечения выделенного текста из файла PDF и сохранения его в виде текстового файла:

  • Экстрактор выделения PDF
  • Foxit Reader
  • Sumnotes.net
  • DyAnnotationExtractor.

Давайте проверим эти программы PDF Highlight Extractor один за другим.

1] Экстрактор выделения PDF

Программное обеспечение PDF Highlight Extractor

PDF Highlight Extractor — один из самых простых способов извлечь выделенный текст из PDF - файла. Этот инструмент для выделения текста PDF (PDF text highlight extractor)с открытым исходным кодом(open-source) имеет две особенности, которые привлекают внимание. Вы можете просмотреть выделенный текст(preview highlighted text) PDF в интерфейсе программы.

Вторая особенность заключается в том, что вы можете установить начальную или конечную страницу или диапазон страниц для извлечения текста(set start or end page or page range to extract the text) . Таким образом, вместо сканирования всего PDF -файла вы можете указать номера страниц, чтобы получить выделенный текст.

Еще одна полезная функция заключается в том, что у вас есть возможность сохранить текст как обычный текст(save text as plain text) или файл Excel(Excel file) .

В его интерфейсе добавьте свой PDF -файл, используя данную опцию, а затем нажмите кнопку « Извлечь(Extract) » . Снимите флажок « Все страницы(All Pages) », если вы хотите установить диапазон страниц или оставить все как есть. Как только текст будет получен, вы можете просмотреть его. Наконец, нажмите кнопку « Текст(Text) » или « Excel » , чтобы сохранить выделенный текст.

Вы можете скачать это программное обеспечение отсюда(here) . Java также необходима для использования этого программного обеспечения. Итак, установите Java (если это еще не сделано) и запустите это программное обеспечение для использования.

2] Фоксит Ридер

Извлечь выделенный текст из PDF

Foxit Reader — одна из лучших бесплатных программ для чтения PDF . Вы можете открывать несколько PDF - файлов на отдельных вкладках, выделять PDF -файлы , добавлять заметки, экспортировать комментарии(export comments) , добавлять подписи(add signatures) и многое другое. Среди огромного списка функций также есть извлечение выделенного текста из PDF . Лучшая часть этой функции заключается в том, что она также сохраняет номера страниц вместе с извлеченным текстом(saves page numbers along with the extracted text) .

Чтобы извлечь выделенный текст из PDF , откройте файл PDF в его интерфейсе и перейдите на вкладку « Комментарий ». (Comment)На этой вкладке выберите параметр « Экспорт(Export) », доступный в разделе «Управление комментариями(Manage Comments) ». Вы увидите опцию « Выделенный текст(Highlighted Text) ». Используйте эту опцию, и тогда вы сможете сохранить весь выделенный текст в виде текстового файла.

Вот(Here) ссылка для загрузки этого программного обеспечения. Во время установки вы должны выбрать выборочную установку(custom installation) , чтобы включить только необходимые компоненты этого программного обеспечения.

3] Sumnotes.net

Заметки

Sumnotes.net — это бесплатный сервис, который позволяет комментировать PDF , а также извлекать выделенный текст. Весь выделенный текст виден отдельно на левой боковой панели. Используя эту боковую панель, вы также можете удалить выделенный текст, который вам не нужен,(remove highlighted text that you don’t need) а затем загрузить остальную часть выделенного текста.

Перед загрузкой выделенного текста вы также можете указать номера страниц и исключить(exclude) выделенный текст определенного цвета(highlighted text of specific color) .

У вас также есть возможность сохранить выделенный текст из PDF в виде файла Excel(save highlighted text from PDF as Excel) или Word . Итак, характеристики хорошие. Вы можете подписаться на бесплатный план, а затем извлекать 50 основных моментов(extract 50 highlights) или аннотаций за одну загрузку(per download) , чего в большинстве случаев достаточно.

Вот(Here) ссылка на его домашнюю страницу. Чтобы извлечь выделенный текст из PDF -файла , добавьте PDF -файл с ПК или Google Диска(Google Drive) . При загрузке PDF -файла аннотации и выделенный текст отображаются с левой стороны. Используйте параметр « Загрузить аннотации(Download Annotations) », а затем вы можете сохранить выделенный текст в файле формата TXT , XLSX или DOC .

4] DyAnnotationExtractor

Программное обеспечение командной строки DyAnnotationExtractor

Программное обеспечение DyAnnotationExtractor(DyAnnotationExtractor) может помочь вам извлечь выделенный текст и комментарии(comments) из документа PDF. Это программное обеспечение командной строки(command-line) , но использовать его очень просто. Всего одна команда извлечет текст, выделенный во входном PDF - файле.

Вы можете получить это программное обеспечение, используя эту ссылку(this link) . Загрузите(Download) его ZIP -файл, а затем распакуйте его. Чтобы упростить выполнение команды, вы также должны поместить PDF в ту же папку, в которую вы распаковали это программное обеспечение. После этого откройте окно командной строки(Command Prompt) в этой папке. Вы можете сделать это, набрав cmd в поле адреса этой папки, а затем нажав клавишу Enter .

Когда окно CMD открыто, добавьте BAT -файл этого программного обеспечения, команду ввода, включая путь к входному PDF , команду вывода и имя выходного файла вместе с расширением «.txt». Полная команда будет-

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

Выполните команду. Подождите(Wait) несколько секунд, и будет готов простой текстовый файл, содержащий весь выделенный текст и комментарии, извлеченные из этого PDF -файла . Выходной файл сохраняется в той же папке ввода.

Итак, вот некоторые параметры, которые вы можете использовать для извлечения выделенного текста из PDF , а затем сохранить результат в виде текстового файла. Надеюсь,(Hope) это поможет.



About the author

Я выпускник Университета штата Юта по специальности компьютерная инженерия с более чем 10-летним опытом разработки программного обеспечения и разработки для Windows. Имею опыт работы с документами PDF и Office, а также создания гаджетов на платформах iOS и Android.



Related posts