Как извлечь выделенный текст из PDF в виде текстового файла?
Выделение текста в документе PDF удобно, чтобы отметить важные области, к которым вы сможете быстро получить доступ позже. Вы можете использовать Microsoft Edge для выделения PDF(Microsoft Edge to highlight PDF) или любого другого программного обеспечения, которое поставляется с функцией выделения PDF . Иногда вы, возможно, также чувствовали необходимость иметь только выделенный текст, чтобы иметь сводку PDF , содержащую весь основной текст. Если вы ищете способы сохранить только выделенный текст из PDF в виде файла TXT , этот пост может быть полезен.
Извлечь выделенный текст из PDF
Существует некоторое бесплатное программное обеспечение и служба для извлечения выделенного текста из файла PDF и сохранения его в виде текстового файла:
- Экстрактор выделения PDF
- Foxit Reader
- Sumnotes.net
- DyAnnotationExtractor.
Давайте проверим эти программы PDF Highlight Extractor один за другим.
1] Экстрактор выделения PDF
PDF Highlight Extractor — один из самых простых способов извлечь выделенный текст из PDF - файла. Этот инструмент для выделения текста PDF (PDF text highlight extractor)с открытым исходным кодом(open-source) имеет две особенности, которые привлекают внимание. Вы можете просмотреть выделенный текст(preview highlighted text) PDF в интерфейсе программы.
Вторая особенность заключается в том, что вы можете установить начальную или конечную страницу или диапазон страниц для извлечения текста(set start or end page or page range to extract the text) . Таким образом, вместо сканирования всего PDF -файла вы можете указать номера страниц, чтобы получить выделенный текст.
Еще одна полезная функция заключается в том, что у вас есть возможность сохранить текст как обычный текст(save text as plain text) или файл Excel(Excel file) .
В его интерфейсе добавьте свой PDF -файл, используя данную опцию, а затем нажмите кнопку « Извлечь(Extract) » . Снимите флажок « Все страницы(All Pages) », если вы хотите установить диапазон страниц или оставить все как есть. Как только текст будет получен, вы можете просмотреть его. Наконец, нажмите кнопку « Текст(Text) » или « Excel » , чтобы сохранить выделенный текст.
Вы можете скачать это программное обеспечение отсюда(here) . Java также необходима для использования этого программного обеспечения. Итак, установите Java (если это еще не сделано) и запустите это программное обеспечение для использования.
2] Фоксит Ридер
Foxit Reader — одна из лучших бесплатных программ для чтения PDF . Вы можете открывать несколько PDF - файлов на отдельных вкладках, выделять PDF -файлы , добавлять заметки, экспортировать комментарии(export comments) , добавлять подписи(add signatures) и многое другое. Среди огромного списка функций также есть извлечение выделенного текста из PDF . Лучшая часть этой функции заключается в том, что она также сохраняет номера страниц вместе с извлеченным текстом(saves page numbers along with the extracted text) .
Чтобы извлечь выделенный текст из PDF , откройте файл PDF в его интерфейсе и перейдите на вкладку « Комментарий ». (Comment)На этой вкладке выберите параметр « Экспорт(Export) », доступный в разделе «Управление комментариями(Manage Comments) ». Вы увидите опцию « Выделенный текст(Highlighted Text) ». Используйте эту опцию, и тогда вы сможете сохранить весь выделенный текст в виде текстового файла.
Вот(Here) ссылка для загрузки этого программного обеспечения. Во время установки вы должны выбрать выборочную установку(custom installation) , чтобы включить только необходимые компоненты этого программного обеспечения.
3] Sumnotes.net
Sumnotes.net — это бесплатный сервис, который позволяет комментировать PDF , а также извлекать выделенный текст. Весь выделенный текст виден отдельно на левой боковой панели. Используя эту боковую панель, вы также можете удалить выделенный текст, который вам не нужен,(remove highlighted text that you don’t need) а затем загрузить остальную часть выделенного текста.
Перед загрузкой выделенного текста вы также можете указать номера страниц и исключить(exclude) выделенный текст определенного цвета(highlighted text of specific color) .
У вас также есть возможность сохранить выделенный текст из PDF в виде файла Excel(save highlighted text from PDF as Excel) или Word . Итак, характеристики хорошие. Вы можете подписаться на бесплатный план, а затем извлекать 50 основных моментов(extract 50 highlights) или аннотаций за одну загрузку(per download) , чего в большинстве случаев достаточно.
Вот(Here) ссылка на его домашнюю страницу. Чтобы извлечь выделенный текст из PDF -файла , добавьте PDF -файл с ПК или Google Диска(Google Drive) . При загрузке PDF -файла аннотации и выделенный текст отображаются с левой стороны. Используйте параметр « Загрузить аннотации(Download Annotations) », а затем вы можете сохранить выделенный текст в файле формата TXT , XLSX или DOC .
4] DyAnnotationExtractor
Программное обеспечение DyAnnotationExtractor(DyAnnotationExtractor) может помочь вам извлечь выделенный текст и комментарии(comments) из документа PDF. Это программное обеспечение командной строки(command-line) , но использовать его очень просто. Всего одна команда извлечет текст, выделенный во входном PDF - файле.
Вы можете получить это программное обеспечение, используя эту ссылку(this link) . Загрузите(Download) его ZIP -файл, а затем распакуйте его. Чтобы упростить выполнение команды, вы также должны поместить PDF в ту же папку, в которую вы распаковали это программное обеспечение. После этого откройте окно командной строки(Command Prompt) в этой папке. Вы можете сделать это, набрав cmd в поле адреса этой папки, а затем нажав клавишу Enter .
Когда окно CMD открыто, добавьте BAT -файл этого программного обеспечения, команду ввода, включая путь к входному PDF , команду вывода и имя выходного файла вместе с расширением «.txt». Полная команда будет-
DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt
Выполните команду. Подождите(Wait) несколько секунд, и будет готов простой текстовый файл, содержащий весь выделенный текст и комментарии, извлеченные из этого PDF -файла . Выходной файл сохраняется в той же папке ввода.
Итак, вот некоторые параметры, которые вы можете использовать для извлечения выделенного текста из PDF , а затем сохранить результат в виде текстового файла. Надеюсь,(Hope) это поможет.
Related posts
Как скопировать текст из файла PDF
Как создать текстовый файл на Mac
Сохранение списка запущенных процессов в текстовый файл в Windows
Как зашифровать и расшифровать текстовый файл в Windows 10
Как конвертировать Plain Text на Musical Notation PDF в Windows 10
Что такое PPS file? Как конвертировать PPS на PDF в Windows 11/10?
Best Free PDF Editor Online Tools, которые находятся на основе облаков
Как уменьшить PDF File Size без Losing Quality
Поиск текста внутри нескольких PDF-файлов
Document Converter: Convert DOC, PDF, DOCX, RTF, TXT, HTML Файлы
Как Подписать PDF File на Windows
Free PDF Editor Online Tool для редактирования PDF файлов - PDF Yeah
Как сканировать несколько страниц в один файл PDF
Optimize, компресс и уменьшить PDF File size в Windows 10
Извлечение текста из файлов PDF и изображений
5 Way для извлечения Images из PDF File
Как искать Text or Contents Any File на Windows 10
Как комментировать PDF-файл с помощью Apple Pencil
Как уменьшить размер файла PDF
Как конвертировать Text в PDF с Drag and Drop в Windows 10