Извлечение текста из файлов PDF и изображений
У вас есть PDF-документ(PDF document) , из которого вы хотите извлечь весь текст? Как насчет файлов изображений отсканированного документа, которые вы хотите преобразовать в редактируемый текст? Вот некоторые из наиболее распространенных проблем, с которыми я сталкивался на рабочем месте при работе с файлами.
В этой статье я расскажу о нескольких различных способах извлечения текста из PDF -файла или изображения. Результаты извлечения будут различаться в зависимости от типа и качества(type and quality) текста в PDF-файле или изображении(PDF or image) . Кроме того, ваши результаты будут различаться в зависимости от используемого вами инструмента, поэтому лучше всего попробовать как можно больше из приведенных ниже вариантов, чтобы получить наилучшие результаты.
Извлечь текст из изображения или PDF
Самый простой и быстрый способ начать — воспользоваться онлайн- сервисом для извлечения (extractor service)текста из PDF(PDF text) . Обычно они бесплатны и могут дать вам именно то, что вы ищете, без необходимости устанавливать что-либо на свой компьютер. Вот два, которые я использовал с очень хорошими и отличными результатами:
ИзвлечьPDF
ExtractPDF — это бесплатный инструмент для извлечения изображений, текста и шрифтов(text and fonts) из файла PDF(PDF file) . Единственным ограничением является то, что максимальный размер(max size) файла PDF(PDF file) составляет 10 МБ. Это немного мало; поэтому, если у вас есть файл большего размера, попробуйте другие методы, описанные ниже. Выберите файл и нажмите кнопку « Отправить файл(Send file) ». Результаты обычно очень быстрые, и вы должны увидеть предварительный просмотр текста при нажатии на вкладку «Текст»(Text tab) .
Также приятным дополнительным преимуществом является то, что он также извлекает изображения из файла PDF(PDF file) на тот случай, если они вам понадобятся! В целом, онлайн-инструмент работает отлично, но я столкнулся с парой документов в формате PDF(PDF docs) , которые дают мне забавный результат. Текст извлекается просто отлично, но по какой-то причине он будет иметь разрыв строки(line break) после каждого слова! Не большая проблема для короткого файла PDF(PDF file) , но, безусловно, проблема для файлов с большим количеством текста. Если это произойдет с вами, попробуйте следующий инструмент.
Онлайн-распознавание текста
Онлайн-распознавание текста(Online OCR) обычно работало для документов, которые не были должным образом преобразованы с помощью ExtractPDF , поэтому рекомендуется попробовать оба сервиса, чтобы увидеть, какой из них дает лучший результат. Online OCR также имеет несколько приятных функций, которые могут оказаться удобными для тех, у кого есть большой PDF-файл(PDF file) , которому нужно преобразовать текст только на нескольких страницах, а не на всем документе.
Первое, что вы хотите сделать, это создать бесплатную учетную запись. Это немного раздражает, но если вы не создадите бесплатную учетную запись, она только частично преобразует ваш PDF , а не весь документ. Кроме того, вместо того, чтобы загружать только документ размером 5 МБ(MB document) , вы можете загрузить до 100 МБ на файл с помощью учетной записи.
Сначала выберите язык, а затем выберите тип выходных форматов для преобразованного файла. У вас есть несколько вариантов, и вы можете выбрать более одного, если хотите. В разделе Многостраничный документ(Multipage document) вы можете выбрать Номера страниц(Page numbers) , а затем выбрать только те страницы, которые хотите преобразовать. Затем вы выбираете файл и нажимаете (file and click) Convert !
После преобразования вы попадете в раздел « Документы(Documents) » (если вы вошли в систему), где вы сможете увидеть, сколько свободных свободных страниц у вас осталось, и ссылки для загрузки преобразованных файлов. Похоже, у вас есть только 25 страниц бесплатно в день, поэтому, если вам нужно больше, вам придется либо немного подождать, либо купить больше страниц.
Online OCR отлично справился с преобразованием моих PDF - файлов, потому что смог сохранить фактическое расположение текста. В своем тесте я взял документ Word(Word doc) , в котором использовались маркеры, разные размеры шрифта и т. д., и преобразовал его в PDF . Затем я использовал Online OCR , чтобы преобразовать его обратно в формат Word,(Word format) и он был примерно на 95% таким же, как оригинал. Это довольно впечатляюще для меня.
Кроме того, если вы хотите преобразовать изображение в текст, Online OCR может сделать это так же легко, как извлечение текста из файлов PDF .
Бесплатное онлайн-распознавание текста
Раз уж мы заговорили об OCR изображения в текст , позвольте мне упомянуть еще один хороший веб-сайт, который действительно хорошо работает с изображениями. Бесплатное онлайн-распознавание текста(Free Online OCR) было очень хорошим и очень точным при извлечении текста из моих тестовых изображений. Я сделал пару фотографий со своего iPhone страниц из книг, брошюр и т. Д. И был удивлен тем, насколько хорошо он смог преобразовать текст.
Выберите файл и нажмите кнопку « Загрузить»(Upload button) . На следующем экране есть пара вариантов и предварительный просмотр изображения. Вы можете обрезать его, если не хотите распознавать его целиком. Затем просто нажмите кнопку OCR,(OCR button) и преобразованный текст появится под предварительным просмотром изображения(image preview) . У него также нет никаких ограничений, что очень приятно.
В дополнение к онлайн-сервисам есть два бесплатных конвертера PDF , которые я хочу упомянуть на тот случай, если вам нужно программное обеспечение, работающее локально на вашем компьютере, для выполнения преобразований. С онлайн-сервисами вам всегда потребуется подключение к Интернету(Internet connection) , а это возможно не для всех. Однако я заметил, что качество конвертации из бесплатных программ было значительно хуже, чем с веб-сайтов.
Экстрактор текста A-PDF
A-PDF Text Extractor — это бесплатное программное обеспечение, которое неплохо справляется с извлечением текста из PDF-файлов(PDF file) . После(Once) того, как вы загрузите и установите его, нажмите кнопку « Открыть(Open button) », чтобы выбрать файл PDF(PDF file) . Затем нажмите Извлечь текст(Extract text) , чтобы начать процесс.
Он попросит вас указать место для хранения выходного текстового файла,(text output file) а затем начнет извлечение. Вы также можете нажать кнопку « Параметры(Option) », которая позволяет выбрать только определенные страницы для извлечения и тип извлечения(extraction type) . Второй вариант интересен тем, что он извлекает текст в разных макетах, и стоит попробовать все три, чтобы увидеть, какой из них дает наилучший результат.
Пилот PDF2Text
PDF2Text Pilot отлично(PDF2Text Pilot) справляется с извлечением текста. У него нет никаких вариантов; вы просто добавляете файлы или папки, конвертируете и надеетесь(convert and hope) на лучшее. Он хорошо работал с некоторыми PDF(PDFs) -файлами , но с большинством из них возникало множество проблем.
Просто нажмите « Добавить файлы»,(Add Files) а затем нажмите « Преобразовать(Convert) » . После завершения преобразования нажмите « Обзор(Browse) » , чтобы открыть файл. Ваш пробег будет варьироваться с помощью этой программы, так что не ожидайте многого.
Кроме того, стоит отметить, что если вы работаете в корпоративной среде или можете получить копию Adobe Acrobat с работы, то вы действительно можете получить гораздо лучшие результаты. Acrobat , очевидно, не бесплатен, но у него есть возможность конвертировать PDF в формат Word , Excel и HTML(Excel and HTML format) . Он также лучше всего справляется с сохранением структуры исходного документа и преобразованием сложного текста.
Related posts
Как объединить или объединить несколько текстовых файлов
Лучшая бесплатная альтернатива программе просмотра PDF для Adobe Reader
Преобразование ПК с Windows в виртуальную машину с помощью Hyper-V
Как изменить цвет значка папки в Windows
Лучший бесплатный инструмент дефрагментации для Windows — это он сам
5 VR-приложений, которые не являются играми
Как записать, скопировать и сделать резервную копию CD или DVD
Как синхронизировать две папки в режиме реального времени в Windows
Best Free PDF Editor Online Tools, которые находятся на основе облаков
Как создавать, монтировать и записывать файлы образов ISO бесплатно
Сопоставление папки с буквой диска в Windows
8 безопасных сайтов для скачивания бесплатных программ для Windows
HoneyView Review: Free Fast Image Viewer Software для Windows 10
Как добавить Shadow на Text or Image в GIMP
Как определить музыку или песни по звуку
7 лучших приложений для открытия файлов JAR в Windows
Как обмениваться файлами между ПК, смартфонами и планшетами
Как закрепить Text and Image до Clipboard History в Windows 10
Основные бесплатные загрузки программного обеспечения для Windows
6 бесплатных приложений для записи дисков Blu-ray