Извлечение текста из файлов PDF и изображений

У вас есть PDF-документ(PDF document) , из которого вы хотите извлечь весь текст? Как насчет файлов изображений отсканированного документа, которые вы хотите преобразовать в редактируемый текст? Вот некоторые из наиболее распространенных проблем, с которыми я сталкивался на рабочем месте при работе с файлами.

В этой статье я расскажу о нескольких различных способах извлечения текста из PDF -файла или изображения. Результаты извлечения будут различаться в зависимости от типа и качества(type and quality) текста в PDF-файле или изображении(PDF or image) . Кроме того, ваши результаты будут различаться в зависимости от используемого вами инструмента, поэтому лучше всего попробовать как можно больше из приведенных ниже вариантов, чтобы получить наилучшие результаты.

Извлечь текст из изображения или PDF

Самый простой и быстрый способ начать — воспользоваться онлайн- сервисом для извлечения (extractor service)текста из PDF(PDF text) . Обычно они бесплатны и могут дать вам именно то, что вы ищете, без необходимости устанавливать что-либо на свой компьютер. Вот два, которые я использовал с очень хорошими и отличными результатами:

ИзвлечьPDF

извлечьpdf

ExtractPDF — это бесплатный инструмент для извлечения изображений, текста и шрифтов(text and fonts) из файла PDF(PDF file) . Единственным ограничением является то, что максимальный размер(max size) файла PDF(PDF file) составляет 10 МБ. Это немного мало; поэтому, если у вас есть файл большего размера, попробуйте другие методы, описанные ниже. Выберите файл и нажмите кнопку « Отправить файл(Send file) ». Результаты обычно очень быстрые, и вы должны увидеть предварительный просмотр текста при нажатии на вкладку «Текст»(Text tab) .

скачать текст

Также приятным дополнительным преимуществом является то, что он также извлекает изображения из файла PDF(PDF file) на тот случай, если они вам понадобятся! В целом, онлайн-инструмент работает отлично, но я столкнулся с парой документов в формате PDF(PDF docs) , которые дают мне забавный результат. Текст извлекается просто отлично, но по какой-то причине он будет иметь разрыв строки(line break) после каждого слова! Не большая проблема для короткого файла PDF(PDF file) , но, безусловно, проблема для файлов с большим количеством текста. Если это произойдет с вами, попробуйте следующий инструмент.

Онлайн-распознавание текста

Онлайн-распознавание текста(Online OCR) обычно работало для документов, которые не были должным образом преобразованы с помощью ExtractPDF , поэтому рекомендуется попробовать оба сервиса, чтобы увидеть, какой из них дает лучший результат. Online OCR также имеет несколько приятных функций, которые могут оказаться удобными для тех, у кого есть большой PDF-файл(PDF file) , которому нужно преобразовать текст только на нескольких страницах, а не на всем документе.

Первое, что вы хотите сделать, это создать бесплатную учетную запись. Это немного раздражает, но если вы не создадите бесплатную учетную запись, она только частично преобразует ваш PDF , а не весь документ. Кроме того, вместо того, чтобы загружать только документ размером 5 МБ(MB document) , вы можете загрузить до 100 МБ на файл с помощью учетной записи.

онлайн распознавание

Сначала выберите язык, а затем выберите тип выходных форматов для преобразованного файла. У вас есть несколько вариантов, и вы можете выбрать более одного, если хотите. В разделе Многостраничный документ(Multipage document) вы можете выбрать Номера страниц(Page numbers) , а затем выбрать только те страницы, которые хотите преобразовать. Затем вы выбираете файл и нажимаете (file and click) Convert !

онлайн-документы распознавания

После преобразования вы попадете в раздел « Документы(Documents) » (если вы вошли в систему), где вы сможете увидеть, сколько свободных свободных страниц у вас осталось, и ссылки для загрузки преобразованных файлов. Похоже, у вас есть только 25 страниц бесплатно в день, поэтому, если вам нужно больше, вам придется либо немного подождать, либо купить больше страниц.

Online OCR отлично справился с преобразованием моих PDF - файлов, потому что смог сохранить фактическое расположение текста. В своем тесте я взял документ Word(Word doc) , в котором использовались маркеры, разные размеры шрифта и т. д., и преобразовал его в PDF . Затем я использовал Online OCR , чтобы преобразовать его обратно в формат Word,(Word format) и он был примерно на 95% таким же, как оригинал. Это довольно впечатляюще для меня.

Кроме того, если вы хотите преобразовать изображение в текст, Online OCR может сделать это так же легко, как извлечение текста из файлов PDF .

Бесплатное онлайн-распознавание текста

Раз уж мы заговорили об OCR изображения в текст , позвольте мне упомянуть еще один хороший веб-сайт, который действительно хорошо работает с изображениями. Бесплатное онлайн-распознавание текста(Free Online OCR) было очень хорошим и очень точным при извлечении текста из моих тестовых изображений. Я сделал пару фотографий со своего iPhone страниц из книг, брошюр и т. Д. И был удивлен тем, насколько хорошо он смог преобразовать текст.

бесплатно онлайн распознавание

Выберите файл и нажмите кнопку « Загрузить»(Upload button) . На следующем экране есть пара вариантов и предварительный просмотр изображения. Вы можете обрезать его, если не хотите распознавать его целиком. Затем просто нажмите кнопку OCR,(OCR button) и преобразованный текст появится под предварительным просмотром изображения(image preview) . У него также нет никаких ограничений, что очень приятно.

В дополнение к онлайн-сервисам есть два бесплатных конвертера PDF , которые я хочу упомянуть на тот случай, если вам нужно программное обеспечение, работающее локально на вашем компьютере, для выполнения преобразований. С онлайн-сервисами вам всегда потребуется подключение к Интернету(Internet connection) , а это возможно не для всех. Однако я заметил, что качество конвертации из бесплатных программ было значительно хуже, чем с веб-сайтов.

Экстрактор текста A-PDF

A-PDF Text Extractor — это бесплатное программное обеспечение, которое неплохо справляется с извлечением текста из PDF-файлов(PDF file) . После(Once) того, как вы загрузите и установите его, нажмите кнопку « Открыть(Open button) », чтобы выбрать файл PDF(PDF file) . Затем нажмите Извлечь текст(Extract text) , чтобы начать процесс.

экстрактор apdf

Он попросит вас указать место для хранения выходного текстового файла,(text output file) а затем начнет извлечение. Вы также можете нажать кнопку « Параметры(Option) », которая позволяет выбрать только определенные страницы для извлечения и тип извлечения(extraction type) . Второй вариант интересен тем, что он извлекает текст в разных макетах, и стоит попробовать все три, чтобы увидеть, какой из них дает наилучший результат.

Пилот PDF2Text

PDF2Text Pilot отлично(PDF2Text Pilot)  справляется с извлечением текста. У него нет никаких вариантов; вы просто добавляете файлы или папки, конвертируете и надеетесь(convert and hope) на лучшее. Он хорошо работал с некоторыми PDF(PDFs) -файлами , но с большинством из них возникало множество проблем.

pdf2текст

Просто нажмите « Добавить файлы»,(Add Files) а затем нажмите « Преобразовать(Convert) » . После завершения преобразования нажмите « Обзор(Browse) » , чтобы открыть файл. Ваш пробег будет варьироваться с помощью этой программы, так что не ожидайте многого.

Кроме того, стоит отметить, что если вы работаете в корпоративной среде или можете получить копию Adobe Acrobat с работы, то вы действительно можете получить гораздо лучшие результаты. Acrobat , очевидно, не бесплатен, но у него есть возможность конвертировать PDF в формат Word , Excel и HTML(Excel and HTML format) . Он также лучше всего справляется с сохранением структуры исходного документа и преобразованием сложного текста.



About the author

Я выпускник Университета штата Юта по специальности компьютерная инженерия с более чем 10-летним опытом разработки программного обеспечения и разработки для Windows. Имею опыт работы с документами PDF и Office, а также создания гаджетов на платформах iOS и Android.



Related posts