5 протестированных и проверенных бесплатных онлайн-сервисов OCR

У вас есть PDF-документ(PDF document) или изображение, которое вы хотели бы преобразовать в текст? Недавно кто-то прислал мне по почте документ, который мне нужно было отредактировать и отправить обратно с исправлениями. Этот человек не смог найти цифровую копию, поэтому мне было поручено преобразовать весь этот текст в цифровой формат.

Я никоим образом не собирался часами вводить все обратно, поэтому в итоге я сделал красивую высококачественную фотографию документа, а затем пролистал кучу онлайн- сервисов OCR , чтобы увидеть, какой из них даст мне лучший результат. Результаты.

В этой статье я расскажу о нескольких моих любимых сайтах для OCR , которые бесплатны. Стоит отметить, что большинство этих сайтов предоставляют базовую бесплатную услугу, а затем имеют платные опции, если вам нужны дополнительные функции, такие как большие изображения, многостраничные документы в формате PDF(PDF) , разные языки ввода и т. д.

Также хорошо знать заранее, что большинство этих сервисов не смогут соответствовать форматированию исходного документа. Они в основном для извлечения текста и все. Если вам нужно, чтобы все было в определенном макете или формате(layout or format) , вам придется сделать это вручную, как только вы получите весь текст из OCR .

Кроме того, наилучшие результаты для получения текста дадут документы с разрешением от 200 до 400 DPI(DPI resolution) . Если у вас изображение с низким DPI(DPI image) , результаты будут не такими хорошими.

Наконец, я протестировал множество сайтов, которые просто не работали(t work) . Если вы воспользуетесь бесплатным онлайн- распознаванием текста(OCR) в Google , вы увидите множество сайтов, но некоторые из них в первой десятке результатов даже не завершили преобразование. У некоторых время ожидания истекло, другие выдавали ошибки, а некоторые просто зависали на странице «конвертации», так что я даже не удосужился упомянуть эти сайты.

Для каждого сайта я протестировал два документа, чтобы увидеть, насколько хорошими будут результаты. Для своих тестов я просто использовал свой iPhone 5S , чтобы сфотографировать оба документа, а затем загрузил их непосредственно на веб-сайты для конвертации.

Если вы хотите увидеть, как выглядели изображения, которые я использовал для своего теста, я прикрепил их сюда: Test1 и Test2 . Обратите внимание, что это не полноразмерные версии изображений, снятых с телефона. Я использовал изображение в полном разрешении(resolution image) при загрузке на сайты.

OnlineOCR

OnlineOCR.net — чистый и простой сайт, который показал очень хорошие результаты в моем тесте. Главное, что мне в нем нравится, это то, что на нем нет кучи рекламы повсюду, как это обычно бывает с такими нишевыми сервисными(niche service) сайтами.

бесплатно онлайн распознавание

Для начала выберите файл и подождите, пока(file and wait till) он завершит загрузку. Максимальный размер загрузки для этого сайта составляет 100 МБ. Если вы зарегистрируете бесплатную учетную запись, вы получите несколько дополнительных функций, таких как больший размер загрузки, многостраничные PDF(PDFs) -файлы , различные языки ввода, больше конверсий в час и т. д.

Затем выберите язык ввода,(input language) а затем выберите формат вывода(output format) . Вы можете выбрать Word , Excel или обычный текст(Plain Text) . Нажмите кнопку(Click) « Преобразовать(Convert) », и вы увидите текст, отображаемый внизу в поле вместе со ссылкой для скачивания(download link) .

вывод распознавания

Если вам нужен только текст, просто скопируйте и вставьте(copy and paste) его из поля. Тем не менее, я предлагаю вам скачать документ Word(Word document) , потому что он на удивление отлично сохраняет макет исходного документа.

Например, когда я открыл документ Word(Word document) для своего второго теста, я был удивлен, обнаружив, что документ содержит таблицу с тремя столбцами, как на изображении.

вывод онлайн-распознавания

Из всех сайтов этот оказался лучшим. На него стоит зарегистрироваться, если вам нужно много конверсий.

Для полноты картины я также приведу ссылки на выходные файлы, созданные каждой службой, чтобы вы могли сами увидеть результаты. Вот результаты OnlineOCR : Test1 Doc и Test2 Doc(Test1 Doc and Test2 Doc) .

Обратите внимание, что при открытии этих документов Word на вашем компьютере вы получите сообщение в Word о том, что это из Интернета и редактирование(Internet and editing) отключено. Это совершенно нормально, потому что Word не(Word doesn) доверяет документам из Интернета(Internet) , и вам действительно не нужно разрешать редактирование, если вы хотите просто просмотреть документ.

i2OCR

Еще одним сайтом, который дал довольно хорошие результаты, был i2OCR . Процесс очень похож: выберите язык, файл и нажмите « Извлечь текст(Extract Text) » .

i2ocr

Вам придется подождать минуту или две здесь, потому что этот сайт занимает немного больше времени. Кроме того, на шаге 2(Step 2) убедитесь, что ваше изображение отображается правой стороной вверх в предварительном просмотре, иначе вы получите кучу тарабарщины на выходе. По какой-то причине изображения с моего iPhone отображались на моем компьютере в портретном режиме(portrait mode) , но когда я загружал их на этот сайт, они были в альбомной ориентации.

вывод i2ocr

Мне пришлось вручную открыть изображение в приложении для редактирования фотографий, повернуть его на 90 градусов, затем повернуть обратно в портретное положение и снова сохранить. После(Once) завершения прокрутите вниз, и он покажет вам предварительный просмотр текста вместе с кнопкой загрузки(download button) .

Этот сайт неплохо справился с результатами первого теста, но не так хорошо справился со вторым тестом, в котором использовалось расположение столбцов(column layout) . Вот результаты от i2OCR: Test1 Doc и Test2 Doc(Test1 Doc and Test2 Doc) .

FreeOCR

Free-OCR.com возьмет ваши изображения и преобразует их в обычный текст(plain text) . У него нет возможности экспортировать в формат Word(Word format) . Выберите файл, выберите язык и нажмите « Пуск(Start) » .

Сайт быстрый, и вы получите результат довольно быстро. Просто нажмите(Just click) на ссылку, чтобы загрузить текстовый файл(text file) на свой компьютер.

freeocr

Как и в случае с NewOCR , упомянутым ниже, на этом сайте все буквы Т в документе написаны с большой буквы. Я понятия не имею, почему это было сделано, но по какой-то странной причине этот сайт и NewOCR(site and NewOCR) сделали это. Изменить его несложно, но это утомительный процесс, который вам действительно не нужно делать.

Вот результаты FreeOCR : Test1 Doc и Test2 Doc(Test1 Doc and Test2 Doc) .

ABBYY FineReader онлайн

Чтобы использовать FineReader Online , вам необходимо зарегистрировать учетную запись, которая дает вам 15-дневную бесплатную пробную версию для распознавания(OCR) до 10 страниц бесплатно. Если вам нужно сделать разовое распознавание(OCR) только для пары страниц, то вы можете воспользоваться этой услугой. Убедитесь(Make) , что вы щелкнули ссылку (verify link)подтверждения в электронном письме(confirmation email) с подтверждением после регистрации.

FineReader онлайн

Нажмите « Распознать(Recognize) » вверху, а затем нажмите « Загрузить(Upload) » , чтобы выбрать файл. Выберите свой язык, выходной формат, а затем нажмите « Распознать(Recognize) » внизу. У этого сайта чистый интерфейс и нет рекламы.

В моих тестах этот сайт смог получить текст из первого тестового документа(test document) , но он был просто огромным, когда я открыл документ Word(Word doc) , поэтому в итоге я сделал это снова и выбрал обычный текст(Plain Text) в качестве выходного формата(output format) .

Во втором тесте со столбцами документ Word(Word document) был пуст, и я даже не смог найти текст. Не уверен, что там произошло, но, похоже, он не может обрабатывать ничего, кроме простых абзацев. Вот результаты FineReader : Test1 Doc и Test2 Doc.

НовыйOCR

Следующий сайт, NewOCR.com , был в порядке, но далеко не так хорош, как первый сайт. Во-первых, у него есть реклама, но, к счастью, не тонна. Сначала вы выбираете файл, а затем нажимаете кнопку « Предварительный просмотр(Preview) ».

загрузить изображение

Затем вы можете повернуть изображение и настроить область, в которой вы хотите сканировать текст. Это очень похоже на то, как процесс сканирования(scanning process) работает на компьютере с подключенным сканером.

распознавание изображений

Если в документе несколько столбцов, вы можете нажать кнопку Анализ макета страницы( Page layout analysis) , и он попытается разделить текст на столбцы. Нажмите (Click)кнопку OCR(OCR button) , подождите несколько секунд, пока она завершится, а затем прокрутите вниз, когда страница обновится.

В первом тесте он получил весь текст правильно, но по какой-то причине в документе каждая буква T была написана с большой буквы! Понятия не имею, зачем это было сделано, но это произошло. Во втором тесте с включенным анализом страницы(page analysis) он получил большую часть текста, но макет был полностью отключен.

Вот результаты NewOCR : Test1 Doc и Test2 Doc.

Заключение

Как видите, бесплатное использование, к сожалению, в большинстве случаев не дает хороших результатов. Первый упомянутый сайт на сегодняшний день является лучшим, потому что он не только отлично распознал весь текст, но и сохранил формат исходного документа.

Однако, если вам просто нужен текст, большинство веб-сайтов, указанных выше, смогут сделать это за вас. Если у вас есть какие-либо вопросы, не стесняйтесь комментировать. Наслаждаться!



About the author

Я инженер-программист с более чем двухлетним опытом работы с мобильными и настольными приложениями. У меня есть опыт работы с обновлениями Windows, службами и Gmail. Мои навыки делают меня идеальным кандидатом для таких задач, как разработка приложений для Windows или поддержка почтовых клиентов.



Related posts