Главная » Программы » Офисные приложения » Как распознать текст со сканера

Как распознать текст со сканера

Распознать сканированый текст Fine Reader

Покажу как это сделать быстро и качественно на примере программы Abbyy FineReader версии 8.0. Принципы, изложенные здесь, можно с успехом применить и в любой другой программе распознавания текста, и в любой другой версии программы FineReader. FineReader на пост-советском пространстве – самая распространённая и успешная программа для этой задачи.

Итак, для того чтобы получить отличный результат нам нужно качественно сосканировать оригинал. Легче всего этого достичь с листов формата А4, распечатанных на принтере, труднее с книг, журналов, газет. Качество сканирования – основа, от которой будет зависеть дальнейший успех работы.

Несколько слов об автоматизации процессов распознавания. Хотя от версии к версии авторы программы FineReader улучшают алгоритмы автоматического распознавания сложных макетов (Scan&Read – когда достаточно запустить программу и нажать одну кнопку, а остальное программа сделает за Вас сама, и Вам остаётся лишь насладиться результатами процесса), эти алгоритмы срабатывают не всегда корректно. Искусственный интеллект ещё не скоро заменит человеческую смекалку и здравый смысл. Причиной чего и послужило написание этой статьи.

Сканирование текста

Запускаем программу Abbyy FineReader, нажимаем кнопочку «Сканировать», ложим наш оригинал в сканер и делаем пробное сканирование. Для оптимальной скорости и качества сканирования в драйвере сканера достаточно выставить режим сканирования «Чёрно-белое» и разрешение 300 точек на дюйм.

Если мы используем для сканирования twain-драйвер Mustek точно так же выбираем режим сканирования «Чёрно-белое» (Black-white) и выставляем разрешение 300 dpi. При необходимости понижаем уровень шума регулирование яркости-контрастности либо уровнями

Мастер работы со сканером или цифровой камерой

Если мы используем для сканирования «Мастер работы со сканером или цифровой камерой» — выбираем «Чёрно-белое изображение», а в Настройках — «разрешение» , в свойствах «Мастера работы со сканером или цифровой камерой» выставляем разрешение и регулируем яркость

twain-драйвер Epson в FineReader

Если у нас сканер Epson, либо какой-то другой, в twain-драйвере точно так же ищем пункты «Тип изображения» («Image Type») — чёрно-белое (black-white, b/w), Разрешение («Resolution») — выставляем 300dpi и при необходимости регулируем «Яркость-контрастность», либо «Уровни», либо «Светлые и тёмные тона»

Режимы «Оттенки серого» и «Цветное изображение» тоже подходят, но от этого увеличивается время сканирования и возможно, пострадает качество распознавания текста (Серый или цветной фон, особенно если он неоднородный может существенно ухудшить качество распознавания текста). В идеале нам нужно добиться чтобы на белом фоне были чёрные буквы и больше никаких посторонних объектов. Смотрим на результат, если он нас устраивает: буквы видно отчётливо, шума, грязи практически нет, то продолжаем сканирование далее, если шума много (такое бывает, например, если оригинал отпечатан на жёлтой бумаге) – ползунками яркости и контрастности двигаем так, чтобы шум максимально пропал, а буквы стало видно более отчётливо, делаем ещё несколько пробных сканирований пока не добьёмся нужного результата. Как только приемлемый результат получен – приступаем к основному сканированию. Если нам нужно сканировать одновременно участки текста из разных источников (несколько книг, журналов, газетных вырезок), то такую калибровку для достижения приемлемого результата часто приходится делать для каждого источника отдельно.

Поворот страниц.

В программу FineReader встроен механизм автоматического определения ориентации страниц и автоматического же их поворота. В простых случаях этот механизм отлично работает и не требует от нас никакого участия, но если текст видно не очень отчётливо, либо если разные страницы отсканирываны под разными углами, здесь мы получаем сбой и в результате получаем вместо текста абракадабры. Потому имеет смысл осуществлять поворот вручную.

Выделяем несколько страниц, повёрнутых в одинаковую сторону с зажатой клавишей «Ctrl» и поворачиваем при помощи меню правой кнопки мыши

Распознавание текста

Сосканировав все листы документа можно приступать к его распознаванию. Выбираем язык распознаваемого документа. Это важно потому что буквы в разных языках разные и если, например мы будем распознавать украинский текст как русский, то в конечном результате в распознанном тексте будет распознано практически всё более-менее правильно, но украинские буквы «і», «ї» «є» не будут распознаны и FineReader заменит их на что-то более-менее похожее и в конце прийдётся все эти огрехи выправлять вручную. То же самое бывает когда в русском тексте встречаются адреса электронной почты, сайтов, какие-то слова, набранные на иностранном языке, а мы текст распознаём как «русский», то эти символы FineReader заменит на что-то более-менее похожее из русского алфавита. В таком случае перед распознаванием нужно FineReader-у указать, что текст состоит из нескольких языков, отметив нужные галочками. Не стоит также злоупотреблять выбором языков, отметив все возможные какие есть. В этом случае мы тоже можем в результате получить «катавасию» из всех возможных символов вместо искомого результата.

Следующий пункт после выбора языка распознавания – анализ макета, то есть нам нужно разобрать страницы нашего документа на составляющие: текстовые блоки, таблицы и изображения. В случае если мы имеем дело с простым текстом, набранным на листах формата А4, то этот пункт можно смело пропускать. Программа FineReader отлично справится с этим и сама. В противном случае нужно ещё немного поработать ручками. В данном случае я запускаю процесс автоматического анализа макета всех страниц и по его окончании просматриваю результаты, и в случае неправильного анализа вручную его поправляю. Программа не всегда правильно различает области текста, иногда таблицы путает с текстом, картинки с текстом, текст с картинками, иногда области с тенями, пятнами воспринимает как текст, не всегда нам в конечном результате нужно чтобы присутствовали номера страниц, колонтитулы исходного материала и т.д. Наша задача – выправить эти огрехи ещё на стадии подготовительных работ. Сейчас это сделать намного легче, чем править уже на последнем этапе работ.

Когда макеты разобраны можно приступать непосредственно к самому процессу распознавания. То есть нам нужно просто нажать на кнопочку «Распознать» и, откинувшись в кресле, дождаться окончания процесса распознавания. А по его окончании, бегло глянув на распознанные страницы, убедиться что тексты, таблицы и прочие объекты распознаны корректно, т.е. процентов на 90-95 (в идеале конечно на все 100) и можно приступать к завершающему этапу работ: постбоработке и сохранению результатов.

Несмотря на все наши предыдущие старания огрехи распознавания будут, и их количество зависит от того, на сколько старательно мы выполняли предыдущие этапы. FineReader помогает нам в этом, подсвечивая участки, в качестве распознавания которых он не уверен, синим цветом. На них мы обращаем внимание в первую очередь и если эти участки распознаны неверно – поправляем их.

Сохранение результатов распознавания можно сделать двумя способами: непосредственно в текстовый редактор (например Microsoft Word) или через буфер обмена. Первый способ нам может пригодиться когда нам нужно максимально сохранить исходное форматирование документа: заголовки, шрифты, взаимное расположение текстовых колонок и графических элементов. Но иногда исходное форматирование нам не нужно и более того, вредно, потому что в текстовом редакторе потом бывает очень сложно потом разобраться что за чем идёт и почему, и как, как сделать по другому, так как нам это будет нужно. При передаче текста через буфер обмена мы избегаем этих моментов и на выходе имеем чистый текстовый массив, который можем уже обрабатывать  форматировать на наше усмотрение. И уже в Ворде мы выполняем последний этап работ: убираем лишние детали: множественные пробелы, пробелы перед запятыми, точками, знаки табуляции, исправляем кавычки, знаки тире, исправляем неправильно распознанные участки текста и т.д.
Ну и завершающий этап работ – собственно для чего это всё и затевалось: толи нам нужен был просто распознанный текст, толи нам нужно в него внести изменения для дальнейшей работы.

Понравилась статья - поддержи проект материально:
Понравилась статья - поделись с друзьями:

Похожие записи:

2 комментария

  1. У меня в файнридере среди языков нет украинского. Что делать в этом случае?

    • Запустить установку Abbyy FineReader с установочного диска. В процессе установки выбрать пункт «Добавить/Удалить компоненты» и доустановить недостающие языки

Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*