Cuneiform ошибка при передаче данных. Программа для распознавания текста CuneiForm, которая не дружит со сканерами. Сравнение распознавалки текста CuneiForm с платным аналогом FineReader

Cuneiform ошибка при передаче данных. Программа для распознавания текста CuneiForm, которая не дружит со сканерами. Сравнение распознавалки текста CuneiForm с платным аналогом FineReader

19.03.2019

Бесплатная программа для автоматического распознавания отсканированного текста. Вид у программы не карамельный, но дело своё она знает.

Компьютер уже уверенно вошел в жизнь рядового гражданина. Когда надо получить сравнительно небольшой объем печатной информации, проще всего набрать этот текст вручную при помощи текстового редактора.

Однако иногда надо «переписать» целую книгу. В таких случаях рациональнее всего использовать сканер. Но сам по себе сканер делает только фотокопию текста, которую никак нельзя редактировать. Для того, чтобы изменить информацию на полученном изображении следует провести распознавание документа.

Бесспорным лидером в этом деле является система OCR (англ. optical character recognition — оптическое распознавание текста) от Abbyy — FineReader. Но стоит она довольно дорого и не каждый может позволить себе иметь в своем арсенале такой инструмент. Сегодня мы познакомимся с бесплатной альтернативой Файн Ридера — программой CuneiForm . Приведу сравнительную таблицу возможностей обеих пакетов:

Сравнение распознавалки текста CuneiForm с платным аналогом FineReader

Как видим, если хочется бесплатно распознавать текст, придется кое в чем уступить. Первое, с чем придется смириться — неумение CuneiForm работать с некоторыми сканерами (в особенности сканерами МФУ). Поэтому придется сканировать документ при помощи стандартных функций Windows. Второе — надо следить за разрешением сканирования.

Это связано с тем, что CuneiForm не может обрабатывать большие файлы (свыше 100 Кбайт), а чем выше разрешение, тем больший размер файла-скана. Зато качество распознавания текста в программе намного выше, чем у платного конкурента, а поэтому оптимальным вариантом параметров скана будет 200 dpi (можно и больше, но тогда есть вероятность, что программа просто зависнет).

Количество языков тоже невелико, но основные есть. Более того, хоть комбинировать языки и нельзя, зато в CuneiForm есть смешанный англо-русский режим распознавания! На этом минусы заканчиваются:). Можно начинать установку.

Установка CuneiForm

Здесь сложностей нет, поскольку Вам поможет инсталлятор. Просто запускайте установочный файл и следуйте инструкциям. После установки в меню «Пуск» появится новый раздел. Открываем его и запускаем CuneiForm.

Интерфейс программы

Интерфейс CuneiForm намного проще, чем у Fine Reader, и почти не требует настройки. Программой можно полностью управлять благодаря кнопкам на панели инструментов. Рассмотрим их более детально:

Программа может работать в режиме мастера, который активируется первой кнопкой. Но если CuneiForm не поддерживает Ваш сканер, то от этого режима стоит отказаться. Следующая кнопка запускает процесс сканирования (опять же, если есть поддержка сканера). На этой и следующих кнопках Вы можете заметить небольшие стрелочки. Нажав на них, мы получим доступ к некоторым дополнительным функциям.

Работа с CuneiForm

Теперь давайте опробуем CuneiForm на практике. Если программа поддерживает Ваш сканер, то первой кнопкой, которую следует нажать, будет «Получить изображение». Если же такой возможности нет, то откроем уже готовый скан (поддерживаются форматы JPG, GIF, BMP, PNG (не всегда корректно), а также TIF (в полной мере)).

Теперь следует произвести разметку. Она помогает определить блоки, из которых состоит страница. Поддерживается распознавание блоков в виде текста (синяя рамка), рисунков (зеленая рамка) или таблиц (оранжевая рамка) (автоматическую разметку можно доработать вручную, используя контекстное меню блока).

Когда текст обозначен, самое время провести его распознавание. Для этого нажимаем следующую кнопку. По окончании процесса распознавания в рабочем окне отобразится текст, который можно редактировать в небольшом встроенном текстовом редакторе похожем на Microsoft Word. При этом Вы сразу сможете увидеть те слова, в которых программа «не уверена» (голубая подсветка) и в которых есть ошибка (сомнительная буква — розовая).

И, наконец, после успешного редактирования можно сохранить результат нашей работы. Кликаем последнюю кнопку на панели инструментов и сохраняем текст как RTF, HTML или TXT-файл.

Если же Вы желаете большего, то, нажав на стрелочку сбоку, Вы сможете выбрать опции экспорта в одну из предложенных программ (Microsoft Word, Excel или Евфрат).

Посмотрите на предыдущий скриншот. Наверняка вы обратили внимание, что в дополнительных меню кнопок, начиная с «Разметки» и заканчивая «Сохранением», есть в конце пункт «Автомат». Активирование этой опции освобождает Вас от нажатия выбранной кнопки. То есть можно автоматизировать процесс обработки скана до того, что Вы будете лишь открывать новый документ. Все остальное CuneiForm сделает сама!

Общие настройки CuneiForm

Программа изначально настроена самым оптимальным образом, но если Вы что-то захотите изменить, просто зайдите в меню «Файл» и выберите опцию «Общие параметры». Это может пригодиться для смены языка и некоторых других параметров распознавания, форматирования и сканирования текстов.

Пакетное распознавание

На этом можно было бы и закончить, если бы в пакет CuneiForm не входила еще одна утилитка. Откройте «Пуск» снова и в папке с программой обнаружите еще одно приложение — «Пакетное распознавание». Представьте, что Вы отсканировали целую книгу! и теперь надо ее распознать!!! Если открывать каждый файл-скан по отдельности на это уйдет уйма времени, пакетный же режим представляет возможность указать нужные файлы, а об остальном программа позаботится сама.

Для начала нужно создать новый пакет файлов. Нажимаем соответствующую кнопку и следуем подсказкам запустившегося мастера:

По окончании распознавания Вы сможете увидеть в основном окне все распознанные документы. Если распознавание прошло успешно, то в левой боковой панели Вы обнаружите активными только два списка: «Исходные» и «Обработанные». Если же будут файлы, которые не удалось распознать, их мы найдем в разделе «Ошибки».

Выводы

Потенциал у CuneiForm явно хороший, однако разработка ведется довольно медленно. Несмотря на открытый исходный код, компания Cognitive, видимо, очень требовательна к разработчикам, раз прогресс так долго не появляется. Остается только надеяться, что дело сдвинется с мертвой точки и программа станет еще лучше, а пока довольствуемся малым. Но такое ли уж оно и малое… Выбор за Вами!

подпишитесь на новые видеоуроки!

Недавно занялся поиском бесплатных приложений для распознавания отсканированного текста, или как их еще называют программы OCR. Желание платить за популярного монстра ABBYY FineReader, совсем не было, но как оказалось, предлагают очень мало вариантов программ такого плана для бесплатного использования. Первый попавшийся вариант оказался , пожалуй, одна из самых популярных программ для Windows, но в своем нынешнем виде не дружит с русским языком. Один из читателей блога, предложил попробовать труды отечественных разработчиков .

Процедура установки стандартная, перечень из нескольких стандартных вопросов, где самое запоминающееся это лицензионное соглашения и выбор папки, куда будут инсталлирована программа. Несколько секунд ожидания и все готово к работе. Ничего лишнего не устанавливается и дополнительно программные компоненты тоже не придется скачивать и устанавливать.

Запустив программу, получаем стандартный для OCR интерфейс, меню из нескольких пунктов, большие кнопки для доступа к основным функциям и основное окно разбито на две части для изображения и готового текста которые распознали.

Самая первая кнопка в панели инструментов, где нарисованная волшебная палочка, это мастер, запустив которые пройдем все этапы, начиная от сканирования и заканчивая готовым текстом пригодным для редактирования, которые заботливо будет предлагать выбрать нужные настройки. Получатся этакий полуавтоматический режим, делам только общие настройки, не вникая в нюансы.

Можно пойти по более сложному пути, пройдясь ручками по каждому пункту отдельно, зато сможете сделать кучу дополнительных правок и тонких настроек, которые позволят получить более качественный конечный результат.

С помощью кнопки, где нарисован сканер, можем отсканировать нужный документ или загрузить готовую картинку. После чего получим панель с инструментами с помощью, которой можем подкорректировать изображение, повернуть его и выбрать область для распознавания.

Кнопочка с циркулем, позволяет сделать разметку страницы, выделяя колонки, изображения и блоки с текстом. Все блоки, которые будут найдены, можно редактировать, передвигая их и изменяя размеры с помощью мыши. Поводите курсором около синих линий и увидите, как он будут менять свою форму, дальше, думаю, сами разберетесь.

Ионкой с очками, распознаем непосредственно текст, в подготовленных областях. После того как текст будет готов, щелкните по любой букве и увидите тот участок рисунка картинки, на котором она была найдена.

Кнопка с самолетиком предназначена для сохранения распознанного текста в файлы или в Word Excel, почему опять этот стандартный набор непонятно, ведь есть еще куча замечательных текстовых редакторов.

В зависимости от того на каком этапе будете находиться панель инструментов будет менять свое содержимое, предлагая нужные на конкретном этапе инструменты.

Теперь перейдем к печальному на Windows 7 отказался работать со сканером, программа его видела, сканер даже начинал гудеть, и на мониторе бежала пунктирная линия свидетельствующая что идет передача данных, а в конце выбрасывала ошибку. Все пляски с бубном и чтения форумов не дало положительных результатов. В том числе редактирование файла «Face.INI», где по рекомендации было исправлено «TWAIN_TransferMode=memory-buffered» на TWAIN_TransferMode=memory-native». В итоге пришлось делать обходной маневр, сканировать текст стандартными средствами Windows, а в CuneiForm подсовывать готовую картинку.

Еще плохо, что не поддерживаются pdf фалы самой программой. Приходится прибегать к обходным маневрам, использовать сторонние программы чтоб из pdf документов делать картинки, а потом задействовать OCR. Но опять из-за низкого разрешения картинок, качество распознавания текста очень низкое, поэтому потом приходится много чего исправлять руками.

Чуть не забыл, первый запуск на Windows Vista и 7 лучше делать от имени администратора, иначе программа впадет в транс на несколько минут, не подавая признаков жизни.

Программа действительно работает со всеми основными языками, их около 20 штуку включая русском, английском, украинском, немецком, французском, испанском, итальянском и смешанном русско-английском.

CuneiForm оставила двоякое впечатление, вроде работает, но не полностью, скорей всего из-за того что работу на программой прекратили в 2007 году, а после открытия исходных кодов команда которая могла дальше развивать проект так и не собралась. Приятно, что понимает русский язык, но придется немного приноровиться, пока научитесь подбирать нормальные параметры для сканирования, чтоб результаты распознавания удовлетворяли. Сейчас нахожусь именно на этом этапе.

В нынешнем виде не могу рекомендовать для использования обычным пользователям. Кто рискнул попробовать CuneiForm, морально подготовитесь, что с первого раза хороших результатов не получится, и решение возникших проблем придется искать самим.

Работает в 32-х и 64-х битных операционных системах. Интерфейс полностью на русском языке, и похоже других вариантов не предлагается.

Страница для бесплатного скачивания CuneiForm http://www.cuneiform.ru/downloads/index.html

Последняя версия на момент написания CuneiForm V12

Размер программы: архив 33,3Мб

Совместимость: Windows Vista и 7, Windows Xp

Интеллектуальная система оптического распознавания символов (Optical Character Recognition, OCR) Cuneiform функционирует в среде Microsoft Windows 3.1 или более поздней версии. Контекстно-зависимая справочная система CuneiForm поддерживается стандартной системой помощи Windows. Система обладает следующими технологическими возможностями:

  • поддерживает широкий спектр настольных сканеров;
  • распознает отсканированную страницу (включая многоколонный текст и текст со сложным оформлением);
  • позволяет сканировать и записывать изображение как TIFF, а распознавание запускать потом (при этом удобно сканировать пачку документов);
  • имеет ассортимент возможностей по записи файлов, позволяющий сканировать серию страниц, причем программа будет осуществлять автозапись, присваивая изображениям последовательные имена (Page1, Page2, и т.д.);
  • может читать изображения, отсканированные другими программами, и факсы в режимах Fine и Normal;
  • отделяет текст от графики и преобразует его из графического образа в текстовый файл для одного из текстовых процессоров, баз данных или электронных таблиц;
  • имеет функцию «Определить область распознавания», что позволяет выборочное распознавание в отобранных частях страницы;
  • распознает буквы русского и английского алфавитов, исключая стилизованные шрифты типа готических букв;
  • распознает все широко используемые шрифты (включая полужирное и курсивное начертания, а также подчеркнутый шрифт), которые могут быть смешаны внутри страницы, даже внутри параграфа или слова;
  • может обрабатывать документы, отпечатанные типографски, на LQ и NLQ матричных принтерах, струйных, лазерных принтерах, на печатной машинке (допустимы и моноширинная, и пропорциональная печать);
  • может сохранять первоначальные форматирование и табуляцию и регулировать отступы и выравнивание;
  • имеет внутренний текстовый редактор и словарный контроль, с помощью которых можно контролировать качество распознавания и редактировать текст. Для этого окно встроенного редактора показывает распознанный текст с выделением сомнительных символов и слов, отсутствующих в словаре. В расположенном рядом окне расширения можно видеть увеличенное изображение отсканированного текста, позволяющее производить редактирование, не заглядывая в оригинальный документ;
  • не распознает рукописный текст.

Экран Сuneiform содержит четыре основные части, отмеченные на рисунке.

Основными действиями (процедурами) при работе в системе являются следующие:

Кнопка панели Выполняемая функция
Сканирование и Распознавание Кнопка "Сканирование и Распознавание" будет полезна, если есть уверенность, что оформление документа достаточно просто и не осложнит распознавание текста (для более сложной фрагментации полезна операция "Отсканировать и показать"). При нажатии кнопки в панели быстрого доступа (или вызове команды ДействиеСканирование и распознавание) появляется окно-сообщение, дающее знать, что происходит сканирование. Далее, поле "Прогресс-индикатор" показывает текущую фазу символьного распознавания, а также общую долю выполненного распознавания в процентах. Нажатие кнопки эквивалентно выполнению команд "Отсканировать и показать" и далее "Распознавание".
Открыть образ Позволяет загрузить изображение из имеющегося графического файла (кнопкой или командой ФайлОткрыть образ). В появляющемся окне необходимо выбрать имена директория и файла.
Сканировать и показать Позволяет отсканировать документ и просмотреть его (кнопкой или командой ДействиеСканирование и показ), не запуская при этом символьного распознавания. Немедленно начнется сканирование, и окно изображения отсканированного изображения появится в правой части экрана.
Распознавание Используется в случае запуска (кнопкой или командой ДействиеРаспознавание) символьного распознавания после выполнения действия "Отсканировать и посмотреть" или после загрузки файла.
Яркость Позволяет установить оптимальный уровень яркости для сканирования документа (кнопкой или командой Дей-ствие Яркость). CuneiForm предлагает 256 градаций яркости (0-255). По умолчанию ее значение равно 127. Если возникает много ошибок в распознавании из-за того что отсканированное изображение слишком светлое, нужно установить меньшую яркость и пересканировать документ. Если изображение слишком темное, необходимо установить большую яркость. Уровень яркости можно изменить следующим образом: а) передвигая вправо и влево ползунок по шкале; б) выставляя значение яркости автоматически. Для этого нажимают кнопку "Автоматически" в поле "Настройка яркости". Появится небольшое диалоговое поле, предлагая: "Выберите левую кнопку мыши для выбора яркости или нажмите Отмена." При перемещении курсора по изображению, он примет форму лампочки с перекрестием рядом. Далее нужно навести перекрестие в ту часть изображения, что имеет среднюю плотность символов или затемненность, а затем нажать кнопку мыши. Функция автоматической яркости обследует область вокруг выбранной оператором точки с целью определить общую установку яркости. Далее будет предложено при желании пересканировать страницу, используя новое значение яркости. Если выбрать "Да", то документ будет пересканирован. Это должно улучшить точность при повторном запуске распознавания. Можно также вызвать окно "Настройка яркости", выбрав пункт "Яркость" в меню "Действие". Независимо от того, где он установлен, текущий уровень яркости всегда отображается в левом конце статусной строки снизу экрана.
Предыдущий образ Действие выполняется нажатием кнопки или командой ФайлВосстановить предыдущий образ, чтобы вернуть последнее изображение, которое было на экране в этот сеанс работы.
Склейка страницы Используется, если есть необходимость отсканировать ручным сканером (у которого окно захвата меньше размера страницы) полный лист. По нажатию кнопки или командой ДействиеСклейка страниц вызывается процесс обработки правой или верхней частей страницы в соответствии с выбранным способом склейки. Сначала вызывается TWAIN-диалог работы со сканером и сканируется соответствующая часть страницы, а затем запускается процесс распознавания. Вся цепочка действий автоматически повторяется для следующей части страницы. Следующим этапом происходит склейка этих двух распознанных частей в единый текст.

Статусная строка может включать в себя следующие основные элементы, установленные внутри главного меню: (см. рисунок).



Окно Расширения предназначено для отображения части отсканированного изображения при большем увеличении. Это окно появляется на экране, когда возникает необходимость более тщательного просматривания фрагмента. Окно вызывается в меню ВидРасширение. Увеличение в окне расширения управляется выбором меню ВидОдин к одному, 200% или 400% увеличения. Место, в котором окно Расширения появляется на экране, зависит от того, в результате каких действий оно возникло:

  • если оно вызвано по месту расположения курсора после использования «Сканировать и Показать» или после открытия файла, то оно возникнет в левой нижней части экрана;
  • если оно появляется вместе с окном «Редактор» после распознавания, то его положение зависит от оформления экрана, выбранного из меню «Окно»;
  • окно расширения можно перемещать по экрану, двигая его в режиме Drag and Drop.

Окно Ручная фрагментация используют, когда распознаваемый документ имеет сложную структуру, состоящую из более, чем одной колонки текста и/или графики.

В обычном режиме после сканирования CuneiForm автоматически фрагментирует и раскладывает изображение на блоки, которые рассматриваются как связанные, осмысленные куски текста и окружаются пунктиром при отображении в режиме «Фрагментация». Однако текстовый блок является просто набором символов и не всегда составляет законченный смысловой фрагмент.

Из-за того, что программа основывает свое разделение на промежутках, а не анализирует контекстную информацию, она не может идеально оценить, какой текст является связанным. Окно «Ручная фрагментация» обеспечивает несколько способов дополнительного создания блоков, когда автоматическая фрагментация неточна.

Режим «Фрагментация» существует как раз для исправления ошибок, сделанных в процессе автоматической фрагментации перед распознаванием. В рассматриваемом случае выбирают меню ОпцииФрагментация. При этом слово «Фрагм.» появляется справа в линии статуса. Окно «Ручная фрагментация» появится позже, после сканирования документа или вызова его из графического файла.

Помимо автоматически помеченных блоков, окно включает в себя колонку кнопок, выстроенных вдоль его левой стороны:

Кнопка Выполняемая функция
Выполнить Обеспечивает переход к выполнению распознавания после необходимых действий по фрагментации
Возврат Повтор Позволяют вернуться на один шаг и переделать последнее проделанное действие
Текст Позволяет выделить блок, содержащий, например, все части таблицы так, чтобы они слились в один фрагмент. Для этого после нажатия кнопки нужно обозначить прямоугольник вокруг выбранной области курсором. В результате создается новый блок, который при распознавании рассматривается как одно целое
Гориз. Верт. Позволяют обозначить дополнительную фрагментацию по горизонтали или вертикали. Для этого достаточно после выбора кнопки поместить курсор в нужное место и в режиме drag обозначить границу фрагментации соответственно по горизонтали или вертикали
Склеить Позволяет "склеить" фрагменты, созданные с использованием кнопок "Гориз." и "Верт.". Для этого достаточно пометить курсором склеиваемые фрагменты и выбрать кнопку "Склеить"
Удалить Позволяет удалить помеченные с помощью кнопки Текст фрагменты из процесса распознавания
Увелич. Позволяет увеличить фрагмент текста в окне "Ручная фрагментация". Для этого достаточно после выбора кнопки зафиксировать курсор в нужном месте текста и щелкнуть кнопкой мыши
Не увел. Позволяет вернуть увеличенный фрагмент текста в исходное состояние. Для этого достаточно после выбора кнопки зафиксировать курсор в выбранном месте и щелкнуть левой кнопкой мыши
Рисунок Позволяет создать новую картинку
Помощь Позволяет вызвать на экран справочную информацию об использовании кнопок управления ручной фрагментацией

Дополнительные возможности исправления ошибочного разделения на блоки в окне «Ручная фрагментация»:

Пусть в документе есть две колонки текста, но CuneiForm этого «не видит». Напротив, он сливает две колонки в один блок. Так как далее это может привести к проблемам в распознавании, необходимо разделить колонки по блокам:

  • нажать «Верт.» в левой части окна «Фрагментация»;
  • поместить курсор там, где предполагается начать разделение;
  • при нажатой и удерживаемой клавише мыши протащить курсор туда, где разделение должно кончиться;
  • отпустить кнопку.

CuneiForm разделит блок вертикально на два текстовых фрагмента (функция «Разделить Горизонтально» производит те же действия над текстом, который должен быть разделен горизонтально).

В некоторых случаях CuneiForm может автоматически разделить слитный кусок текста на фрагменты. Чтобы выправить это разбиение, необходимо нажать курсором на каждый из фрагментов и нажать кнопку «Склеить». Два фрагмента будут объединены в один блок.

В окне Редактор сверху находится простое меню из пяти кнопок: «Выход», «Сохранить как...», «Присоединить к...», «След. сомнительное» и «Добавить слово». С их помощью при использовании окна редактирования удобно выполнять ряд процедур.

Окно «Редактор» содержит результат распознавания. После распознавания окно редактирования накрывает изображение в окне изображения. Текст, выбираемый пользователем в окне редактирования, синхронизируется с изображением в окне расширения. При перемещении курсора в окне редактирования изображение в окне расширения сдвигается соответственно новой позиции курсора, и выбранный символ подсвечивается

Ошибки, допущенные в процессе распознавания, можно редактировать в одном из текстовых процессоров впоследствии или, используя меню «Редактор» и кнопки окна редактирования. В последнем случае с помощью меню ВидНастройки можно для удобства редактирования подобрать размер символов, отображающихся на экране.

Для выполнения редактирования предусмотрен ряд дополнительных удобств:

  • возможность осуществить автоматизированную проверку орфографии после выбора меню ОпцииСловарный контроль (при этом так называемые сомнительные, т.е. отсутствующие в словаре слова, высвечиваются на экране);
  • быстрое перемещение при словарном контроле с помощью кнопки «След. сомнит.» к очередному отсутствующему в словаре слову;
  • возможность открытия и использования словаря пользователя, импортируемого в меню ФайлДинамический словарь Загрузить... или Импорт...;
  • возможность добавления к словарю пользователя высвеченного при проверке, но правильного слова с помощью нажатия кнопки «Добавить слово»;
  • возможность экспорта пользовательского словаря в меню ФайлДинамический словарьВыгрузить... или Экспорт... после его использования или пополнения.

Меню, команда Выполняемое действие
ФАЙЛ
Открыть образ считать изображение из файла следующих форматов: TIFF 5.0, PCX, BMP, GIF, TARGA, JPEG
Восстановить пред. образ получить отсканированное и хранящееся в памяти изображение для выбора новой области распознавания (если нужно)
Запомнить образ записать изображение в формате TIFF 5.0
Открыть ED файл открыть файл с распознанным ранее текстом
Запомнить в текст записать распознанный текст в файлах определённого формата, например, ASCII, Smart ASCII, RTF, ANSI, Smart ANSI
Склеить с текстом добавить распознанный текст в конец существующего текстового файла
Выбрать из TWAIN списка выбрать сканер для использования под TWAIN-интерфейсом
Получить TWAIN образ использовать доступ к изображению через TWAIN
Динамический словарь использовать словарь пользователя
Распознающий модуль загрузить/выгрузить распознающий модуль
Выход выйти из Cuneiform
РЕДАКТОР
След. сомнительный перейти к следующему сомнительному слову
Пред. сомнительный перейти к предыдущему сомнительному слову
Отмечать сомнительные слова вкл./выкл. режим подсвечивания сомнительных слов
Поиск искать строки символов в распознанном тексте
Поиск след повторить поиск
Добавить слово легализовать слово и внести его в список
Отменить добавление сделать слово сомнительным и удалить его из списка

Имеется также возможность по использованию панели управления сверху окна редактирования, coстоящей из нескольких кнопок: Выход, Сохранить как..., Присоединить к..., След. сомнит. и Добавить слово/

Меню команд программы СuneiForm

Основная моя деятельность уже много лет связана с фотографией, поэтому, блуждая по интернету, я обращаю внимание больше на оформление и иллюстрации чем на текст. Когда я наткнулся в интернете на снимки взрывов в Медео при строительстве плотины, мне показалось, что качество фотографий могло бы быть и лучше. Поиск по картинкам тоже не дал удовлетворительного результата: были найдены еще несколько фотографий, но и они были далеки до идеала, возможно, хорошие фотографии в сети и есть, но они настолько плохо документированы, что поисковик их не находит. Тогда я решил попытаться оцифровать и выложить то, что было в архиве отца. Это, в первую очередь, альбом формата А3 с наклеенными в него цветными фотографиями и несколько статей с практически теми же, но черно-белыми фотографиями, напечатанными офсетом. От цвета, правда, в фотографиях 1967 года осталось немного, да и не уверен, что изначально цвета на них были идеальными.

Но, попытка не пытка, и таким образом была поставлена задача оцифровать фотографии, оцифровать и распознать текст, вставить сопроводительный текст внутрь файлов с фотографиями. Я не собирался работать с большими объемами материалов и привлекать для этого профессиональную аппаратуру и программы. Хотелось лишь разобраться, есть ли возможность подручными средствами выполнить эту задачу и какая аппаратура и программы для этого лучше подходят.

Подручными средствами означало, что у меня в наличии лишь сканер в составе МФУ Samsung SCX 4200. Это сканер типа CIS, о недостатках этого типа сканеров я неоднократно писал, например, . Кроме того у него монохромные линейки и цветное сканирование осуществляется за счет последовательной смены цвета подсветки, ну и наконец он только А4 причем стекло чуть утоплено ниже внешней рамки, что затрудняет возможность плотно прижать фотографию формата А3 к стеклу. Для работы с текстами его, естественно, более чем достаточно. В качестве альтернативы у меня было множество цифровых аппаратов, но пересъемка глянцевых фотографий это тоже не сахар - проблема бликов. Для обработки был компьютер и ноутбук оба с ОС Slackware. В первом случае с версией 13.37, а во втором 14.0. Для связи с МФУ был установлены, соответственно, Унифицированный Драйвер Самсунг 3.00.19 и 4.00.31.

Начать я решил со сканирования, решив, что будет более простым решением. Сперва сканируем по частям, потом в программе hugin сшиваем. При сшивке сканированных частей нам не надо исправлять искажения оптики, поэтому на вопрос о фокусном расстоянии объектива выставляем максимальное значение. Я ставил 1000 мм.
Однако оказалось, что для выцветших фотографий число тонов, которые способен передать данный сканер, явно недостаточно. Несмотря на то, что обе половинки сканировались программой xSane при одинаковых режимах, сшивка ситуацию усугубляла и полосы на плавных переходах бросались в глаза. Динамического диапазона для спектра выцветших фотографий катастрофически не хватало.

Съемка в сыром формате позволяет существенно увеличить число градаций, поэтому следующая попытка была произведена камерой Sony NEX-5 с объективом 16 мм. Поскольку в фотографиях впечатлял только формат, а не детализация фотографий, то я не пытался полностью использовать всю площадь матрицы и, чтобы избежать бликов, снимал под небольшим углом к перпендикуляру. Для преобразования из RAW, первичной цветокоррекции и исправления перспективных искажений использовалась программа DarkTable.

Для растровых черно-белых фотографий сканирование с разрешением 300 dpi и устранением растра средствами xSane было вполне достаточно.

Для распознавания безусловно лучшей программой сегодня является FineReader Engine, но 150 уе за лицензию на 12000 распознаваний в год - это явно не тот вариант, который можно назвать подручными средствами. Поэтому пришлось обратится к ее конкурентам 90 годов прошлого века и посмотреть, как они себя чувствуют сегодня.

Система оптического распознавания текстов CuneiForm разрабатывалась российской компанией Cognitive Technologies с 1993 года. Входила в состав пакета Corel Draw. В 1996 году в ней впервые в мире были применены алгоритмы адаптивного распознавания. Развивалась до 1999 года и, если рассматривать только алгоритмы оптического распознавания без предварительной обработки изображения и финишной лингвистической обработки, была, возможно, лучшей и до сих пор вполне себе ничего. В 2008 года были опубликованы исходные тексты OCR Cuneiform под лицензией BSD. Последняя версия Linux port of Cuneiform 1.1.0 вышла 19.04.11. Проект, похоже, заброшен.

Программа Tesseract разрабатывалась фирмой Hewlett-Packard с 1985 по 1998 годы, а затем была брошена до 2006 года, когда корпорация Google ее купила и открыла исходные тексты под лицензией Apache 2.0. В 90 годах она была нам не интересна, хотя и поставлялась часто вместе со сканерами, поскольку русский язык не поддерживался, сегодня с языком все в порядке и она не очень быстро, но развивается. Текущая стабильная версия 3.02 от 23.10.12 и 4 февраля 2014 года было объявлено о выходе V3.03 (rc1).

Хотя обе программы имеют только консольный интерфейс, для них разработано сторонними разработчиками несколько графических интерфейсов. Я попробовал поработать с двумя из них: YAGF и . Выяснилось, что графические интерфейсы используют возможности консольных интерфейсов по-разному и не полностью. Поэтому результат зависит не только от программы распознавания, но и от графического интерфейса. Однозначно сказать, какая комбинация дает лучший результат, я не могу.

В плюсам YAGF можно отнести возможность повернуть загруженную страницу и работу со сканером через xSane, что дает более гибкие настройки сканирования.

OCRFeeder работает через Sane и не позволяет вмешаться в настройки сканирования.

Однако он может улучшать сканированное изображение с помощью модуля Unpaper. Оба графических интерфейса позволяют выравнивать слегка повернутые страницы.

К минусам YAGF я бы отнес то, что он не совсем корректно автоматически выделял блоки, обрезая выступающие на поля строчки. (В OCRFeeder этот эффект замечен не был. В обоих интерфейсах есть возможность выделять блоки вручную). Абзацы выделяются только при записи результата в HTML, причем только при распознавании через CuneiForm, при работе с Tesseract выделялись не абзацы а строки. Знаки переносов убираются только при работе с CuneiForm и записью в текстовом режиме. OCRFeeder с абзацами и переносами справлялся лучше вне зависимости от программы распознавания и записывал результат в файла ODT.

С таблицами мне не удалось справиться ни в одной комбинации программ и графических интерфейсов.

Программы распознавания предъявляют несколько разные требования к режимам сканирования. Т.е. наилучшее распознавание у них происходит при разном контрасте и разрешении сканирования. Для CuneiForm повышение разрешения свыше 200 dpi не приводит к улучшению качества распознавания.

Для качественных сканов результаты близкие, хотя могут быть не распознаны разные символы. Графические интерфейсы позволяют применять разные программы распознавания к отдельным абзацам, а также задавать язык. CuneiForm умеет работать со смешанным русско-английским текстом, а Tesseract нет, хотя последний сейчас поддерживает большее количество языков.

Итак, фотографии и текст к ним оцифрованы, теперь стоит задача соединить эти данные так, чтобы потом, даже если фотография вырвана из контекста статьи, можно было определить, что на ней изображено. Возможность вкладывать подписи в файл с фотографиями существует очень давно. Но есть большой риск, что прочитана эта подпись будет только той программой которой сделана. Но, ничто не вечно и весьма вероятно, что фотография переживет эту программу и OC, под которой она могла работать. Кроме того, для русского языка было придумано уж слишком много кодировок, и риск увидеть кракозябры очень велик. Сейчас ситуация стало несколько лучше, похоже что UTF-8 становится основным стандартом для всех. С полями для записей тоже стало больше единообразия. Можно выделить три основных стандарта: EXIF, IPTC, XMP.

EXIF (Exchangeable Image File Format) - стандарт, позволяющий добавлять к изображениям и прочим медиафайлам дополнительную информацию (метаданные), комментирующую этот файл, описывающую условия и способы его получения, авторство и т. п.

IPTC (International Press Telecommunications Council - Международный совет по прессе и телекоммуникациям) - стандарт метаданных для цифровых изображений, который позволяет хранить аннотацию, описывающую содержание. Изначально предполагалось использование только латиницы, и хотя сейчас многие программы позволяют записывать в поля IPTC текст, в разных кодировках вероятность того что, кириллица будет правильно прочитана всеми программами, достаточно низкая.

Adobe XMP (eXtensible Metadata Platform - расширяемая платформа метаданных) - это технология, созданная Adobe и позволяющая пользователю добавлять дополнительную информацию в файл.

Если создать подпись во всех этих стандартах, то вероятность, что ее можно будет просмотреть с самыми разными программами, резко повышается. Желательно вносить все записи одной программой, поскольку если это делать разными, то есть большой риск, что старые записи будут уничтожены. Я считаю самой подходящей для этой цели программой .

Чтобы записать данные, открываем меню Изменить описание/комментарий.



© 2024 beasthackerz.ru - Браузеры. Аудио. Жесткий диск. Программы. Локальная сеть. Windows