Апрель 2018
Пн Вт Ср Чт Пт Сб Вс
« Фев    
 1
2345678
9101112131415
16171819202122
23242526272829
30  

Оптическое распознавание символов


Оптическое распознавание символов. Просканировав и введя газету в ваш ПК, вы можете читать ее на экране, вставлять в другие документы и печатать, как любой графический образ Но вы не може­те отредактировать ее вашим текстовым редактором И при выполнении команды «Save» вы можете получить файл в почти полмегабайта, даже если обсуждаемая статья содержит только несколько дюжин слов.

Различие определяется типом данных. Ваш тексто­вый редактор использует текстовые файлы, в которых кажды* символ хранится в виде однобайтовогс кода, называемого Американский Стандартный Код для Ин­формационного Обмена, или ASCII. Каждый символ пред­ставляется уникальным значением одного байта Когда страница сканируется, символы обрабатываются, как грэ-• фика, и сохраняются, как набор битов, последователь­ность которых соответствует точкам, обнаруженным ва­шим сканером. Один символ может требовать сотни бай­тов для хранения.

Вы можете преобразовать текст в графическую фор­му, и затем в коды ASCII двумя способами: набирая все в вашем текстовом редакторе или оптическим распозна­ванием символов(ОСН). Добавьте программное обеспе­чение распознавания символов к вашему сканеру, и вы сможете быстро конвертировать почти все, что вы чита­ете на вашем экране, в текстовый редактор, или в файлы электронной таблицы, или в базу данных

Если царство центральных процессоров и специаль­ных аппаратных средств стоит десятки тысяч долларов, то оптическое распознавание символов находится в до­ступных финансовых пределах для большинства пользо­вателей ПК, приобретя у прямых продавцов от $100 до $400 Только два года назад, сделав быстрый шаг впе ред с введением программного обеспечения сглажива ния особенностей, стало возможным точное распознава­ние символов с любым сканером ПК.

Сначала системы распознавания символов исполь­зовали технологию, называемую матрицей соответствия. Компьютер должен сравнивать маленькие части каждого двоичного образа, просканироваиного имт с наборами битов, которые хранятся в библиотеке, чтобы опреде­лить, какой иэ хранящихся наборов битов больше всего похож на введенный двоичный образ. Например, символ «А» будет распознаваться как опора из 40 битов с попе­речиной в 20 битов по ширине.

Проблема матрицы соответствия была в том, что имеется много разновидностей в печати – различные шрифты, их размеры и стили. Например, итальянская «А» имеет полностью отличную схему начертания от ро­манского «А», даже в пределах шрифта того же самого размера и типа. Следовательно, матрица соответствия OCR-системы должна иметь или огромную библиотеку с наборами битов (требование, вызывающее продолжите-отный поиск каждого соответствия), или система должна ограничиваться соответствием небольшого количества типов стилей и шрифтов.

В последнем (и наиболее общем) случае вы должны указывать системе распознавания символов, какой тип вы собираетесь считывать для того, чтобы использовать нужную библиотеку. И что еще хуже, большинство рас­познавания соответствия зависели от постоянства ин­тервала между символами, чтобы определить размер и форму символьной матрицы, так что эти системы рабо­тали только с моноинтервальной печатью типа пишущей машинки.

Сглаживание особенностей при распознавании сим­волов преодолевает все эти проблемы, используя более быстрый подход. Вместо тривиального просмотра, этот метод анализирует каждый бит набора. Когда он видит символ «А», он извлекает существенные особенности символа из схемы битов – скат, пик и горизонтальная поперечина. Так, каждый символ «А» имеет одинаковые характерные особенности – и если ваши глаза могут распознать его как «А», то и системе соответствия осо­бенности не надо сложной библиотеки битовых схем соответствия почти любому шрифту и размеру. Факти­чески, программное обеспечение распознавания не до­лжно знать размер или шрифт символов, это должно определяться заранее. Даже ранообразный текст с пе­ременным символьным интервалом не является пробле­мой. Таким образом, программное обеспечение сглажи­вания особенностей может участвовать в соревнованиях по сканированию с минимальным количеством ошибок.

Хотя это и ведущий вперед метод, символьное рас­познавание становится требовательным, когда доходит дело до ресурсов системы. Например, популярная про­грамма OmniPage корпорации Caere требует Windows 3.0 и изобилия памяти – четырех мегабайтов ОЗУ и восьми мегабайтов пространства жесткого диска. Вам будет также нужен один из сканеров, поддерживаемый программой сканирования в интерактивном режиме, или любой сканер, который может создавать строки TIF-файлов с разрешающей способностью не менее 200 точек на дюйм.

Сегодня диапазон доступного программного обеспе­чения по распознаванию символов широк. Лучшие про­граммы используют алгоритмы сглаживания особеннос­тей и учитывают, как популярные текстовые редакторы, базы данных и электронные таблицы форматируют текст и данные в своих файлах. Вам надо убедиться, что про­грамма распознавания, которую вы собираетесь приоб­рести, может создавать файлы, совместимые с другими прикладными программами, которые вы используете.

Программы распознавания символов работают или в интерактивном режиме вместе с вашим сканером, или со стандартным двоичным образом файлового формата. Некоторые могут даже распознать текст, который ваш ПК получил по факсу Убедитесь, что выбранная вами программа совместима с вашим сканером, или что ваш сканер может создавать требуемый тип файла. Как всег­да, лучшие программы стоят наиболее дорого, но они стоят больше, чем вы заплатите, за то время, которое сэкономите.

Оставить комментарий

Вы должны авторизоваться для отправки комментария.

Рубрики