ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования СА...
236 downloads
201 Views
907KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования САНКТ&ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
И. Л. Ерош, М. Б. Сергеев, Н. В. Соловьев
ОБРАБОТКА И РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙ В СИСТЕМАХ ПРЕВЕНТИВНОЙ БЕЗОПАСНОСТИ Учебное пособие
Санкт&Петербург 2005
УДК ББК
681.327.8.06(075) 32.973.26&018.2.я73 Е78 Ерош И. Л., Сергеев М. Б., Соловьев Н. В.
Е78 Обработка и распознавание изображений в системах пре& вентивной безопасности: Учеб. пособие/ СПбГУАП. СПб., 2005. 154 с.: ил. ISBN 5&8088&0171&0
В учебном пособии изложены методы обработки и распознавания изображений, связанные с опознаванием человека по его биометричес& ким характеристикам, получаемым в форме изображений. Основное внимание уделено методам коррекции яркостных и пространственных искажений растровых монохромных изображений, а также методам понижения размерности пространства признаков при распознавании. Рассмотрены основные подходы к опознаванию человека по отпечаткам пальцев, радужной оболочке глаза и портрету. Пособие предназначено для студентов, обучающихся по специаль& ности «Информатика и вычислительная техника», и может использо& ваться при изучении дисциплин «Цифровая обработка и распознава& ние изображений», «Системы искусственного интеллекта», «Методы и средства защиты информации», «Аппаратно&программное обеспече& ние финансовых систем». Может быть полезно аспирантам и инжене& рам, занимающимся цифровой обработкой и распознаванием изобра& жений, проектированием устройств контроля и разграничения досту& па и систем превентивной безопасности. Рецензенты: доктор технических наук, профессор кафедры биомедицинской электроники и охраны среды Санкт&Петербургского электротехнического университета З. М. Юлдашев; ЗАО «КБ Юпитер» Утверждено редакционно&издательским советом университета в качестве учебного пособия
ISBN 5&8088&0171&0
2
© ©
ГОУ ВПО «СПбГУАП», 2005 И. Л. Ерош, М. Б. Сергеев, Н. В. Соловьев, 2005
Предисловие В последнее время в России и за рубежом все большее значение приобретает защита от несанкционированного доступа к различным физическим объектам и информационным ресурсам. Одним из основ& ных способов защиты является разграничение доступа на основе иден& тификации личности человека. Идентификация может производить& ся как по кодовым словам (паролям, ключам), вводимым человеком, или картам доступа, содержащим код, так и по биометрическим ха& рактеристикам человека. Последний способ является более надеж& ным, так как ключевая информация может быть передана другому лицу, а биометрические характеристики позволяют идентифициро& вать человека с высокой надежностью, и их достаточно трудно под& делать. Такие биометрические характеристики человека как отпечатки пальцев, радужная оболочка глаза, портрет анфас обладают следую& щими свойствами: – постоянством во времени и под воздействием различных вне& шних факторов; – уникальностью, т.е. наличием множества признаков, присущих только данному индивидууму; – универсальностью, т. е. наличием в той или иной форме у всех людей; – собираемостью, т. е. возможностью достаточно просто и опера& тивно получить исходные данные для идентификации человека в виде растровых изображений. Различные аспекты обработки изображений и распознавания объектов по их изображениям, связанные с проблемой опознавания человека, и рассматриваются в настоящем пособии, состоящем из двух больших частей. Первая часть – основы цифровой обработки изображений, поми& мо основных понятий включает в себя вопросы восприятия света и цвета как человеком, так и техническими устройствами, представле& ние изображения в цифровой форме и способы его сжатия, основные 3
подходы к устранению яркостных искажений, а также вопросы би& наризации и сегментации растровых изображений. Во второй части, наряду с общими принципами распознавания образов, рассматриваются различные подходы к распознаванию объектов по их изображениям и методы коррекции пространствен& ных искажений, а также реальные системы опознавания человека по его биометрическим характеристикам. Следует отметить, что рассмотренные в пособии методы обработ& ки и распознавания изображений применяются в системах превен& тивной безопасности не только для идентификации человека, но и для автоматизации решения многих других задач. Например, сличе& ние подписей на документах, распознавание номеров транспортных средств, выявление опасных предметов в багаже. В последнее время такие системы все чаще создаются на основе нейросетевых техноло& гий, что приводит к значительному увеличению их быстродействия.
4
Часть I. Основы цифровой обработки изображений
1. ВВЕДЕНИЕ
1.1. Изображение – разновидность сигнала Любые объекты, естественные – биологические или искусствен& ные – технические, представляющие собой сложные системы, под& вергаются воздействию внешней среды и целенаправленно реагиру& ют на эти воздействия, что приводит к изменению окружающей их среды. Простые объекты, например камень или стена, тоже подвер& гаются воздействию внешней среды, скажем, оказываются под дож& дем или на солнце, и в результате могут изменяться или даже разру& шаться, но это никак нельзя назвать целенаправленной реакцией. Уровень воздействия среды, а также изменение уровня этого воз& действия регистрируются имеющимися у объекта датчиками, спо& собными воспринимать определенный вид воздействия: освещен& ность, температуру, давление. Результат работы датчика, функцио& нально зависящий от изменения воздействия, называется сигналом, т. е. сигнал зависит от уровня воздействия одного из факторов внеш& ней среды. Последовательность сигналов определяет изменение не& которого воздействия во времени и пространстве. Примерами таких последовательностей являются поток звуковых волн, регистрируе& мых микрофоном, или электромагнитное излучение, фиксируемое в виде изображения. Изображение, как функция двух переменных, представляет со& бой один из наиболее сложных видов сигналов, причем временной поток изображений позволяет в общем случае получить информа& цию как о расположении в пространстве окружающих объектов и их характеристиках, таких как размеры, форма, поверхность, так и об их взаимных перемещениях. Необходимо отметить, что человек по& лучает до 90% информации об окружающем его мире с помощью зре& ния. На рис. 1.1 приведена обобщенная схема сложного объекта, спо& собного целенаправленно реагировать на изменение окружающей среды. Объект состоит из системы распознавания, оснащенной раз& 5
нообразными сенсорными датчиками, системы управления, приво& дов и исполнительных механизмов. Система распознавания после получения и обработки сенсорной информации поставляет системе управления данные об окружающей среде, на основании анализа ко& торых последняя вырабатывает управляющие сигналы для приво& дов исполнительных механизмов, а они совершают целенаправлен& ные движения в соответствии с общей задачей, поставленной перед объектом. Кроме информации о внешней среде система управления получает от имеющихся датчиков внутреннюю информацию, в част& ности, данные о состоянии приводов и положении исполнительных механизмов. Необходимо заметить, что именно наличие сенсорных датчиков, особенно датчиков видеоинформации, и системы распо& знавания позволяет объекту совершать целесообразные действия в условиях изменяющейся внешней среды. Примерами таких объектов искусственного происхождения, в пер& вую очередь, являются различные стационарные и мобильные робо& ты промышленного и исследовательского назначения. Однако систе& му автоматического пропуска в помещение сотрудников с их иденти& фикацией по видеоизображению тоже можно отнести к подобным устройствам, хотя и упрощенного типа. Такая система получает ин& формацию об изменении в окружающей среде (появление сотрудника 9# 892 98359 1234565 752 75839 2 28 225 22 93 963 75839 2 295 25 852
39 5 5$ 2%5
75 9 98359 8 539 9!25
"992 29 9 98359
Рис. 1.1. Взаимодействие сложного объекта с внешней средой 6
в поле зрения видеокамеры), производит его идентификацию, по ре& зультатам которой подает или не подает команду на открывание две& ри, фиксирует проход сотрудника и закрытие за ним двери. Очевид& но, в системе имеются все блоки и связи из рис. 1.1. 1.2. Понятие о цифровой обработке изображений Как правило, системе управления необходима информация не про& сто об уровне воздействия какого&либо фактора внешней среды, на& пример освещенности, а некоторая обобщенная информация – ско& рость изменения сигнала, разность сигналов от разных областей ок& ружающей среды и т. п. В общем случае системе управления для при& нятия правильного решения необходимо знать о наличии определен& ных объектов и их положении в пространстве, т. е. иметь модель сцены. На основании этих данных и в соответствии с заранее задан& ной целью система управления вырабатывает команды приводам. Например, имеются робот&манипулятор с видеокамерой и плоский стол, на котором находятся плоские детали разной формы и разме& ров. Цель – взять деталь заданной конфигурации. Очевидно, что си& стема управления манипулятором должна иметь информацию о фор& ме каждой детали и ее положении в пространстве. На рис. 1.2 приведена типичная последовательность операций над изображением, производимых для получения необходимой инфор& мации. Отраженный от объектов сцены световой поток попадает на устройство получения дискретного изображения. Далее после пред& варительной обработки, заключающейся в подавлении помех, выде&
6 22 2 2 123456786 98 6 722 82 678 8 6 726 82 6786 67 1 69 8 637 2 2 2 6786 2 963722 2 6 58 36786 872 6 2 872 3
888 3
2 6 8 62 ! 6 8
88 Рис. 1.2. Последовательность операций при распознавани 7
лении контуров, бинаризации и сегментации, т. е. выделении изоб& ражений отдельных объектов сцены, для каждого объекта произво& дится вычисление значений признаков. Полученный вектор призна& ков используется для распознавания объекта, т. е. отнесения его к одному из известных классов и вычисления его характеристик. Условимся относить к собственно обработке сигнала в виде изоб& ражения такие операции или преобразования, в результате которых функциональность сигнала не меняется, т. е. результат операции можно представить как изображение. Например, операции дискре& тизации, фильтрации, сегментации относятся к обработке изобра& жений, так как на входе и выходе в результате выполнения этих опе& раций присутствуют изображения. Однако вычисление признаков, строго говоря, не относится к обработке изображений, так как в ре& зультате выполнения этой операции получается набор чисел (вектор признаков), который невозможно интерпретировать как изображе& ние. Сигнал, поступающий непосредственно с датчика, фиксирующе& го уровень внешнего воздействия, всегда аналоговый, т. е. непрерыв& ный, так как процессы в природе непрерывны. Заметим, что такие процессы, как правило, описываются дифференциальными уравне& ниями. Однако системе управления требуется только информация о состоянии чего&либо, например о расположении объектов сцены, а информация, как известно, носит принципиально дискретный ха& рактер. Наряду с дискретностью, т. е. наличием минимальной единицы, информация обладает еще рядом важных для ее обработки свойств. Во&первых, она не существует без какого&либо носителя и может пе& реходить с одного носителя на другой путем изменения структуры носителя. Следовательно, для получения информации необходимо выявить структуру ее носителя. Во&вторых, выявленную структуру только тогда можно считать информацией, когда она правильно ин& терпретирована или распознана. Следовательно, для обработки вы& явленной структуры носителя необходимо эту структуру соответству& ющим образом интерпретировать. Заметим, что компьютеры зани& маются именно хранением, передачей, обработкой и предоставлени& ем информации. Можно сказать, что информация об объектах сцены, находящих& ся в поле зрения устройства получения изображения, содержится в пространственной и яркостной структуре светового потока, поступа& ющего на вход этого устройства. Для дальнейшего использования информационной составляющей видеосигнала при компьютерной 8
обработке его необходимо, во&первых, представить в дискретном, т. е. цифровом виде, а во&вторых, произвести обработку дискретного изображения с целью формирования модели сцены. 1.3. Направления обработки изображений Компьютерная обработка изображений включает в себя получе& ние дискретного изображения, его передачу, хранение, преобразова& ние и отображение. Изображения по способам получения можно разделить на два клас& са – изображения реальных сцен и синтезированные; последние мож& но, в свою очередь, разделить на графические, т. е. графики, черте& жи, картинки, рисованные мультфильмы, и квазиреальные, т. е. ста& тический и динамический виртуальные миры. Последние предпола& гают построение максимально приближенного к реальности изобра& жения на основе некоторой модели виртуального мира с учетом фор& мы, геометрических размеров и характеристик поверхности объек& тов, составляющих сцену, а также расположения и характеристик источников освещения и устройства получения изображения. Сле& дует отметить, что для синтезированных изображений трудно четко разделить этапы получения изображения и его обработки. Для получения синтезированных изображений используются мно& гочисленные графические среды. Для получения изображения реаль& ных сцен используют цифровые фото& и видеокамеры. Отдельно мож& но выделить сканеры, которые позволяют вводить в компьютер изоб& ражения с плоских носителей, например с бумаги. Необходимо заметить, что синтезированные и реальные изобра& жения отличаются способом их представления в памяти компьюте& ра. Первые хранятся в векторной форме, для которой указываются свойства отдельных примитивов, составляющих изображение, а вто& рые – в растровой форме, для которой указывается код цвета каждой точки изображения. Переход от векторного представления к растро& вому представлению производится сравнительно легко. Такой пере& ход происходит каждый раз при отображении на дисплее синтезиро& ванного изображения. Обратный переход практически невозможен, так как требует разбиения растрового изображения на примитивы в автоматическом режиме, что в общем случае крайне трудно выпол& нить. При хранении и, особенно, при передаче растровых изображений основной проблемой является гигантский объем информации, тре& буемый для их представления. Для решения этой проблемы приме& 9
няются различные методы сжатия с возможностью восстановления, как без потерь информации, так и с потерями. Представление изоб& ражений в векторной форме требует несравнимо меньших объемов. Однако при их отображении возникает проблема скорости преобра& зования в растровую форму, что особенно актуально при работе в ре& альном масштабе времени, например для видеопотоков в игровых программах или системах видеонаблюдения. Дополнительные про& блемы при воспроизведении изображений на экране дисплея или на бумаге вызывает нестабильность характеристик устройств воспро& изведения, что может отразиться на геометрии и качестве цветопере& дачи. В дальнейшем будут рассматриваться только растровые изобра& жения реальных сцен. Необходимо отметить, что при обработке рас& тровых изображений могут преследоваться различные цели: улуч& шение восприятия изображения человеком, синтезирование изобра& жения из нескольких реальных, повышение вероятности распозна& вания объектов сцены. Далее основное внимание будет уделено имен& но последнему направлению.
10
2. ВОСПРИЯТИЕ СВЕТА И ЦВЕТА
2.1. Системы описания цвета Как известно, физические объекты при нагревании, например лам& пы накаливания, или в процессе электрохимических реакций, напри& мер люминофоры, испускают электромагнитные волны различной дли& ны: от радиоволн (104 м) до рентгеновского излучения (10–14 м). Узкий диапазон электромагнитных волн (380–780 нм, т. е. 10–9 м), который может воспринимать биологический приемник электромагнитного из& лучения – человеческий глаз, называется видимым светом, световым излучением или просто светом. Отметим, что технические приемники наряду с видимым светом воспринимают более широкий диапазон элек& тромагнитных колебаний, называемый оптическим излучением: от ближнего рентгеновского (10–11 м) и ультрафиолетового (10–6 м) до инфракрасного (10–3 м) излучения. Исходящий из источника свет, как правило, представляет собой смесь излучений различной частоты. Весь диапазон этих частот назы& вается спектром излучения. Отметим, что источники когерентного из& лучения, например лазеры или натриевые лампы, дают излучение од& ной частоты, а цветные лампы излучают свет в сравнительно узком ди& апазоне. Известно, что белый свет при про& 12345 6728 9 6 45 хождении через стеклянную тре& 2745 23845 угольную призму, согласно схеме 232 45 (рис. 2.1), раскладывается на разно& 35 цветные полосы. Этот эффект объяс& 5 няется тем, что угол преломления
328745 электромагнитной волны при ее про& хождении через границу двух сред за& висит от длины этой волны. Полоса Рис. 2.1. Разложение белого красного цвета соответствует наибо& света на спектральные лее длинноволновой составляющей составляющие 11
видимой части спектра, а фиолетового – соответственно коротковолно& вой. Если эти цветные полосы света вновь пропустить сквозь аналогич& ную призму, то в результате получится опять белый свет. Свет любого оттенка можно получить, смешивая три основных, так называемых, «чистых» света красный (длина волны 700 нм), зеленый (длина волны 546 нм) и синий (длина волны 436 нм). На& пример, смешение синего и зеленого света одинаковой интенсивнос& ти дает свет, воспринимаемый человеком как голубой, синего и крас& ного – пурпурный, красного и зеленого – желтый. В зависимости от процентного соотношения основных цветов можно получить свет любого оттенка. Отметим, что если свет голубого или желтого оттен& ка в природе существует, то пурпурный свет природного происхожде& ния не встречается. Последнее явление объясняется тем, что получе& ние света пурпурного оттенка требует удаления зеленой составляю& щей спектра, лежащей на частотной шкале между красной и синей спектральными полосами. Цветовая схема RGB (red, green, blue – красный, зеленый, синий), основанная на смешении трех основных цветов, была предложена Международной комиссией по освещению еще в 1931 г. В ней отте& нок результирующего света определяется по формуле C = rR + gG + bB,
(2.1)
где С – результирующий свет некоторого оттенка или тона; r, g, b – коэффициенты красной, зеленой и синей составляющих соответствен& но, изменяющиеся от 0 до 1.0; R, G, B – максимальное значение яр& кости данной составляющей. Такая модель формирования цвета, а точнее – оттенка света, так как она применяется для описания цвета электромагнитного излу& чения в видимом диапазоне, называется аддитивной, т. е. суммирую& щей. На ней основан принцип работы цветных дисплеев. Каждая точка дисплея, называемая пикселем, состоит из трех сегментов, которые могут испускать свет основного цвета заданной интенсивно& сти. В результате их смешения излучение пикселя на экране получа& ет требуемый цвет. Как известно, яркость света определяется энергией составляю& щих его волн. В свою очередь, энергия электромагнитных колебаний зависит от их частоты. Таким образом, разные цветовые составляю& щие вносят разную долю в суммарную яркость света. Эксперимен& тально установлено, что для человека ощущение яркости света опре& деляется на 59% его зеленой составляющей, на 30% – красной и на 11% – синей. 12
Графически цветовую схему 57
7 или систему RGB можно предста& вить в виде куба (рис. 2.2). Очевид& 9 67 но, что белый свет и его оттенки от 22567 абсолютно черного до ярко&белого через оттенки серого лежат на ди& 9 9567 агонали куба, на которой коэффи& 92567 циенты r, g, b имеют одинаковые 89 67 1234567 значения. В системе RGB легко изменить Рис. 2.2. Цветовой куб яркость белого света, т. е. перейти системы RGB от одного оттенка серого к друго& му. Для этого следует изменить на одинаковую величину значения коэффициентов r, g, b. Однако составляющие любого другого оттен& ка, за исключением трех основных цветов, имеют разные значения этих коэффициентов. Простое изменение составляющих на одинако& вую величину в большинстве случаев приводит к изменению не толь& ко яркости света, но и его оттенка, что затрудняет изменение ярко& сти оттенка света в системе RGB. Для решения этой проблемы были разработаны другие схемы пред& ставления оттенков света, например HSV (hue, saturation, value – цветовой тон, насыщенность, величина). Цветовой тон характери& зует длину волны чистого цвета, насыщенность – степень разбавлен& ности чистого цвета белым, величина или светлота отражает величи& ну яркости. Такая система находит применение при синтезе изобра& жений, так как интуитивно наиболее понятна человеку. Следует от& метить, что для человека величина яркости носит достаточно субъек& тивный характер. Например, яркость букв газетного заголовка на солнце объективно выше, чем яркость в тени бумаги, на которой они напечатаны. Однако для человека это не так, что связано с адаптацион& ными возможностями его зрения. Графически система HSV пред& 89 67 9 9567 ставляется в виде цилиндра (рис. 2.3). 4211 Цветовой тон определяется углом, 11 насыщенность определяется дли& 1234567 ной радиуса в процентах или долях 7 единицы, от 0 в центре до 1 на ок& ружности; яркость определяет вы& 231 1 22567 57 соту цилиндра. Следовательно, от& тенки серого лежат на оси цветово& Рис. 2.3. Основание го цилиндра или, скорее, конуса, цилиндра системы HSV так как при яркости, близкой к 13
нулю, диапазон насыщенности очевидно меньше, чем при яркости, близкой к единице. Еще одна система, в которой разделяются оттенок света и его яр& кость, – система с фиктивными цветами (XYZ). Данная схема удобна для программного преобразования яркости цветных изображений в автоматическом режиме. Графически систему XYZ, как и систему RGB, тоже можно представить как куб. Ниже приведены формулы пересчета коэффициентов из системы RGB в XYZ и обратно: x = 0.49r + 0.31g + 0.2b; y = 0.177r + 0.81238g + 0.01063b; z = 0.00002r + 0.01002g + 0.98996b; r = 2.36467x – 0.89658y – 0.46809z; g = –0.51523x + 1.42637y + 0.08877z; b = 0.00518x – 0.01442y + 1.00925z, где x, z – фиктивные цвета; y – яркость. Таким образом, для изменения яркости без изменения оттенка света необходимо перейти от системы RGB к системе XYZ, изменить составляющую y, не изменяя x и z, и произвести пересчет составляю& щих обратно в систему RGB. Большинство объектов не испускают свет, а частично поглощают и отражают его. Величина поглощения и диапазон поглощаемых ча& стот зависит от вещества поверхности объекта. В результате цвет объектов на изображении сцены определяется, в основном, отражен& ным светом. Если на объект падает белый свет, то при полном отра& жении всего видимого диапазона частот объект имеет на изображе& нии белый цвет, при полном поглощении – черный, при отражении только частот, соответствующих красному цвету, – красный. Если в падающем свете отсутствует какой&то диапазон частот, то это может привести к изменению цвета объекта. Например, в послед& нем случае, если объект облучается светом, в котором отсутствует красная составляющая, то объект будет выглядеть черным. Следо& вательно, спектр падающего света тоже влияет на воспринимаемый цвет объекта. Например, в продовольственном магазине лампы крас& новатого оттенка делают мясо на прилавке более привлекательным, а лампы желтоватого оттенка усиливают цвет масла и сыра. Для описания отраженного света удобнее использовать систему CMYK (cyan – голубой, magenta – пурпурный, yellow – желтый, black – черный). Эти цвета соответствуют основным цветам, используемым 14
в четырехцветной печати. 27 567 При печати цветных изобра& 57 жений приходится подби& 3567 рать краску по ее поглощаю& щим, а не отражающим спо& 67 собностям. Пурпурный кра& 67 ситель поглощает зеленый 123423567 цвет, а отражает красный и 839 567 синий, желтый поглощает Рис. 2.4. Цветовой куб системы синий. Степень поглощения CMYK разных составляющих бело& го света и определяет цвет точки при печати. Например, если напечатать в непосредственной близости или с наложением пурпурные и желтые точки, то получит& ся точка красного цвета, так как пурпурный краситель устранит зе& леную составляющую, а желтый – синюю. Естественно, при усло& вии, что падающий свет – белый. Модель CMYK называется субтрактивная, т. е. вычитающая, так как ее основные цвета получаются вычитанием из белого основных цветов RGB. Схематически ее можно представить как куб (рис. 2.4). Начало координат соответствует белому цвету. По диагонали распо& ложены оттенки серого от белого цвета до абсолютно черного в про& тивоположной вершине куба. При печати с наложением всех трех составляющих теоретически должен получиться черный цвет, но практически получается некоторый оттенок серого цвета. Поэтому для точек черного цвета используется дополнительный черный кра& ситель. Вообще говоря, на практике для воспроизведения на бумаге чистых цветов используют специальные красители, а не смеси. На& пример, черный или золотистый. Основное отличие при печати цветных изображений от их воспро& изведения на дисплее состоит в том, что цветовое ощущение точки возникает не в результате суммирования излучения трех основных цветов, а в результате того, что основные красители поглощают раз& ные цветовые составляющие, отражая остальные. В заключение необходимо отметить, что обеспечить адекватную передачу цвета при воспроизведении изображения на дисплее, а осо& бенно на бумаге, довольно сложно. Для дисплеев существует пробле& ма стабильности характеристик люминофоров у разных дисплеев, а для печати – проблема стабильности красителя, учета оттенка бума& ги и оттенка падающего света. В связи с этим при распознавании объектов по изображениям, как правило, используются монохром& 15
ные изображения, полученные как в видимом диапазоне, так и в дру& гих диапазонах электромагнитного излучения, например инфракрас& ные или рентгеновские снимки. Хотя возможно и использование именно цветового различия для выделения объекта. Например, объект зеленого цвета на синем фоне хорошо различим на цветном снимке по значениям RGB даже при условии, что их яркость одина& кова, но этот же объект совершенно сливается с фоном на монохром& ном изображении. Следует отметить, что цвет – понятие достаточно субъективное. Определения цветов расплывчаты, однако в технике необходимо од& нозначное определение каждого конкретного цвета. Для этого ис& пользуются различные RGB&палитры. Как правило, для представле& ния цвета одной точки в компьютере под уровень яркости каждого из трех основных цветов выделяется один байт, что позволяет задавать 256 градаций уровня яркости каждой RGB&составляющей. Следова& тельно, при 24&разрядном способе задания цвета всего можно задать 2563 = 16 млн различных цветов. Однако такое количество явно из& лишне, так как человек не способен различать столь тонкие перехо& ды цветовых оттенков. Для большинства компьютерных приложе& ний вполне достаточно палитры из 256 цветов. Такие палитры назы& ваются индексными. Конкретный 24&разрядный RGB&код каждого из 256 цветов этой палитры хранится в заголовке файла, содержа& щего изображение, что составляет около 1 кб. Очевидно, код цвета каждой точки изображения занимает всего один байт. Проблема адек& ватной передачи цвета Web&страниц или необходимость использова& ния для цветного изображения палитры, значительно превышаю& щей 256 оттенков, требует другого решения. В таком случае исполь& зуются стандартные палитры с заранее обусловленным набором цве& тов. Это 216&цветная «безопасная» палитра для Web&страниц и «фик& сированная» палитра на 65000 цветов, требующая для задания кода цвета каждой точки изображения два байта. 2.2. Устройства восприятия света Для фиксации изображения необходимо устройство, восприни& мающее свет и вырабатывающее сигнал, пропорциональный интен& сивности падающего на него света. Например электронный полупро& водниковый преобразователь – фоторезистор, сопротивление кото& рого меняется в зависимости от яркости падающего света. Если к нему приложить входное напряжение, то выходное может являться мерой интенсивности света. 16
В последние годы все более широкое распространение получают приемники оптического излучения на основе матриц с пространствен& ной зарядовой связью (ПЗС&матрицы), являющиеся основой скане& ров и цифровых фото& и видеокамер. Они представляют собой несколь& ко рядов МДП&структур (металл&диэлектрик&полупроводник), вы& полненных на одном кристалле и сформированных таким образом, что полоски металлических электродов шириной порядка 15 мкм образуют регулярную систему с расстоянием между соседними элект& родами около 1 мкм. В ПЗС&матрице осуществляется: формирование зарядового релье& фа, соответствующего распределению освещенности на поверхности матрицы, хранение и перенос зарядового рельефа к выходному уст& ройству, а также последовательное преобразование пространствен& ных зарядов в выходное напряжение видеосигнала [1]. За счет регулярности структуры на одном кристалле удается раз& местить до 1 млн элементов. Например, ПЗС&камера С7190 компа& нии Hamamatsu, являющейся международным лидером в производ& стве приемников оптического излучения в видимом, инфракрасном и ультрафиолетовом диапазонах, имеет общее число ячеек 680 ´ 1000, а размер элемента – 14 ´ 14 мкм. Чтобы получить значения яркости трех основных цветов, перед фоторезисторным датчиком или элементом ПЗС&матрицы устанав& ливается вращающийся светофильтр или призма, распределяющая свет на три отдельных датчика. Первый способ повышает разрешаю& щую способность устройства, но увеличивает время получения изоб& ражения, второй способ – наоборот, позволяет получать значения яркости основных цветов в параллельном режиме, но снижает разре& шающую способность примерно в три раза. В связи с этим первый способ находит применение в сканерах, для которых время получе& ния изображения не является критичным, а второй способ – в видео& и фотокамерах. Биологический приемник оптического излучения – глаз человека (рис. 2.5) – представляет собой сложное устройство. Он состоит из хрусталика, стекловидного тела и сетчатки. Хрусталик играет роль линзы, фокусирующей световой поток на сетчатке. Его фокусное рас& стояние изменяется специальными мышцами. Сетчатка состоит из нервных клеток, которые в результате воз& буждения под воздействием света вырабатывают электрический сиг& нал, пропорциональный уровню яркости. Этот сигнал по зрительно& му нерву поступает в мозг, где и обрабатывается. Место на сетчатке, где нервные пути от отдельных клеток сливаются в зрительный нерв, называется слепым пятном, так как здесь нервных клеток нет. 17
134 45
143567289 73 4367
36473 4 7 16373 4 7
1234 4 685 8436 32 Рис. 2.5. Устройство глаза
В области пересечения оптической оси хрусталика и сетчатки на& ходится особенно много специфических зрительных клеток – колбо& чек, которые отвечают за цветное зрение. Эта область называется желтое пятно. Общее число колбочек – около 6,5 млн. Они разделе& ны на три вида, каждый из которых имеет максимум чувствительно& сти в красной (575 нм), зеленой (540 нм) и синей (430 нм) областях спектра. На сетчатке есть и клетки другого типа – палочки, способные реа& гировать только на суммарную яркость попадающего на них света. Как следствие, они фиксируют монохромное изображение. Палочки расположены более равномерно по сетчатке и их значительно боль& ше (около 130 млн). Они позволяют распознавать предметы в усло& виях плохого освещения, а также фиксировать движущиеся объек& ты на периферии поля зрения. Максимум чувствительности палочек соответствует 550 нм, т. е. желто&зеленому цвету, причем их чув& ствительность превышает чувствительность колбочек в 1000 раз. Поле зрения человеческого глаза составляет около 120°. Про& странственная разрешающая способность – около 30², что не так уж и много, по сравнению с некоторыми животными. Глаз облада& ет высокими адаптационными возможностями как к изменению общей освещенности, так и к локальным перепадам освещенности в поле зрения. Инерционность по яркости обусловлена физико& химическими процессами и составляет от секунды до нескольких минут в зависимости от величины перепада яркости. Различимая частота мелькания составляет около 60 Гц. Восприятие движе& ния по тангенциальной составляющей от 6 ¢/с при наличии ориен& тиров и до 20¢ без них. Многочисленные эксперименты показали, что человек способен очень точно и быстро выделять на изображении контуры объектов и 18
распознавать их при наличии существенных искажений, разделять на изображении области с различной текстурой, особенно простой формы, а также фиксировать упорядоченные линейные структуры, в особенности вертикальные и горизонтальные. Вместе с тем человек с очень большим трудом может выделить неструктурированный фраг& мент заданного вида на изображении, сформированном случайным образом. 2.3. Стереозрение Наличие двух изображений одной и той же сцены, полученных с разных точек зрения, теоретически позволяет определить расстоя& ние от точки съемки до объектов и, как следствие, построить объем& ную модель сцены. Для стереозрения используются две разнесенные на некоторое рас& стояние видеокамеры, оптические оси которых параллельны друг другу (рис. 2.6). Предполагается, что объект, трехмерную модель которого необходимо построить, находится в поле зрения камер. Фокусные расстояния объективов принимаются одинаковыми. Пря& мая линия, соединяющая центры объективов, называется базой. Она перпендикулярна оптическим осям и параллельна плоскости проек& ции. Разность координат проекций одной точки поверхности тела на двух изображениях называется диспаратность. 4 41
2
42
21
2 1
1
22
3
Рис. 2.6. Вычисление расстояния по стереоизображениям: Т – точка в пространстве; Р – плоскость проецирования; F – фокусное расстояние видеокамеры; L – расстояние между камерами; H – искомое расстояние; X1, X2 – проекции точки Т на изображениях от первой и второй камер; L1, L2 – расстояние от точки Т до оптических осей соответствующих камер
19
Согласно рис. 2.6, имеем L1 1 X1 L2 X2 2 ; 1 ; L1 1 L2 2 L; H F H F L1 2
1 X1 X H H; L2 1 2 H; L 1 ( X2 2 X1 ). F F F
Тогда H1
LF , 2X
(2.2)
где DX = X2–X1 – диспаратность. Необходимо отметить, что: – расстояние до объекта обратно пропорционально диспаратнос& ти, т. е. расстояние до близких объектов измеряется точнее, чем до удаленных; – диспаратность прямо пропорциональна базе, т. е. при фиксиро& ванной погрешности определения диспаратности точность определе& ния расстояния растет с увеличением базы. Однако, чем больше база, тем меньше похожи изображения одного объекта, полученные с раз& ных камер. Как видно из уравнения (2.2), последовательно определяя рассто& яние до точек на поверхности объекта, можно построить его трехмер& ную модель. Основной проблемой стереозрения является нахождение на двух изображениях одной сцены точек, соответствующих одной точке сце& ны. Несколько упрощает задачу тот факт, что соответствующие точ& ки на изображениях лежат на одной прямой, которая называется эпиполярной. Эта прямая является линией пересечения плоскости изоб& ражения с плоскостью, проходящей через центры обеих линз и точку объекта. Для рис. 2.6 эпиполярные линии параллельны оси Х. Наличие эпиполярных линий значительно сужает область поис& ка соответствующих точек на стереоизображениях. Обычно приме& няются методы отождествления по уровню яркости, отождествле& ния по контурным точкам, корреляционные методы, однако наилуч& шее решение – сканирующая лазерная подсветка объектов статич& ной сцены. Частным случаем стереозрения, при котором не требуется выяв& ление соответствующих точек, можно считать электронный дально& мер (рис. 2.7). Принцип его работы основан на сравнении двух изоб& ражений, полученных одной камерой при ее перемещении на задан& 20
1
11 42
41
2
3
2
2 Рис. 2.7. Электронный дальномер: Lс – смещение камеры
ное расстояние вдоль оптической оси. Последовательно изменяя, обычно уменьшая, масштаб одного изображения и проводя корреля& ционное сравнение с другим изображением, можно найти коэффици& ент масштаба и соответственно расстояние до объекта. Действитель& но, согласно рис. 2.7:
H F H 1 Lc F 1 ; 2 ; X1 = kX2. Тогда D X1 D X2 H1
Lc , k 21
(2.3)
где k – масштабный коэффициент. Необходимо отметить, что в выра& жение (2.3) не входит фокусное расстояние камеры. Основное ограничение на область применения этого метода – все объекты в поле зрения должны находиться на одном расстоянии от камеры или объект должен быть только один. В противном случае не удастся добиться совпадения изображений при изменении масшта& ба, так как размеры объектов, находящихся на разных расстояни& ях, будут иметь разные масштабные коэффициенты. Например, два изображения фасада здания, полученные с разных расстояний, мож& но совместить, изменяя масштаб одного из них. Однако два изобра& жения фасада здания с человеком на переднем плане, тоже получен& ные с разных расстояний, совместить путем масштабирования одно& го из них не удастся, так как расстояния от точки съемки до здания и человека существенно отличаются.
21
3. ПРЕДСТАВЛЕНИЕ ИЗОБРАЖЕНИЯ
3.1. Математические характеристики изображения Математически монохромное изображение удобно представлять как функцию двух переменных z = f(x, y), описывающую распреде& ление яркости на плоскости проецирования. Предполагается, что эта функция непрерывна и задана в некоторой прямоугольной об& ласти, называемой полем зрения, а также является гладкой, т. е. имеющей производную в любой точке, неотрицательной и ограни& ченной сверху. Как правило, начало координат задается в центре поля зрения (рис. 3.1, а). Полихромное изображение, т. е. цвет& ное, можно представить как три отдельные функции zr, zg, zb, ана& логично z описывающие распределение трех основных цветов. При компьютерной обработке изображение представляется пря& моугольной матрицей Z[M, N], элементы которой – целые неотрица& тельные числа, а общее число элементов S = M·N. Значение каждого элемента определяется средней яркостью некоторой области изобра& жения, называемой пикселем. Такое изображение является дискрет& ным. В соответствии с общепринятым отсчетом элементов матрицы начало координат дискретного изображения оказывается в левом верхнем углу дискретного поля зрения (рис. 3.1, б). а)
1
б)
3
2
4
Рис. 3.1. Система координат поля зрения: а – непрерывное изображение; б – дискретное изображение 22
Для получения изображения, пригодного для цифровой обработ& ки, необходимо провести дискретизацию исходного непрерывного изображения f(x, y), а также выполнить квантование аналогового сигнала, соответствующего среднему уровню яркости пикселя, для получения целочисленного значения z. Первое условие достигается за счет использования матрицы или линейки с необходимым числом светочувствительных элементов. А второе – за счет использования аналого&цифровых преобразователей требуемой разрядности. На плоском носителе, т. е. экране дисплея или бумаге, изображение может быть представлено или как обычно, когда каждый пиксель име& ет свою яркость, а плоскость изображения совпадает с плоскостью но& сителя, или как криволинейная поверхность в некоторой проекции. Последний вариант не всегда нагляден, но иногда лучше передает пере& пады яркости, особенно для монохромных изображений. Что касается характеристик изображения, то наиболее легко оп& ределимыми из них являются максимальная и минимальная яркость (zmin, zmax). Их диапазон определяет контрастность изображения и пределы ее увеличения. К статистическим характеристикам дискретного изображения относятся средняя яркость zср 1 1/ S
M ,N
2
z(m,n),
(3.1)
[z(m,n) 2 zcp )2 ,
(3.2)
m,n 11
дисперсия яркости
D 1 1/ S
M, N
3
m,n 11
а также центр яркости
mc 1
1
M, N
2
zср S m,n11
mz(m, n); nc 1
1 M, N 2 nz(m, n). zср S m,n11
(3.3)
При анализе изображений широко применяются гистограммы ярко& сти B(z), т. е. количественное распределение пикселей по значениям яркости, причем форма гистограммы существенно зависит от вида изоб& ражения. Например (рис. 3.2), для изображений деталей на сборочном столе или страницы текста характерна ярко выраженная бимодальность гистограммы яркости. Изображению крупного одиночного объекта на ровном фоне, например фотографии на паспорте, соответствует сгла& женная бимодальная гистограмма. Отсутствие заметных пиков харак& терно для гистограмм изображений пейзажей и аэрофотоснимков, изо& билующих мелкими деталями различной яркости. 23
Оценить локальную резкость, т. е. отношение перепада яркостей на некотором фрагменте изображения к величине фрагмента, позво& ляет срез функции яркости по горизонтали или вертикали. Пример среза функции яркости изображения приведен на рис. 3.3. Детали на сборочном столе
Гистограммы яркости
Аэрофотоснимок
Рис. 3.2. Гистограммы яркости различных изображений А
А
Рис. 3.3. Сечение функции яркости 24
Следует отметить разницу между понятиями «контрастность» и «резкость» изображения. Контрастность изображения является интегральной характеристикой и в основном определяется диапа& зоном яркости изображения. Чем он больше, тем выше контраст& ность. Понятие резкость, скорее, относится к локальным харак& теристикам, описывающим скорость изменения функции яркости по некоторому направлению, т. е. фактически ее производную. Естественно, может быть определено и среднее значение резкости по всему изображению. Увеличение контрастности изображения путем расширения его диапазона яркости всегда приводит к уве& личению резкости. Однако изменение наклона функции яркости может происходить и без изменения разности яркостей, например путем подчеркивания контуров. При анализе пространственно&яркостной структуры изображения часто используется его амплитудно&частотная характеристика, ко& торая может быть получена путем разложения функции яркости в ряд по базису Фурье: 1(2 x , 2 y ) 3
1 1
6 6 f (x,y)exp[4i(2x x 5 2 y y)]dxdy.
21 21
(3.4)
Существует и обратное преобразование
f (x, y) 1
1
1 1
6 6 2(3x ,3y )exp[i(3x x 4 3y y)]d3xd3y ,
452 21 21
где i 1 21 ; w x, w y – круговые пространственные частоты спектра в направлении осей X и Y. Для дискретного изображения, представленного в виде квадрат& ной матрицы Z[N, N], операции интегрирования в (3.4), естествен& но, заменяются суммированием, а дискретное преобразование Фурье имеет вид 6 1 k, l 2 7
1 N
2
N 11 N 11
4
23
5
z 1 n, m 2 exp 8i N 1 kn 9 lm2 .
(3.5)
m 2 0 n 20
Как видно из (3.5), каждое значение Ф(k, l) зависит от всех значе& ний z(m, n) в поле зрения. Хотя матрица экспоненциальных коэффи& циентов зависит только от координат и может быть вычислена зара& нее, выполнение как преобразования Фурье, так и преобразования в другие базисы для больших изображений требует значительных вре& менных затрат. 25
Амплитудно&частотная характеристика изображения позволяет оценить степень резкости изображения и наличие мелких объектов, так как именно высокочастотные составляющие определяются кон& турами, которые и несут основную информацию об объектах. Следу& ет отметить, что контурные линии определяются фазовой составля& ющей спектра. Последнее подтверждается экспериментами [2], в ко& торых показано, что даже при существенном искажении амплитуд& ного спектра изображения контуры объектов остаются различимы& ми. Однако, если искажениям подвергается фазовый спектр, то раз& личимость резко снижается. Экспериментальные исследования [3] также показали, что суще& ствует анизотропия спектральных интенсивностей реальных изоб& ражений, что выражается в более медленном их убывании вдоль осей w x, w y, чем в других направлениях. Последнее объясняется тем, что в реальных изображениях вертикальные и горизонтальные контурные линии встречаются чаще, чем контуры, ориентированные в других направлениях, что в целом определяется формой поверхности Зем& ли, направлением силы тяжести и рядом других факторов. 3.2. Оцифровка изображений Как сказано выше, изображение при вводе в память компьютера необходимо преобразовать из аналоговой формы в цифровую, т. е. произвести дискретизацию изображения как в пространстве, так и по яркости. Последняя операция иногда называется квантованием. В результате этих преобразований в изображение неизбежно вно& сятся искажения, величина которых определяется, во&первых, ха& рактеристиками изображения, а во&вторых, параметрами оцифров& ки, главным образом, шкалой квантования и плотностью растровых отсчетов. При выборе параметров оцифровки изображения следует исходить из того, для каких целей в дальнейшем это изображение будет использоваться. Неправильный выбор этих параметров может, с одной стороны, привести к неоправданно большому объему памя& ти, необходимой для хранения изображения, а с другой – к недопус& тимо большому уровню искажений, которые в дальнейшем уже не могут быть исправлены. Вначале рассмотрим вопрос выбора необходимого числа уровней квантования. Как показали исследования [3], человек способен раз& личать не более 64 уровней серого, т. е. для целочисленного пред& ставления уровня яркости вполне достаточно 6 бит. Однако, учиты& вая, что квантование всегда происходит с некоторой ошибкой, зна& 26
чение последнего бита нельзя считать надежным. Кроме этого, со& временные компьютеры устроены так, что наиболее быстро обраба& тывают целочисленные данные, кратные 8 битам, т. е. одному байту. Как следствие, квантование уровня яркости, как правило, произво& дится по 256 уровням. Следует отметить, что недостаточное количе& ство уровней квантования вносит в дискретное изображение искаже& ния, которые проявляются в виде так называемых ложных конту& ров. Последние особенно заметны на участках изображения с плав& ным изменением яркости, например на портретах. Как сказано ранее, глаз человека имеет разную чувствительность к различным цветам. Желто&зеленые тона различаются почти так же хорошо, как полутона серого, а синие и красные тона различают& ся гораздо хуже. Очевидно, при оцифровке цветных изображений можно было бы устанавливать число уровней квантования в зависи& мости от цвета конкретного пикселя. Однако технические сложнос& ти при реализации подобного способа перевешивают очевидный вы& игрыш от сокращения объема памяти, необходимой для хранения цветного растрового изображения. Поэтому в современных устрой& ствах для получения таких изображений число уровней квантова& ния каждого из трех основных цветов одинаково и равно 256, а воз& можное сокращение объема памяти за счет использования указан& ной особенности человеческого зрения производится уже на этапе сжатия дискретного изображения. Как нетрудно увидеть, при 24&битном представлении цвета пик& селя изображение может иметь около 16 млн различных цветов с уче& том насыщенности и яркости. Это гораздо больше, чем может вос& принимать человеческий глаз. Большинство людей способно разли& чать приблизительно 128 различных цветов при 30 значениях насы& щенности и 5 уровнях яркости, что соответствует 192000 сочета& ний. Эта особенность зрения человека тоже используется при разра& ботке методов сжатия цифровых изображений. Что касается выбора уровня дискретизации изображения, то, в соответствии с теоремой Котельникова, размер пикселя не должен превышать половины размера минимальной детали изображения. На практике для уменьшения влияния помех размер пикселя выбирает& ся таким, чтобы линейные размеры минимальной детали составляли не менее 4–6 пикселей. При невыполнении этого условия происходит не только потеря мел& ких деталей на дискретном изображении, с чем еще можно смириться, если они не несут существенной информации, но, что самое неприятное, возникает ложный узор в виде пятен, полос или волнистых линий, ко& 27
а)
б)
Рис. 3.4. Возникновение ложных контуров при сканировании с разрешением: а – 100dpi; б – 400 dpi
торый может существенно исказить изображение (рис. 3.4). Следует отметить, что вид, который принимают помехи дискретизации на изображении, определяется его структурой. Так, при оцифровке изоб& ражения, содержащего много мелких, хаотично расположенных де& талей, неправильный выбор размера пикселя приведет к появлению помех в виде тоже хаотично расположенных светлых и темных то& чек, распределение которых по яркости описывается нормальным законом. Если же мелкие детали на исходном изображении собраны в периодические структуры, например, как окна на изображении фа& сада многоэтажного здания, то помеха дискретизации проявится в виде муарового рисунка. Необходимо напомнить, что такая широко используемая ха& рактеристика устройств получения и отображения изображений как число точек на дюйм (dpi) определяет линейное разрешение устройства, а максимальное число различимых линий составляет половину этого значения. Например, если разрешение сканера со& ставляет 300 dpi, то на одном дюйме можно отобразить 150 чер& ных линий на белом фоне, так как между линиями минимально возможной ширины в одну точку должен оставаться промежуток шириной тоже в одну точку. 3.3. Сжатие дискретных изображений Как уже сказано, для хранения отдельных дискретных изображе& ний, особенно видеопотоков, в исходном виде требуются очень зна& чительные объемы памяти. В самом деле, для хранения цветного изоб& 28
ражения в системе RGB размером 800 ´ 600 пикселей требуется око& ло 1,5 Мб. Соответственно, видеопоток таких изображений, получа& емых со скоростью 25 кадров в секунду, займет для минутной записи около 2000 Мб. Обработка, хранение и передача таких объемов ин& формации вызывают значительные трудности, особенно если эти опе& рации необходимо выполнять в реальном масштабе времени. Одна& ко, благодаря тому, что на подавляющем большинстве изображений существуют корреляционные связи между яркостями соседних пик& селей, а также благодаря наличию аналогичных связей между после& довательными кадрами видеопотока, в изображении имеет место ин& формационная избыточность. Последнее позволяет провести коди& рование дискретного изображения с уменьшением необходимого объе& ма памяти для его хранения. Для дискретных изображений применяются различные методы сжатия с возможностью последующего восстановления как без по& терь, так и с потерями. Последние позволяют довести коэффициент сжатия до 100 и более и используются в основном для сжатия пото& ков видеоданных. Существующие программы сжатия информации без потерь, т. е. позволяющие точно восстанавливать распределение по пикселям яркости в изображении, обеспечивают сокращение объема данных либо за счет оптимизации кодирования элементов информации, на& пример яркости пикселей, либо за счет удаления избыточной инфор& мации из изображения. Типичным примером является метод кодирования длин серий или RLE&метод. Он наиболее прост и основан на поиске в исходной ин& формации, представленной в виде последовательности кодов, повто& ряющихся одинаковых значений кодов. В результирующем файле запоминаются значение кода и число его повторений. Метод приме& няется в формате PCX и дает хорошие результаты при сжатии бинар& ных изображений или монохромных изображений с малым числом градаций яркости. Метод сжатия Хаффмана основан на анализе гистограммы яр& кости и использовании двоичных кодов переменной длины, при этом наиболее часто встречающимся значениям яркости присваи& ваются короткие коды, а наиболее редко – длинные. На рис. 3.5 приведен поясняющий данный метод пример построения так на& зываемого «кодового дерева». Предполагается, что восемь симво& лов имеют разную вероятность появления и представляют собой основание дерева из восьми узлов. Для построения кодового дере& ва необходимо последовательно объединять в вершину по два сим& 29
вола, имеющих минимальные вероятности, причем данной верши& не приписывается суммарная вероятность ее ветвей. В результате все вершины сходятся к одной корневой вершине, которая долж& на получить вероятность 1. После построения дерева ветвям при& сваиваются значения 1 или 0 в зависимости от того, в какую сто& рону они расходятся от текущей вершины. Код каждого символа можно получить, записав последовательность нулей и единиц, которыми обозначены ветви на пути от вершины к данному симво& лу. В выходной файл вначале записывается кодовая таблица, а далее – поток битов переменной длины. Следует отметить, что иног& да применяется заранее сформированная, т. е. стандартная, таб& лица кодировки, как, например, в формате TIFF. Основное огра& ничение данного метода – необходимость существенных различий вероятности появления различных символов. В методе LZW&кодирования использован другой подход, который не требует предварительно создавать и хранить вместе с закодиро& ванным файлом таблицу кодов. Метод основан на поиске в сжимае& мой информации повторяющихся сочетаний различных кодов, кото& рые, в свою очередь, кодируются более короткой последовательнос& тью нулей и единиц. Сначала часть информации записывается без сжатия, а далее следуют либо другие несжатые последовательности кодов, либо данные, которые указывают, где можно найти требуе& мую последовательность кодов в уже записанной информации. Та& кие широко известные программы сжатия без потерь как PKZIP, RAR, ARC используют различные модификации LZW&метода, который иногда называется «методом на основе словаря», так как в процессе Kод Символ Вероятность
00
10
010
011
110
1110
11110
11111
A
B
C
D
E
F
G
H
0.25
0.21
0.19
0.15
0.08
0.07
0.03
0.02
1
1
4
1
1267 1 1238
4
1
1 1
4
4
4 1251
1274
4211
Рис. 3.5. Дерево кодов Хаффмана 30
4 1245
4 1213
сжатия полученная последовательность кодов образует своего рода постоянно просматриваемый словарь. Известно [4], что реальное сжатие монохромных и цветных изоб& ражений методами сжатия без потерь составляет не более 50%, причем для цветных изображений этот результат – скорее исклю& чение. Зачастую происходит даже увеличение размера файла, в котором хранится изображение. Очевидно, степень сжатия зави& сит от насыщенности деталями и цветового многообразия сжима& емого изображения. Методы сжатия изображений с потерями позволяют добиться высокой степени сжатия ценой контролируемой потери качества. Они основаны на том, что как отдельные дискретные изображе& ния, так и в особенности видеопотоки обладают не только инфор& мационной избыточностью, за счет устранения которой, собствен& но, и производится сжатие без потерь, но и психофизической из& быточностью. Она объясняется ограниченными возможностями зрения человека по различению цветовых оттенков и мелких дета& лей, особенно при быстрой смене изображений. По оценкам физи& ологов [5], количество информации, воспринимаемое зрительной системой человека, не превышает 70 бит/c, что указывает на прин& ципиальную возможность достижения очень значительного сжа& тия воспринимаемой человеком видеоинформации без существен& ной потери качества. В настоящее время наиболее широко применяемым методом сжа& тия растровых изображений с потерями является дискретное коси& нусное преобразование (ДКП), которое служит основой форматов JPEG и MPEG. Метод ДКП основан на удалении несущественных информационных составляющих путем анализа спектра изображе& ния, разложенного по дискретным базисным функциям. Поскольку требующиеся для этого вычисления занимают достаточно много вре& мени, изображение предварительно разбивается на маленькие фраг& менты размером не более 16 ´ 16 пикселей, затем вычисляются спек& тральные составляющие каждого фрагмента, сохраняются только существенные из них, и результат записывается с применением ме& тодов сжатия без потерь. Программно ДКП реализуется для каждого фрагмента как после& довательность матричных перемножений. Вначале производится преобразование фрагмента изображения из пространственной облас& ти в частотную путем умножения матрицы яркости элементов фраг& мента на заранее вычисленную матрицу коэффициентов ДКП. В по& давляющем большинстве случаев значения элементов в левом верх& 31
нем углу полученной матрицы, характеризующей распределение ча& стот, существенно превышают значения элементов в противополож& ном углу. Далее производится квантование элементов по установ& ленному заранее порогу, так как предполагается, что существенная спектральная информация о данном фрагменте изображения долж& на превышать некоторый порог, индивидуально устанавливаемый для каждого спектрального отсчета. Именно на этом этапе и проис& ходит потеря качества изображения, что, собственно, и позволяет реализовать значительное сжатие. Фактически уровень порога и оп& ределяет как степень сжатия, так и степень искажения изображения после восстановления. Оптимизация порога позволяет довести сжа& тие до 80% и более, прежде чем потери качества изображения станут визуально различимы. Ниже в качестве примера приведена табл. 3.1, содержащая значе& ния яркостей пикселей фрагмента сжимаемого изображения (P) раз& мером 8 ´ 8 элементов. Табл. 3.2 содержит значения матрицы D ко& 1 , если i = 0, и эффициентов ДКП, вычисленные по формуле Dij 1 N 2 1 3 2 cos 6(2 j 5 1)i , если i>0, для N = 8, i, j = 0…7. В табл. 3.3 Dij 4 2 N N 97 8 приведена матрица спектрального распределения видеоданных PD = D P DT как результат матричного умножения, причем перед умножением значения видеоданных уменьшаются на 128, благода& ря чему они смещаются в диапазон –128… + 127. Табл. 3.4 содержит одну из возможных матриц делителей, на которые необходимо цело& численно разделить значения матрицы PD для выполнения кванто& вания, результат которого приведен в табл. 3.5. Далее полученные в результате ДКП значения матрицы могут кодироваться методами сжатия без потерь, например по Хаффману или RLE. Таблица 3.1
32
95
88
88
87
95
88
95
95
143
144
151
151
153
170
183
181
153
151
162
166
162
151
126
117
143
144
133
130
143
153
159
175
123
112
116
130
143
147
162
189
133
151
162
166
170
188
166
128
160
168
166
159
135
101
93
98
154
155
153
144
126
106
118
133
Таблица 3.2 0.3536
0.3536
0.3536
0.3536
0.3536
0.4904
0.4157
0.2778
0.0975 –0.0975 –0.2778 –0.4157 –0.4904
0.4619
0.1913 –0.1913 –0.4619 –0.4619 –0.1913 0.1913
0.4157 –0.0975 –0.4904 –0.2778 0.2778 0.3536 –0.3536 –0.3536 0.3536 0.2778 –0.4904 0.0975
0.3536
0.4904
0.3536
0.3536
0.4619
0.0975 –0.4157
0.3536 –0.3536 –0.3536 0.3536
0.4157 –0.4157 –0.0975 0.4904 –0.2778
0.1913 –0.4619 0.4619 –0.1913 –0.1913 0.4619 –0.4619 0.1913 0.0975 –0.2778 0.4157 –0.4904 0.4904 –0.4157 0.2778 –0.0975
Таблица 3.3 91
3
–5
–6
2
0
0
1
–38
–57
9
17
–2
2
4
2
–80
58
0
–18
4
3
–4
4
–52
–36
–11
13
–9
3
–2
0
–86
–40
44
–7
17
–6
–2
4
–62
64
13
–1
3
–8
–1
0
–16
14
–35
17
–11
2
3
–1
–53
32
–9
–8
22
0
0
2
Таблица 3.4 3
5
7
9
11
13
15
17
5
7
9
11
13
15
17
19
7
9
11
13
15
17
19
21
9
11
13
15
17
19
21
23
11
13
15
17
19
21
23
25
13
15
17
19
21
23
25
27
15
17
19
21
23
25
27
29
17
19
21
23
25
27
29
31
33
Таблица 3.5 30
0
0
0
0
0
0
0
–7
–8
1
1
0
0
0
0
–11
6
0
1
0
0
0
0
–5
–3
0
0
0
0
0
0
–7
–3
2
0
0
0
0
0
–4
4
0
0
0
0
0
0
–1
0
1
0
0
0
0
0
–3
1
0
0
0
0
0
0
Для более эффективного применения RLE&метода к матрице кван& тованных спектральных коэффициентов она преобразуется в вектор так называемым «зигзаг&сканированием». При этом в вектор зано& сятся элементы матрицы, стоящие по диагональным линиям, начи& ная от угла матрицы, соответствующего нулевым спектральным от& счетам, к противоположному углу, соответствующему максималь& ным спектральным отсчетам, в результате чего малые и нулевые ко& эффициенты группируются вместе. Например, результат зигзаг&ска& нирования матрицы, представленной в табл. 3.5, будет иметь следу& ющий вид: 30, 0, –7, –11, –8, 0, 0, 1, 6, –5, –7, –3, 0, 1, 0, 0, 0, 1, 0, –3, –4, –1, 4, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, –3, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0. Иногда перед сжатием цветных изображений методом ДКП при& меняется субдискретизация, что позволяет сократить объем данных для ДКП примерно в два раза при минимальных потерях качества. Как уже указывалось, точное сохранение информации о яркости пик& селя существенно важнее для качества изображения, чем сохранение информации о его цвете, так как зрение человека значительно силь& нее реагирует на небольшие изменения яркости, чем на небольшие изменения цвета, ведь в сетчатке глаза плотность распределения па& лочек значительно выше, чем колбочек. Следовательно, можно за& поминать полную цветовую информацию не для каждого пикселя. На первом шаге при реализации данного вида сжатия выполняется перевод изображения из системы RGB в систему, разделяющую ярко& стную и цветовую информацию, например XYZ. Значения яркости каж& дого пикселя сохраняются для каждого фрагмента неизменными, а яр& костные составляющие соседних четырех или восьми элементов заме& няются их средними значениями. Легко подсчитать, что в последнем 34
случае степень сжатия составляет более 50%, так как количество дан& ных на один пиксель сокращается с 24 до 10 бит. При восстановлении изображения цветовые составляющие пикселей определяются путем интерполяции. Более высокие коэффициенты субдискретизации прак& тически всегда приводят к заметным потерям качества изображения, и их можно применять только для видеопотоков. Особенностью сжатия потока видеоданных является использова& ние не только внутрикадровой, но и межкадровой информационной и психофизической избыточности. Именно межкадровая избыточ& ность позволяет, во&первых, существенно сократить размер кадра до 288 строк по 334 пикселя в каждой, а во&вторых, уменьшить число кадров до 16 в секунду без существенных потерь качества воспроиз& водимого изображения и плавности движения объектов. Существует много различных методов сжатия видеопотока, на& пример Indeo 3.2, MJPEG, MPEG, которые используют межкадро& вую избыточность. В основе этих методов лежит тот факт, что в пос& ледовательности кадров подвижного изображения соседние кадры в большинстве случаев не очень существенно отличаются друг от дру& га. Вполне возможно запоминать один опорный кадр, а затем разно& стную информацию, т. е. дельта&кадры, которые показывают, чем последующие кадры отличаются от опорного кадра. При реализации устранения межкадровой избыточности для со& кращения вычислений изображения разбиваются на блоки размером 16 ´ 16 пикселей и все операции сравнения для получения разно& стной информации проводятся над ними. Кроме этого, изменения от кадра к кадру, как правило, происходят в определенном направле& нии, что позволяет для следующих смежных кадров запоминать толь& ко векторы смещения отдельных блоков. К полученным таким обра& зом кадрам применяются методы внутрикадрового сжатия. В резуль& тате сжатия видеопотока получаются цепочки, состоящие из опор& ного кадра и последовательности его дельта&кадров. Естественно, чем длиннее цепочка, тем выше сжатие, но и выше степень искажения. Уровень сжатия может выбираться динамически в зависимости от конкретного содержания видеопотока. Следует отметить, что в большинстве случаев при преобразова& нии изображения к одному из графических форматов последователь& но используется несколько методов, что позволяет добиться макси& мально возможной степени сжатия. Например, процесс преобразова& ния цветного изображения с 24&битным RGB&представлением цвета к формату JPEG включает в себя следующую последовательность операций: 35
– изображение разбивается на блоки размером 16 ´ 16 пикселей каждый, которые кодируются далее независимо друг от друга; – производится перекодирование RGB&представления в схему XYZ, и матрица, представляющая яркостную компоненту Y, разделяется на 4 матрицы размером 8 ´ 8 элементов, а для двух матриц цветовых компонент X и Z выполняется субдискретизация с коэффициентом 2, в результате чего получается 6 матриц размером 8 ´ 8 элементов; – к каждой из шести матриц применяется ДКП с квантованием на 4096 уровней и записью каждого спектрального отсчета 12&разряд& ным двоичным кодом; – каждая матрица квантованных спектральных отсчетов преоб& разуется в вектор из 64 элементов зигзаг&сканированием; – полученный вектор вначале сжимается RLE&методом, а его ре& зультат сжимается методом Хаффмана с фиксированной таблицей, в которой короткие коды соответствуют малым последовательностям нулей и малым значениям ненулевых спектральных коэффициентов. Преобразование из JPEG&формата к RGB&представлению повто& ряет все операции в обратном порядке. Необходимо отметить, что в случае многократного JPEG&сжатия разными программами и с различными параметрами может проявить& ся блочная структура, однако повторяющееся сжатие одной и той же программой с постоянными параметрами некритично.
36
4. ИСКАЖЕНИЯ ИЗОБРАЖЕНИЙ И ИХ УСТРАНЕНИЕ
4.1. Классификация искажений Как сказано выше, в результате анализа изображений система распознавания должна сформировать модель сцены, т. е. фактичес& ки выделить на изображении объекты, составляющие сцену, отнес& ти их к одному из известных классов и определить их характеристи& ки, например положение в пространстве. Естественно, такое распо& знавание может быть успешно выполнено только при условии, что изображения разных объектов чем&то отличаются друг от друга. В противном случае для системы распознавания эти объекты будут идентичны. К сожалению, различаются не только изображения раз& ных объектов, но в подавляющем большинстве случаев два изобра& жения одного и того же объекта тоже существенно отличаются друг от друга. В этом и заключается основная сложность распознавания объектов по их изображениям. Причины, вызывающие указанное отличие, можно условно раз& делить на три группы: 1) технические помехи, обусловленные систематическими погреш& ностями и случайными сбоями аппаратуры при получении, передаче и хранении изображений; 2) изменения освещенности сцены, связанные с перемещением источников света, изменением их числа и характеристик; 3) изменение взаимного положения объектов сцены и устройства получения изображения. Искажения изображения, вызываемые первыми двумя причина& ми, принято называть яркостными, а искажения, вызываемые тре& тьей причиной, – пространственными. Следует отметить, что, если яркостные искажения в принципе могут быть в большинстве случаев достаточно эффективно устране& ны, то от пространственных искажений, связанных с изменением ракурса съемки или движением объектов в поле зрения, избавиться значительно труднее, так как они являются непосредственным ре& 37
зультатом изменения окружающей среды. Фактически, именно ха& рактер этого изменения и необходимо выявить системе распознава& ния, с тем чтобы с учетом полученной ею информации система управ& ления могла принять наиболее верное решение. Остановимся на процессе возникновения искажений. Как уже ска& зано, в результате освещения сцены, состоящей из отдельных объек& тов, отраженный от них поток электромагнитного излучения, т. е. видимый свет, радиоволны, инфракрасное или рентгеновское излу& чение, проходит через среду распространения и попадает на устрой& ство формирования изображения, объектив которого проецирует этот поток на фиксирующую поверхность. Зафиксированный тем или иным образом в некоторый момент времени результат воздействия электромагнитного потока на поверхность проецирования и являет& ся изображением. В математической форме процесс формирования изображения можно описать как отображение трехмерного пространства R3 на плоскость R2, т. е. F : R 3 1 R 2 . Сцена может быть задана в простран& стве R3 как функция 1 (2, 3, 4), тогда изображение есть результат ото& бражения f (x, y) 1 F [2 (3, 4, 5)],
(4.1)
где x, y – координаты пространства R2; e, r, q – координаты простран& ства R3. Значение функции f(x, y) при таком подходе представляет собой яркость изображения в точке (x, y) плоской декартовой систе& мы координат. В результате отображения размерность пространства понижается, что позволяет говорить, в лучшем случае, о гомоморф& ном отображении объектов на плоскость, т. е. потере части информа& ции о трехмерной сцене при ее отображении на плоскости. Однако при выполнении ряда ограничений отображение может быть изоморф& ным, т. е. изображение будет полностью адекватно сцене в информа& ционном смысле. Отображение F описывает процесс прохождения электромагнит& ного потока от объектов сцены до поверхности проецирования и в принципе может быть представлено в виде некоторой системы урав& нений. Однако в процесс получения изображения на практике всегда вносятся искажения, обусловленные свойствами среды распростра& нения, ее флуктуациями и турбулентностью, движением видеокаме& ры и ее вибрацией, несовершенством оптики, например неточной фо& кусировкой и дифракцией, нелинейностью характеристик и шумом системы формирования изображения и каналов передачи. Как след& ствие, в систему распознавания поступает уже искаженное изобра& 38
жение f 1(x 1, y1) 2 A[f (x, y)], где A – оператор, описывающий искаже& ния, вносимые в изображение f(x, y), которое, в свою очередь, можно назвать идеальным или эталонным. Таким образом, математически задача устранения искажений сводится к нахождению обратного опе& ратора A–1 и применению его к искаженному изображению, т. е. про& ведению преобразования f (x, y) 2 A 11 [f 1(x1, y1)]. Как сказано выше, все искажения можно условно разделить на пространственные, проявление которых описывается оператором A1, и яркостные, описываемые оператором A2. Тогда оператор A = A1 A2,
(4.2)
причем порядок следования операторов определяется спецификой процесса получения изображения, так как вид и параметры операто& ра A2 в общем случае зависят от координат (x, y). При таком подходе пространственное искажение можно представить как некоторое от& клонение при отображении точки пространства R3 в R2, т. е. реаль& ный результат проецирования точки (e, r, q) в точку R 2 (x 1, y1) не со& впадает с точкой R2 (x, y) = F(e, r, q) согласно (4.1). Яркостное иска& жение можно представить как некоторое отклонение яркости дан& ной точки от эталонного значения при отсутствии пространствен& ных искажений, т. е. когда результат проецирования f 1(x1, y1) отли& чается от f(x, y) при x1 2 x, y1 2 y. В некоторых случаях при коррекции искажений их разделение на пространственные и яркостные не производится, что может быть оправдано, если пространственные искажения несущественны, скомпенсированы при настройке устройства получения изображе& ния или не имеют значения для используемых алгоритмов распо& знавания. Следует отметить, что для случая отсутствия пространственных искажений существуют эффективные алгоритмы распознавания объектов, которые могут вполне удовлетворительно работать даже при существенных яркостных помехах. Естественно, вероятность правильного распознавания при одном и том же уровне помех зави& сит как от применяемого метода, так и от степени отличия распозна& ваемых объектов по выбранным признакам. Однако вероятность пра& вильного распознавания объектов при отсутствии яркостных помех, но наличии пространственных искажений различного вида быстро снижается, даже при простейших пространственных искажениях типа «смещение», если признаки, по которым производится распо& знавание, не инвариантны к данному искажению. Очевидно, в об& щем случае для правильного распознавания объекта по его изобра& 39
жению необходимо эффективно компенсировать как пространствен& ные, так и яркостные искажения. Структура оператора A2 из (4.2), описывающего яркостные искаже& ния, может быть достаточно сложна и в общем случае эквивалентна последовательному действию нескольких операторов, каждый из которых соответствует различным этапам и особенностям получе& ния изображения. Следует отметить, что проблема коррекции ярко& стных искажений тесно связана с вопросами сегментации, т. е. отне& сения точек изображения к фону или отдельным фрагментам, каж& дый из которых в дальнейшем анализируется отдельно. В самом деле, для успешной коррекции помех необходимо иметь некоторую апри& орную информацию о «полезном» изображении и характеристиках помех, в какой&то мере аналогичную априорной информации о сег& ментируемых фрагментах и фоне. Очевидно, что чем детальнее эта информация, тем результативнее процесс обработки изображения. Однако затруднительно дать универсальное, применимое на практи& ке определение помех. Приходится в каждом конкретном случае да& вать некоторое описание помехи и полезного сигнала, что не позво& ляет найти универсальный метод определения оператора A211, об& ратного к A2, для компенсации любых яркостных помех. Приведем классификацию яркостных помех по различным харак& теристикам. По размерам на изображении: – точечные (случайно расположенные компактные фрагменты раз& мером 1–3 пикселя, более яркие или более темные, чем окружающая их область – «зерно»); – линейные (регулярные и расположенные случайным образом горизонтальные, вертикальные и произвольно направленные линии малой толщины); – локальные (различимые пятна произвольной формы и яркости, часто образующие ложные контуры). Наиболее трудно устранимы последние, так как требуют анализа структуры изображения, чтобы отличить ложные контуры от реальных. По яркости: – слабые (ярче или темнее окружающей области на 1–3 значения яркости); – сильные (яркость помехи существенно отличается от яркости ее окрестности). Основные сложности при компенсации как тех, так и других воз& никают, если яркость точек окружающей области непостоянна, что имеет место, например, на контуре фрагмента. 40
По степени распространения: – глобальные (выявляемые на всем изображении); – изолированные (присутствующие только на одном или несколь& ких участках изображения); – связанные (присущие только некоторым структурным элемен& там изображения, например, «смаз» контурной линии однородного по яркости фрагмента на однородном фоне, вызванный относитель& ным движением объекта и камеры во время получения изображения). Наиболее сложным случаем яркостных искажений следует при& знать сочетание нескольких типов помех на одном изображении, на& пример наличие «смаза» и «зерна». По вероятности появления: – случайные (яркость, размеры и положение определяются стати& стическими закономерностями); – систематические (характеристики помехи детерминированы, например, равномерное изменение яркости – «засветка»). Выявление статистических закономерностей требует большого объема информации и ее предварительной обработки. Систематичес& кие помехи могут быть определены заранее с помощью тестовых изоб& ражений и в дальнейшем сравнительно легко компенсироваться. 4.2. Методы коррекции яркостных искажений Следует отметить, что методы коррекции яркостных искаже& ний часто рассматриваются по аналогии с методами подавления шумов и выявления полезного одномерного сигнала. При этом из& вестные фильтры и методы, используемые для сигнала как функ& ции одной переменной, модернизируются под функцию двух пере& менных, часто без учета других специфических особенностей изоб& ражения. Например, для подавления помех и выделения контура применяется прямое преобразование Фурье, результат преобразо& вания обрабатывается фильтром, подавляющим, соответственно, высокочастотную или низкочастотную составляющую, после чего выполняется обратное преобразование Фурье [6]. Наибольшая эффективность достигается при использовании оптоэлектронных преобразователей или специализированных микропроцессорных устройств. Однако аналогичных результатов можно добиться, исполь& зуя пространственные фильтры без перевода изображения в базис Фурье, что существенно упрощает процесс обработки изображе& ния на компьютере и не требует специальных устройств. В литера& туре по обработке изображений [7] подчеркивается, что в отличие 41
от «звуковых» образов шум и «полезное» изображение не адди& тивны, т. е. f 1(x, y) 2 f (x, y) 3 n(x, y), где n(x, y) – шум, а для звуко& вых сигналов f 1(x, y) 2 f (x, y) 3 n(x, y). Как следствие, методы вы& деления и обработки звуковых сигналов мало применимы в об& работке изображений. Наиболее перспективным, с точки зрения создания алгоритмов обработки изображения, представляется их разделение на преобра& зования шкалы яркости и пространственные фильтры. Преобразование шкалы яркости предполагает формирование по некоторому закону функции преобразования шкалы яркости исход& ного, т. е. искаженного, изображения в шкалу яркости результиру& ющего, т. е. скорректированного, изображения и последовательное преобразование яркости точек исходного изображения в соответствии с этой функцией: f 11(x, y) 2 S[f 1(x, y)],
(4.3)
где f 1(x, y), f 11(x, y) – яркости точек соответственно исходного и ре& зультирующего изображений; S – функция преобразования шкалы яркости. Областью возможных значений как аргумента функции S, так и значений самой функции является диапазон возможных значе& ний яркости изображения. Функция S должна быть непрерывной и монотонной, задавая тем самым однозначное соответствие между значениями аргумента и функции. Для дискретного изображения S представляет собой одномерный массив размером с возможный диапазон яркости исходного изобра& жения, причем значение каждого элемента этого массива равно неко& торой яркости результирующего изображения в соответствии с выб& ранным законом преобразования. Преобразование происходит сле& дующим образом. Яркость текущего пикселя исходного изображе& ния определяет номер элемента массива S, значение которого и при& нимается в качестве яркости соответствующего пикселя результиру& ющего изображения. Скорость преобразования очень высока, так как из (4.3) видно, что яркость пикселя результирующего изображения зависит от яркости только одного пикселя исходного изображения с теми же координатами. В свою очередь, из преобразований шкалы яркости можно выде& лить линейные преобразования, при которых f 11(x, y) 2 kf 1(x, y) 3 l,
(4.4)
где k, l – параметры конкретного преобразования. Например, для обеспечения полного использования диапазона яркости изображе& 42
ния в пределах {0, 255} путем растяжения шкалы яркости парамет& ры k, l определяются из системы уравнений 1 (x, y) 2 l 3 0; 4kfmin 5 1 (x, y) 2 l 3 255, 6kfmax
(4.5)
1 , fmax 1 – соответственно минимальное и максимальное значе& где fmin ния яркости исходного изображения. Преобразования шкалы яркости, которые нельзя представить в виде (4.4), относятся к нелинейным преобразованиям. Например, для бина& ризации изображения по некоторому порогу S определяется как 4S[f 1(x, y)] 2 0, f 1(x, y) 3 R; 5 7 S[f 1(x, y)] 2 1, f 1(x, y) 6 R,
где R – значение порога бинаризации. К нелинейным преобразованиям шкалы яркости относятся и ме& тоды, основанные на построении преобразования S по известной ги& стограмме яркости исходного изображения и требуемой гистограмме результирующего изображения, такие как эквализация, логарифми& зация, гиперболизация шкалы яркости. Пространственная фильтрация предполагает, что яркость точки результирующего изображения зависит от яркости нескольких, как правило, смежных, точек исходного изображения. Пространствен& ные фильтры тоже можно разделить на фильтры, реализующие ли& нейное и нелинейное преобразования. Линейная пространственная фильтрация предполагает определе& ние яркости точки f²(x, y) результирующего изображения как функ& ции от яркостей точек f¢(x, y) некоторой окрестности соответствую& щей точки исходного изображения: f 11(x, y) 2 F [f 1(x 3 p, y 3 q), ..., f 1(x, y), ..., f 1(x 4 p, y 4 q)], (4.6)
где F – некоторая функция; p, q – размер окрестности; x = –p, ..., 0, ..., p, y = –q, ..., 0, ..., q – координаты точки исходного изображения из этой окрестности. Работу большинства линейных пространственных фильтров мож& но представить как операцию свертки исходного изображения f¢(x, y) с импульсной характеристикой фильтра h(x, y), называемой функ& цией рассеяния точки, т. е. f 11(x, y) 2
1 1
6 6 f 1(3, 4)h(x 5 3, y 5 4)d3d4,
21 21
43
где u, h – переменные интегрирования. Например, для сглаживающе& го высокочастотную составляющую функции яркости интегрально& го фильтра с импульсной характеристикой, постоянной в окрестнос& ти S, яркость результирующего изображения f 11(x, y) 2
1 f 1(x, y)ds. S 33 S
(4.7)
Импульсную функцию линейного пространственного фильтра для дискретного изображения можно представить в виде маски 1 h1 p 1q 3 H 5 kH 3 ... 3h 6 p 1q
... h00 ...
h1 pq 2 4 ... 4, hpq 74
где kH – нормирующий коэффициент; hij – весовые коэффициенты, учитывающие степень влияния данного пикселя из окрестности раз& мером (2 p 1 1) 2 (2q 1 1) на результат фильтрации. Тогда операцию про& странственной фильтрации дискретного изображения можно пред& ставить как f 11(x, y) 2 kH
p, q
4
i 12 p, j 12q
hij f 1(x 3 i, y 3 j).
Соответственно, маска для фильтра (4.7) имеет вид
11 1 12 13 4 H 5 3 1 1 1 4. 93 4 61 1 17
(4.8)
Размер и форма окрестности f 1(x, y) , учитываемая при определе& нии f 11(x, y), зависит от конкретного фильтра и может варьироваться от квадрата 2´2 для контурного фильтра Робертса до полного изобра& жения для разложения в спектры Фурье, Уолша, Адамара, Хаара и др. Для некоторых фильтров преобразование функции яркости не& возможно представить в виде (4.6). Такие фильтры следует отнести к нелинейным пространственным фильтрам. Например, одна из раз& новидностей медианного фильтра, предназначенного для подавления импульсных помех, представляется как f 11(x, y) 2 mid{f 1(x 3 p, y 3 q), ..., f 1(x, y), ..., f 1(x 4 p, y 4 q)}, (4.9) pq
44
где mid – операция выбора среднего по номеру элемента в упорядо& ченном по возрастанию наборе значений яркости из заданной окрест& ности pq. Необходимо отметить неопределенность, возникающую при обра& ботке краев изображения методами пространственной фильтрации. Согласно (4.6), для пикселей, лежащих на крайних строках и столб& цах, необходимо задавать неизвестную яркость соседних пикселей, лежащих за границей изображения. Возможны два подхода для раз& решения этой проблемы. Первый подход предполагает сокращение размеров результирующего изображения на величину окрестности. Недостаток подхода заключается в том, что в результате многократ& ной обработки изображения его размер может заметно уменьшиться. Во втором подходе предлагается яркость пикселя, лежащего за гра& ницей изображения, принимать равной яркости ближайшего пиксе& ля изображения. Последнее вполне оправдано, так как существен& ное изменение яркости соседнего с крайним пикселя возможно, толь& ко если граница объекта на изображении совпадает с границей изоб& ражения, что в большинстве случаев маловероятно. Сравнительную оценку эффективности методов обработки изоб& ражения можно произвести, во&первых, по степени сложности ал& горитма, во&вторых, по влиянию на вероятность распознавания образа, изображение которого обработано сравниваемыми мето& дами. На практике для сравнения различных фильтров использу& ется набор тестовых изображений с наложенными на них искаже& ниями заданного вида. Тогда для оценки результата коррекции помех можно использовать норму разности изображений, т. е. ре& зультат коррекции можно считать положительным, если по всему изображению | f 11(x, y) 2 f (x, y) | 3 | f 1(x, y) 2 f (x, y) | .
(4.10)
Следует заметить, что методы обработки изображений, подпада& ющие под данную классификацию, помимо собственно компенсации яркостных помех включают в себя: – редактирование изображений, т. е. наложение и совмещение изображений, выделение простых фрагментов, сдвиг по горизонтали и вертикали, поворот на 90°, изменение масштаба, преобразование негатив&позитив и т. п.; – преобразование изображения из одной системы координат в дру& гую, например из декартовой в полярную; – улучшение качества изображения, т. е. повышение контрастно& сти и резкости изображения; 45
– выделение контура как бинарного, так и многоградационного изображения; – бинаризацию многоградационного изображения; – сегментацию изображения. Все эти методы включают в себя большое количество разнообраз& ных алгоритмов и находят практическое применение при обработке изображений. Серьезной проблемой является выбор наиболее эффек& тивных алгоритмов обработки для конкретного класса изображений в зависимости от его дальнейшего использования. Известно, что кон& тур отдельного фрагмента изображения, наряду с текстурой, облада& ет существенной информативностью с точки зрения распознавания. Последнее условие особенно важно для малоразмерных и бинарных фрагментов. В связи с этим представляется вполне оправданным в дальнейшем основное внимание уделить рассмотрению методов, су& щественно влияющих на качество выделения контура и бинариза& цию изображений.
46
5. ПРЕОБРАЗОВАНИЯ ШКАЛЫ ЯРКОСТИ
5.1. Линейные преобразования Согласно (4.4), линейное преобразование шкалы яркости опреде& ляется коэффициентами k и l. Можно сказать, что l определяет изме& нение яркости изображения, а k – изменение его контрастности. Если k = 1, то значение l показывает величину смещения шкалы яркости. В результате общая яркость изображения повышается или понижа& ется в зависимости от знака l в пределах возможного диапазона ярко& сти. Гистограмма яркости также смещается на величину l без изме& нения формы. Если значение l выбрано так, что часть преобразованной шкалы яркости оказывается за пределами диапазона допустимых значений яркости (zdmin…zdmax), то преобразованное изображение будет частич& но засвечено или затемнено, а ее гистограмма яркости не только сме& стится, но и изменит форму за счет увеличения числа пикселей с мак& симальной или минимальной яркостью соответственно. В дальней& шем будем полагать zdmin = 0, zdmax = 255, что справедливо для боль& шинства монохромных изображений. Если l = 0, k>0, то k определяет уровень растяжения или сжатия шкалы яркости. Если k>1, то преобразование будет заключаться в растяжении шкалы яркости, что приведет к увеличению контраст& ности изображения, если же k < 1, то контрастность, соответствен& но, понизится. Учитывая дискретность изображения и ограничен& ный диапазон возможных значений яркости, можно предположить, что форма гистограммы яркости результирующего изображения бу& дет зависеть от значения k и диапазона яркости исходного изображе& ния. Если значение k выбрано так, что при увеличении контрастнос& ти максимальная яркость результирующего изображения не превы& сит 255, то на гистограмме яркости произойдет смещение отдельных вертикальных составляющих по оси яркости без изменения их зна& чений. При других значениях k гистограмма яркости изменится бо& 47
лее существенно, так как произойдет не только смещение отдельных составляющих гистограммы, но их частичное слияние. Максимально возможное увеличение контрастности изображения без слияния составляющих гистограммы может быть получено при одновременном смещении и растяжении шкалы яркости с коэффи& циентами, определяемыми уравнением (4.5). Необходимо отметить, что последовательное сжатие и растяже& ние шкалы яркости позволяет подавить слабые по яркости, но про& извольные по размерам помехи. Эффект достигается за счет дискрет& ного представления значения яркости. В результате при сжатии шка& лы яркости пиксели, имеющие близкие значения яркости, получают одинаковое значение, т. е. происходит сглаживание, а при растяже& Исходные изображения
Результаты обработки
Моделирование изображения с засветкой и тенью
Детали на конвейере (сжатие@растяжение шкалы яркости с коэффициентом 30)
Рис. 5.1. Подавление слабых локальных помех сжатием@растяжением шкалы яркости 48
нии шкалы информация о первоначальной яркости восстанавлива& ется не для всех пикселей. На рис. 5.1 продемонстрировано примене& ние данного метода для удаления локальных помех. Основная про& блема заключается в подборе коэффициента сжатия шкалы яркости таким образом, чтобы, с одной стороны, в результате подавить поме& хи, а с другой, не удалить полезную информацию. Преобразования шкалы яркости, при которых k < 0, приводят к частичной или полной инверсии яркости пикселей изображения в зависимости от значения l. Например, при k = –1, l = 255 произойдет полная инверсия монохромного изображения, т. е. наиболее яркие пиксели исходного изображения станут наиболее темными пикселя& ми преобразованного изображения и наоборот. 5.2. Нелинейные преобразования Линейное преобразование шкалы яркости позволяет увеличить контрастность исходного изображения, только если диапазон ярко& сти исходного изображения меньше допустимого. Если же диапазон яркости полностью занимает весь допустимый интервал, то увеличе& ния контрастности можно добиться путем частичного смещения фун& кции преобразования шкалы яркости вне данного диапазона с сохра& нением линейности преобразования. Применение нелинейных функ& ций преобразования шкалы яркости позволяет более эффективно добиться увеличения контрастности в требуемой области изображе& ния. Логарифмическое преобразование шкалы яркости исходного изоб& ражения z p 1 cn ln(z), где сn – нормирующий коэффициент; z, zp – со& ответственно значения исходной и преобразованной шкал яркости, приводит к увеличению контраста для наиболее темных областей изображения и слиянию наиболее светлых областей. Экспоненци& альное преобразование zp = cez, соответственно, приводит к обратно& му результату (рис. 5.2). Значение коэффициента сn необходимо под& бирать таким, чтобы диапазон изменения zр был максимальным, на& пример, для логарифмического преобразования шкалы яркости cn 1
d zmax d ln(zmax )
.
Увеличения контрастности отдельных плохо различимых облас& тей изображения, яркость которых лежит в средней области гисто& граммы, можно добиться выравниванием или эквализацией гисто& 49
Исходное изображение
Гистограммы яркости
Логарифм яркости
Экспонента яркости
Эквализация гистограммы
Рис. 5.2. Преобразование шкалы яркости 50
граммы [8]. Предполагается, что, с точки зрения статистики, наи& большая контрастность достигается на изображении, гистограмма которого представляет равномерное распределение пикселей по яр& костям на всем диапазоне. Тогда дискретная форма преобразования шкалы яркости имеет вид zkp 1
cn 255 2 B(zk ), S k 10
(5.1)
где zkp – значение элемента преобразованной шкалы яркости, соот& ветствующей k&й яркости исходной шкалы; B(zk) – гистограмма яр& кости исходного изображения; S – число пикселей изображения. Из уравнения (5.1) следует, что для получения яркости пикселя резуль& тирующего изображения, соответствующего яркости пикселя исход& ного изображения, необходимо суммировать элементы гистограммы от минимального значения яркости до данной яркости. На рис. 5.3 Исходное изображение
Гистограммы яркости
Обработанное изображение
Рис. 5.3. Выравнивание гистограммы яркости (
– выявленный объект) 51
приведен пример повышения контрастности путем выравнивания ги& стограммы. 5.3. Методы бинаризации изображений Бинаризацией называется процесс преобразования полутонового изображения в изображение, яркость пикселей которого может иметь только два значения – 0 или 1. Такое изображение называется би& нарным. Метод часто применяется в качестве предварительной обра& ботки как для последующей сегментации, так и для выполнения ряда других операций, так как известно большое число эффективных ал& горитмов обработки бинарных изображений [9]. Как уже отмечалось, методы бинаризации изображений можно отнести к нелинейным преобразованиям шкалы яркости. Алгоритм собственно преобразования изображения предельно прост, и основ& ная проблема состоит в выборе значения порога бинаризации R в уравнении (4.6) на основании некоторой априорной информации об изображении. Одно из наиболее общих предположений о струк& туре изображения заключается в следующем. В большинстве слу& чаев на изображении некоторой сцены, состоящей из отдельных объектов, имеется существенное отличие яркости пикселей, соответ& ствующих фону, от яркости пикселей, соответствующих объектам, причем яркость последних практически совпадает. Фактически вы& бор порога бинаризации основан на вполне правдоподобном предпо& ложении о выраженной бимодальности гистограммы яркости. Наиболее простой метод – установка порога еще на этапе форми& рования изображения в процессе его квантования. Он позволяет сра& зу получить бинарное изображение и в дальнейшем применять к нему методы логической фильтрации, рассматриваемые далее. Метод на& ходит применение в простых системах ввода изображений для объек& тов с близкими яркостями, существенно отличающимися от яркости фона, и стабильным во времени равномерным освещением сцены. Конкретное значение порога, как правило, выбирается эксперимен& тально на этапе настройки аппаратуры получения изображений. Близким к предыдущему является метод установления порога как среднего арифметического максимального и минимального значения яркости на всем изображении, т. е. R 1 0.5(zmin 2 zmax ).
(5.2)
Очевидно, данный метод позволяет компенсировать равномерное изменение освещенности сцены на разных изображениях. 52
Более сложные методы выбора порога стремятся как&то адаптиро& ваться к неравномерному по площади освещению сцены и его измене& нию во времени, к различным значениям яркости изображений от& дельных объектов в одной сцене, а также к различиям яркости от& дельных точек изображения одного объекта. Практически все они основаны на анализе гистограммы яркости. Так, например, на некоторых гистограммах значения B(zmin) или B(zmax) малы по величине по сравнению с другими и отстоят от них на значительное расстояние. Как правило, такой эффект возникает при наличии небольшого количества нескомпенсированных импуль& сных яркостных помех, значительно отличающихся по яркости от основного изображения. В таком случае определение порога R по фор& муле (5.2) может привести к существенным искажениям при бинари& зации. Избежать этого можно, модифицировав гистограмму перед вы& числением R путем удаления значений B(zmin) или B(zmax), если они малы по величине и отстоят от основной гистограммы на значитель& ное расстояние. Как указано ранее, гистограмма яркости изображения сцены, со& стоящей из нескольких объектов близкой яркости на равномерном фоне, имеет два выраженных максимума, один из которых соответ& ствует яркости точек объектов, а другой – яркости точек фона. Есте& ственно, чем больше неравномерность яркости точек фона и объек& тов и чем больше разница средней яркости для изображений отдель& ных объектов в данной сцене, тем менее выражены эти максимумы. В пределе на сложных изображениях, типа аэрофотоснимков земной поверхности с большим количеством мелких деталей разной ярко& сти, гистограмма может иметь несколько локальных максимумов, которые слабо коррелируют с конкретными объектами. Однако на изображениях технологических и ряде других сцен эту корреляцию можно обнаружить. В качестве порога можно использовать значение глобального ми& нимума гистограммы, расположенное между двумя наибольшими максимумам. Алгоритм его нахождения для дискретных изображе& ний не вызывает каких&либо трудностей. В самом деле, если предпо& ложить, что объекты на изображении имеют большую яркость, а фон – меньшую, то вначале находятся максимумы гистограммы, соот& ветствующие яркостям точек фона и объектов, а потом последова& тельным перебором определяется глобальный минимум между ними. Метод дает приемлемые результаты при наличии хорошо различи& мых максимумов и явно выраженном минимуме. Однако для гисто& грамм, имеющих существенный диапазон значений, близких к гло& 53
бальному минимуму, могут возникнуть трудности в его локализа& ции. А ведь значительное смещение порога в ту или иную сторону может привести к заметным изменениям результата бинаризации. В какой&то мере компенсировать этот недостаток позволяет ме& тод, определяющий порог как 255
R1
2 kB(k)
k 10 255
2 B(k)
,
(5.3)
k 10
т. е. средневзвешенное значение модифицированной гистограммы яркости. Заметим, что для немодифицированной гистограммы R со& ответствует среднему значению яркости по всему изображению. Оче& видно, алгоритм данного метода не требует поиска экстремумов гис& тограммы, что существенно сокращает время обработки изображе& ния, особенно для скользящих порогов, описанных ниже. Интеграль& ный характер зависимости R от B(k) в формуле (5.3) определяет не& сколько большую устойчивость данного алгоритма к уровню помех по сравнению с методом определения порога по глобальному мини& муму. На рис. 5.4 приведены исходные изображения, отличающиеся наличием практически неразличимых визуально помех с яркостью, близкой к порогу бинаризации, их гистограммы и результаты бина& ризации с порогом, определяемым глобальным минимумом и средне& взвешенным значением гистограммы яркости. Изложенные методы определяли порог бинаризации как постоян& ное значение для всего изображения. Однако при наличии неравно& мерного освещения или существенных отличий в яркости изображе& ний разных объектов установка постоянного порога при бинариза& ции не дает положительного результата, что хорошо видно из приме& ра на рис. 5.5. В таком случае можно применить переменный порог, определяемый для некоторой прямоугольной области изображения. Однако при таком подходе возникает проблема возможного возник& новения как разрывов линий контуров, так и ложных контуров на границе областей. Избежать этого в какой&то мере можно, используя частично перекрывающиеся области. В данном случае для определе& ния гистограммы используется вся заданная область, но значение порога применяется для бинаризации пикселей только ее централь& ной части. В пределе для каждого пикселя изображения можно определять свой порог бинаризации по гистограмме яркости некоторой окрест& 54
Исходные изображения
Гистограммы яркости
143 30
123 36
513 23
563 29
Результаты бинаризации Метод глобального минимума (порог 36 и 23 соответственно)
Метод средневзвешенного порога (порог 30 и 29 соответственно)
Рис. 5.4. Сравнение методов бинаризации
ности данного пикселя. Данный метод, называемый бинаризацией со скользящим порогом, относится не к преобразованию шкалы ярко& сти, а к нелинейной пространственной фильтрации. Метод, давая хорошие результаты (см. рис. 5.5), приводит к существенному увели& 55
Исходные изображения Равномерное освещение
Неравномерное освещение
Гистограммы яркости
Бинаризация постоянным порогом
Бинаризация скользящим порогом
Рис. 5.5. Применение скользящего порога бинаризации по гистограмме яркости 56
чению времени обработки по сравнению с бинаризацией постоянным порогом. Кроме этого, гистограмма окрестности текущего пикселя далеко не всегда носит бимодальный характер, что может привести к трудностям при определении значения порога и, как следствие, к ошибкам бинаризации. Эксперименты показали, что вполне прием& лемые результаты как по качеству бинаризации, так и по скорости обработки получаются при определении значения скользящего по& рога по формуле (5.3). Основной проблемой для методов, использующих скользящий порог, является выбор размера окрестности, для которой строится гистограмма. Например, на результате бинаризации со скользящим порогом (см. рис. 5.5) хорошо видны ложные объекты, возникаю& щие при бинаризации пикселей фона, в окрестность которых не по& падают пиксели объектов. Избавиться от этих ложных объектов мож& но на этапе сегментации, так как их форма и размеры носят во мно& гом случайный характер. Очевидно, изменяя размер окрестности, для которой строится гистограмма яркости, можно не допустить появле& ния ложных объектов, но подобрать оптимальный, с точки зрения результата бинаризации, размер окрестности можно только экспе& риментально по набору тестовых изображений, отражающих особен& ности реальных сцен.
57