ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования СА...
5 downloads
111 Views
736KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования САНКТПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
С. Н. Воробьев, С. С. Осипов
ПАРАМЕТРИЧЕСКОЕ ОБУЧЕНИЕ В ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ
Учебное пособие
СанктПетербург 2005 1
УДК 519.7 ББК 22.18 В75 Воробьев С. Н., Осипов С. С. В75 Параметрическое обучение в теории распознавания образов: учеб. пособие / ГУАП. СПб., 2005. 46 с.: ил. Рассматривается проблема распознавания образов в радиоэлектрони ке, которая является ключевой при обнаружении и классификации сиг налов с неизвестными характеристиками и параметрами. Задача распоз навания формулируется как поиск однозначного отображения совокупно сти наблюдений на множество классов объектов. Теоретическая база рас познавания – математическая статистика. Наблюдения преобразуются в более удобные признаки распознаваемых классов, к которым применяют ся методы проверки статистических гипотез и оценивания. В учебном пособии представлены многомерное нормальное распределение, сингу лярное разложение корреляционной матрицы, декорреляция, вопросы создания эталонных признаков классов. Классификация по правилу ми нимума расстояния между наблюдаемыми и эталонными признаками ин терпретируется как синтез разделяющих функций. Рецензенты: кафедра информационных управляющих систем СПбГУТ; доктор технических наук, профессор С. А. Яковлев Утверждено редакционноиздательским советом университета в качестве учебного пособия
Учебное издание
Воробьев Станислав Николаевич Осипов Сергей Семенович
ПАРАМЕТРИЧЕСКОЕ ОБУЧЕНИЕ В ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ
Учебное пособие Редактор А. В. Семенчук Компьютерная верстка О. И. Бурдиной Сдано в набор 05.10.05. Подписано к печати 23.11.05. Формат 60´84 1/16. Бумага офсетная. Печать офсетная.
Усл. печ. л. 2,75. Уч.изд. л. 3,08. Тираж 150 экз. Заказ № 584.
Редакционноиздательский отдел Отдел электронных публикаций и библиографии библиотеки Отдел оперативной полиграфии ГУАП 190000, СанктПетербург, ул. Б. Морская, 67
© ГОУ ВПО СПбГУАП,2005
2
ВВЕДЕНИЕ Распознавание образов используется во многих областях науки и техники и лежит в основе управления голосом оператора, в автомати зации информационносправочных служб. В медицине распознавание образов составляет основу экспрессдиагностики заболеваний. В кри миналистике и охране важных объектов на основе распознавания обра зов идентифицируется личность. Научнопрактическое применение рас познавания образов нашло в метеорологии, геофизике, геохимии, гео логии, геодезии и картографии и т. д. Распознавание можно определить как классификацию – отнесение исследуемого объекта, задаваемого в виде совокупности наблюдений, к одному из взаимоисключающих классов. Задачу распознавания можно сформулировать как задачу поиска однозначного отображения сово купности наблюдений X на множество классов K 3 1K1, K2,..., KM 2 . Класс Ki можно заменить его номером i, и тогда отображение X 3 11,2,...,M2 записывается как целочисленная функция m 3 4 1 X 2 . Пример – обнаружение цели в радиолокации: при гипотезах H0 и H1 сигнал на входе (наблюдения) X 1 N , X 1 N 2 S ( N,S – векторы отсче тов шума и зондирующего сигнала, отраженного от цели); задача – ана лизируя наблюдения, принять одну из двух гипотез. Задача обнаруже ния по сути классификационная, так как гипотезы в терминологии математической статистики являются классами в терминологии рас познавания образов. Теоретические вопросы классификации изучаются в разделе «Про верка статистических гипотез» математической статистики. Оптималь ное решение задачи обнаружения включает два этапа: преобразование наблюдений X в случайное число 1 , называемое статистикой проверки гипотез; сравнение статистики с критическим значением 1 0 – гипотеза H1 принимается (цель обнаруживается) при условии 1 2 1 0 . Подобная последовательность характерна для решения задач рас познавания образов. Прежде всего, наблюдения X преобразуются в при знаки Y распознаваемых классов
Y 3 41X2 , более удобные для распознавания, чем наблюдения. Общей процедуры выделения признаков не существует, признаки соответствуют конкрет ной задаче. Пусть, например, X – отсчеты сигнала телевизионной каме ры при наблюдении геометрических фигур разного цвета. В зависимос ти от того, классифицировать ли их по цветам или типу фигуры (прямо 3
угольники, треугольники, овалы), признаками могут быть интенсив ности базисных цветов (сигналы красного, зеленого и синего цвета) или результаты измерения длительности импульсных сигналов по строкам телевизионного растра. Часто стараются минимизировать число при знаков, доводя его, если это возможно, до единицы. Разумеется, инфор мативность множества признаков I 1 Y 2 3 I 1 X 2 должна быть достаточ ной для успешной классификации при условии достаточности I 1 X 2 . Распознавание затрудняется наличием случайной шумовой состав ляющей наблюдений, так что вероятность правильной классификации меньше единицы. Наиболее благоприятным является случай нормаль ного распределения шума, позволяющего в ряде случаев получить стро гое решение. Многомерное нормальное распределение, в том числе син гулярное разложение корреляционной матрицы и процедура декорре ляции, рассматривается в разд. 1. Вопросы создания эталонных признаков классов на базе оптималь ных методов оценивания параметров распределений изложены в разд. 2. Математические трудности оценивания корреляционных матриц, свя занные с распределением Уишарта, преодолеваются декорреляцией век тора признаков. Методика расчета вероятностей правильной класси фикации и ошибок – в разд. 3. Классификация по правилу минимума расстояния между наблюдае мыми и эталонными признаками интерпретируется как синтез разде ляющих функций (разд. 4). Введение разделяющих функций приводит к наглядным геометрическим моделям с линейными или нелинейными границами между классами и позволяет численным интегрированием рассчитывать вероятности ошибок. Использование правила максималь ной апостериорной вероятности связывает процедуры распознавания и проверки статистических гипотез. Создание эталонных признаков классов при непомеченных выбор ках (обучение без учителя) с использованием метода моментов рассмот рено в разд. 5. Учебное пособие содержит примеры расчетов и моделирования в сис теме MATLAB 6.
4
1. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Запись
X 3 4 1 5, B 2
означает, что вектор случайных значений XT 3 1 x1 x2 ,..., xn 2 описыва ется плотностью многомерного нормального распределения [1] 1n /2
1 det B 211/2 exp
3
4
1 1 X 6 7 2T B11 1 X 6 7 2 , (1) 2 где B – n 1 n матрица корреляционных моментов (корреляционная мат рица); MT= [m1 m2, ..., mn] – вектор математических ожиданий. Если X – отсчеты стационарного процесса x 1 t 2 , взятые с интервалом дискретизации 1t , корреляционная матрица симметрична ( bij 1 bji ) и положительно определена. Корреляционные моменты
f 1 X 2 3 1 25 2
6
bij 1 R i 1 j
есть значения функции корреляции R 1 3 2 процесса x 1 t 2 :
R i 1 j 3 R 1 i 4 j 5t 2 .
Корреляционная матрица имеет сингулярное разложение [2] (2) B 1 U2UT , где U 3 1U1 U2 ,..., Un 2 – n 1 n матрица собственных векторов Ui ; 1 – диагональная матрица собственных значений 1i матрицы B. Все собственные значения 1i 2 0 – следствие положительной опреде ленности корреляционной матрицы. Обратно: если хотя бы одно собственное значение отрицательно, матрица отрицательно определена (не является корреляционной). Дру n
гие свойства собственных значений:
n
1i 2 trB ; tr – след 3 1i 2 det B ; 3 i 11 i 11
матрицы (сумма диагональных элементов). Собственные векторы Ui ортонормированы UTU 1 I , ò. å. 21, если i 1 j; UT i Uj 1 3 50, если i 4 j.
Ортонормированность собственных векторов означает, что они за дают nмерную декартову систему координат.
5
Пример 1 Функция корреляции R 1 3 2 4 52 exp 1 623 2 cos273 , интервал дискрети зации 12 3 1/2 , число отсчетов n = 5. Значения функции корреляции в узлах дискретизации R 1 k 2 5 62 31.0000 70.6065 0.3679 70.2231 0.13534.
Корреляционная матрица 2 1.0000 10.6065 0.3679 10.2231 0.1353 3 4 10.6065 1.0000 10.6065 0.3679 10.22315 24 B67 0.3679 10.6065 1.0000 10.6065 0.3679 5 4 5 4 10.2231 0.3679 10.6065 1.0000 10.60655 84 0.1353 10.2231 0.3679 10.6065 1.0000 95
имеет собственные векторы и собственные значения, рассчитываемые в системе MATLAB функцией EIG [3]: 10.2254 0.4212 0.5534 10.5679 0.3781 10.5092 0.5679 0.1180 0.4212 10.4762 U 2 10.6162 0.0000 10.5998 0.0000 0.5104 ; 10.5092 10.5679 0.1180 10.4212 10.4762 10.2254 10.4212 0.5534 0.5679 0.3781 0.2667 0 0 0 0 0 0.3477 0 0 0 12 0 0 0.5597 0 0 ; 0 0 0 1.1490 0 0 0 0 0 2.6768 n
n
3 1i 2 det B 2 0.1597 ; 3 1i 2 trB 2 5 ; i 11
i 11
U U 1I; T
произведение B1 1 U2UT воспроизводит матрицу B с погрешностью 1.0e – 0151 0.2220 0.1110 0.0833 0.0278 0 0 0.1110 –0.1110 –0.2220 0.1388 , 1 2B 3 B 1 B1 3 0.1110 –0.1110 10.6661 0.2220 –0.2220 0.1388 0.2220 –0.2220 0.4441 10.2776 0 –0.1665 0.3331 0.2220 10.1388
меньшей 10115 , что соответствует машинной точности.
6
Уравнение линии постоянной плотности (1)
125 21n /2 1 det B 211/2 exp
3
6
4
1 1 X 6 7 2T B 11 1 X 6 7 2 8 c; 2
1 X 3 4 2T B 11 1 X 3 4 2 5 r 2; r 2 3 2ln 1 c 2 4 n ln 1 25 2 4 ln 1 det B 2,
описывает эллипсоид с центром в точке M, оси которого задаются соб ственными векторами матрицы B. Величина r2 называется квадратич ным махаланобисовым расстоянием от X до M (Mahalanobis – индийс кий математик). Линии постоянной плотности, таким образом, есть эллипсоиды постоянного махаланобисова расстояния до M. Пример 2 Двумерная плотность может быть изображена на плоскости. Пусть корреляционная матрица 1.0000 –0.7000 , B1 –0.7000 1.0000 112 а вектор математических ожиданий 3 4 5 6 . Плотность распределения 718 показана на рис. 1.
0.25 0.2 0.15 0.1 0.05 0 4 2
4 2
0 –2
0 –2
Рис. 1. Двумерная нормальная плотность
Матрица собственных векторов –0.7071 –0.7000 U1 –0.7071 0.7071 7
задает главные оси рассеивания (оси эллипсов рассеивания), которые показаны на рис. 2. y 1 x 2 0 , y 1 x 1 2 2 0. y 4
2
x
0
–2
–4 –4
–2
0
2
4
Рис. 2. Эллипсы рассеивания: c = 0.001, c = 0.01, c = 0.1
Эллипсы уточняют положение и ориентацию плотности, показан ной на рис. 1, так как в двумерном случае являются сечениями плотно сти на уровнях c. Пример 3 Эталонные признаки трех равновероятных классов – нормальные 1 двумерные плотности с математическими ожиданиями 31 4 15 26 , 718 2 13 3 2 12 3 42 5 6 7 , 43 5 6 , единичной дисперсией и корреляционными мо 80.579 8 119 ментами R1 1 20.7 , R2 1 20.7 , R3 1 0.5 (рис. 3)
3
1
24
1 1 exp 6 1 x 6 122 7 1.4 1 x 6 121 y 6 12 7 1 y 6 122 7 1.02 68 0.51 1 1 exp 6 7 1 x 7 222 6 1.4 1 x 7 221 y 7 12 7 1 y 7 122 7 1.02 68 0.51 1 1 exp 6 7 1 x 7 322 6 1 x 7 321 y 6 0.5 2 7 1 y 6 0.522 . (3) 1.5 68 0.75
f 1 x, y 2 5
3 1 3 1
24 24
Программа вывода [4]: [x,y]=meshgrid([5:0.1:3]); z=1/3/2/pi/sqrt(0.51)*exp(1/2/0.51*((x1).^2+1.4*(x1).*(y1)+(y1).^2))+... 1/3/2/pi/sqrt(0.51)*exp(1/2/0.51*((x+2).^21.4*(x+2).*(y+1)+(y+1).^2))+...
8
1/3/2/pi/sqrt(0.75)*exp(1/2/0.75*((x+3).^2(x+3).*(y0.5)+(y0.5).^2)); surf(x,y,z) colormap(white) xlim([5,4]) ylim([5,4])
0.08 0.06 0.04 0.02 0 4 2
4 0 –2 –4
–2
–4
–6 –6
2
0
Рис. 3. Совместная плотность признаков
Кластеры, изображенные на рис. 4 для уровня c = 0.01, не только характеризуют ориентацию плотностей классов, но и показывают, что минимальная вероятность ошибки классификации достижима для пер вого и третьего классов, вероятность ошибки при сравнении второго и третьего классов максимальна. y 6 4
1
3 2
x
0 –2
2
–4 –6 –6
–4
–2
0
2
4
6
Рис. 4. Эллипсы рассеивания: c = 0.01
9
0.06
0.04
0.02 0 5 0 –5
–6
–4
–2
4
2
0
Рис. 5. Совместная плотность признаков y 6 1
3 4 2
x
0 –2 2 –4 –8
–6
–4
–2
0
2
4
6
Рис. 6. Эллипсы рассеивания: c = 0.004
Для упрощения расчетов часто применяют процедуру декорреляции (выбеливания) – канонического преобразования нормального вектора наблюдений (признаков) X 3 4 1 5 X , B 2 , приводящего корреляционную матрицу к единичной, кластер – к nмерной сфере. Оператор [2] A 1 U2 11/2UT декоррелирует наблюдения Y 1 AX , Y 3 4 1 5 Y ,I 2 , вектор математических ожиданий изменяется 1 Y 2 A1 X .
10
(4)
(5)
Пример 4 Корреляционные матрицы признаков в примере 3:
B1 1
1.0000 –0.7000 1.0000 0.7000 1.0000 0.5000 , B2 1 , B3 1 , –0.7000 1.0000 0.7000 1.0000 0.5000 1.0000
операторы (4) А1 1
1.2964 0.5294 1.2964 –0.5294 1.1154 –0.2989 , А2 1 , А3 1 , 0.5294 1.2964 –0.5294 1.2964 –0.2989 1.1154
математические ожидания (5) М1 1
1.8257 –2.0633 –3.4955 , М2 1 , М3 1 . 1.8257 –0.2376 1.4543
Совместная плотность (3), показанная на рис.3, преобразуется в плотность распределения (рис.5)
3 1
24
2 2 1 1 exp 6 1 x 6 1.8257 2 7 1 y 6 1.8257 2 7 68 2 2 2 1 1 7 exp 6 1 x 7 2.0633 2 7 1 y 7 0.2376 2 7 68 2 2 2 1 1 7 exp 6 1 x 7 3.4955 2 7 1 y 6 1.4543 2 , 68 2
f 1 x, y 2 5
3 1 3 1
24 24
составляющие плотности имеют круговые рассеяния (рис. 6), эллипсы вырождаются в окружности с центрами в точках 1i .
11
2. ПАРАМЕТРИЧЕСКОЕ ОБУЧЕНИЕ С УЧИТЕЛЕМ В теории распознавания образов предполагается априорное незна ние эталонных распределений признаков [5, 6]. Это означает, что рабо чему этапу классификации (непосредственному распознаванию) пред шествует этап обучения – создания эталонов классов. Как подчеркива ется в [6], распределение признаков, отличное от нормального, остав ляет немного шансов на успешное теоретическое решение задачи рас познавания. Если ограничиться рамками нормального распределения, обучение сводится к оценке параметров (векторов математических ожи даний и корреляционных матриц). Такое обучение называется пара метрическим. Если оценивание производится по классифицированным выборкам, имеет место обучение с учителем, если используются неклас сифицированные выборки – обучение без учителя. Параметрическое обучение может применяться и при других конкретных распределени ях признаков, таких, которые описываются небольшим числом пара метров. Если же неизвестен вид распределения, необходимо его оценить; такое обучение называется непараметрическим. Непараметрическое обучение также может реализоваться как обучение с учителем или без учителя. 2.1. Неизвестные средние При нормальном распределении признаков простейшим можно счи тать случай неизвестных векторов математических ожиданий 1i при известных корреляционных матрицах B j , j 1 1,...,k . Для любого из k классов обучение с учителем сводится к поиску оценки центра кластера 1 i по обучающей выборке размерностью N векторов, поэтому индекс 1 i класса j можно опустить. Обучающая выборка – множество независи мых векторов с плотностями вида (1), так что ее плотность записывается f 1 X, 7 2 8 1 29 2
1nN /2
3
N
1 det B 21 N /2 exp 55 1 1 X j 7 2 2 j 21
T
4 B 11 1 X j 7 2 6. 6
Оценка максимального правдоподобия [7] (асимптотически несме щенная, эффективная, нормальная) определяется уравнением N
T 3 1 3 ln f 1 X; 4 2 5 6 X j 6 4 2 B 11 1 X j 6 4 2 5 0 ; 1 34 2 j 21 34
7
12
(6)
1 5 0; 2 6 B11 1 X j 3 4 N
j 21
его решение N
12 1 1 Xj N j 11
3
(7)
– выборочное среднее, чего и следовало ожидать для нормального случая. 1 4 N 1 3, 1 B 2 . Оценка (7) – линейна, 3 5 6 7 N 8
2.2. Неизвестные средние и корреляционные матрицы К уравнению (6) добавляется уравнение 1 12 3 N 1 11 B 7 ln f 1 X; 4 2 5 6 B 3B 2 2
N
81 Xj 6 4 2 1Xj 6 4 2
T
5 0,
j 21
решение которого
61
21
N
13 1 1 X 45 1 B Xj 4 5 j N j 11
2
T
иногда называют выборочной корреляционной матрицей [7]. Она дает смещенную оценку корреляционной матрицы. Как и выборочная дис персия в одномерном случае, несмещенная оценка записывается 13 B
61 N
21
1 1 X 45 1 Xj 4 5 j N 4 1 j 11
2
T
.
(8)
Выборочная корреляционная матрица имеет распределение Уишар та, с которым расчеты вероятностей затруднительны. И в этом случае упрощение достигается применением декоррелирующего преобразова ния (4): матрица оценок (8) – симметричная, преобразование 12 1 11/2 U 1T , Y 1 AX ; A 1 U
(9)
1, 1 1 – собственные векторы и собственные значения матри в котором U цы (8), дает круговое рассеивание с 1. B 1 I , 1 2 A1 Y
Y
Пример 5 Пусть в условиях примера 3 используются обучающие выборки ( B1,11 ; B2,12 ; B3,13 ) с размерами N1 1 100 , N2 1 50 , N3 1 20 векто ров. Моделирование обучающих выборок окрашиванием и оценивание (7) и (8) реализуется программой вида 13
b1=[10.7 0.7 1] [u1,v1]=eig(b1) x1=randn(2,100); a1=u1*v1^(1/2)*u1' y1=a1*x1 for j=1:100 y1(1,j)=y1(1,j)+1; y1(2,j)=y1(2,j)+1; end M=mean(y1') r1=cov(y1')
% коррелЯционнаЯ матрица
% оператор окрашиваниЯ
% математические ожиданиЯ
% сумма (7) % сумма (8)
В одном из экспериментов получены 1 1 1 0.8862 –0.6223, B 1 2 1 1.1979 0.8703, B 1 3 1 1.0666 0.6698 , B –0.6223 1.1161 0.8703 1.1782 0.6698 1.4834 1 1 1 0.9899, М 1 2 1 –2.0866, М 1 2 1 –3.2481 , М 1.0546 –1.1083 0.2734
На рис. 7 показаны истинные (см. рис. 4) и полученные при обуче нии эллипсы рассеивания. Полученные эталоны классов тем больше отличаются от истинных, чем меньше размер обучающей выборки. y 6 4 3
1
2 x
0 –2 2 –4 –6 –6
–4
–2
0
2
4
6
Рис. 7. Эллипсы рассеивания: c = 0.01
14
y 6 3
1
4 2
x
0 –2 2 –4 –8
–6
–4
–2
0
2
4
6
Рис. 8. Эллипсы рассеивания: c = 0.004
На рис. 8 показаны сечения круговых (декоррелированных) рассеи ваний, полученных преобразованиями (9), истинные окружности – на рис. 6. Как и исходные плотности (рис. 7), в большей степени пересека ются плотности второго и третьего классов.
15
3. ВЕРОЯТНОСТЬ ПОПАДАНИЯ В ЗАДАННУЮ ОБЛАСТЬ В распознавании образов стандартная задача – рассчитать вероят ность p попадания случайного вектора X в заданную область W. Если плотность распределения f 1 X 2 известна, вероятность p 5 p 1X 6 72 5 f 3 X 4 dX
8
1
рассчитывается nкратным интегрированием плотности. В общем слу чае это трудоемкая задача, решаемая численным интегрированием. Относительно простой случай – двумерное нормальное распределе ние декоррелированного вектора: X 3 4 1 5,I 2 . Область W ограничивает ся, как правило, двумя прямыми. На рис. 9 показаны области H1, H2, H3 с границами y1 1 25x 2 1 , y2 1 2x 3 1 , y3 1 x 2 2 , пересекающимися в точке x0 1 21/2 , y0 1 3/2 . Вектор X имеет плотность 24 2 3 6 1 x 5 mx 2 1 y 5 my 2 6 1 f 1 x, y 2 7 5 exp 85 9, 2
2 2 6 6 mx 1 21 , my 1 1 .
y 6
y1 H3
4
H1
2
y0
0
x
x0 y3
–2
y2
–4
H2
–6 –6
–4
–2
0
2
4
6
Рис. 9. Области попадания
Условия принадлежности вектора [точки 1 x, y 2 ] области Hi : x 1 x0 X 1 H1, если x 2 x 0
16
и y 1 y2, и y 1 y1;
x 1 x0 и y 2 y2, X 1 H2, если x 2 x и y 2 y ; 0 3 X 1 H3, если x 1 x0 и y 1 y1, Вероятности выполнения этих неравенств
p1 5 p1X 6 H12 5
11
88
f 3 x, y 4 dxdy 7
x0 y2
9
x0
y 2 y3 .
1
8 8 f 3 x, y 4 dxdy 5
21 y1
1 58 1 x 7 122 68 1 1 1 x 24 exp
3
dx 7 2 8 2 x 8
(10)
0
x0 58 1 x 7 122 68 1 7 31 9 1 95x 9 224 exp 9 2 dx ; 2 12 8 8
p2 5 p1X 6 H22 5
7
1
y2
88
x0 21
f 3 x, y 4 dxdy 7
(11)
x0 y3
8 8 f 3 x, y 4 dxdy 5
21 21
x0 1 36 1 x 5 122 46 36 1 x 5 122 46 1 1 8 1 9x 2 exp 9 5 8 5 dx x 1 exp 1 2
9 dx; (12) 2 6 2 6 2 x 2 6 6 2
0
p3 5 p1X 6 H32 5 9
x0 y1
88
21 21
f 3 x, y 4 dxdy 7
x0
1
8 8 f 3 x,y 4 dxdy 5
21 y3
x0 58 1 x 7 122 68 1 1 7 1 5x 2 2 1 x 7 124 exp 3
dx 2 8 , 2 12 8
51x2 6
x
3 t2 4 3 x 4 1 1 1 exp 9 7 dt 6 8 erf 9
2 2 2 12 2 2
(13)
– интеграл вероятности,
erf 1 x 2 3
x
1 2
2 exp 4t2 dt 5 60
– функция ошибок [3]. Программа расчета подынтегрального выражения (10), показанно го на рис. 10,
17
x=0.5:0.01:4; f=1/sqrt(2*pi)*exp((x+1).^2/2).*(1/21/2*erf(x/sqrt(2))); p1=trapz(f)*0.01 f 0.1
0.05
x
0 x0 0
1
2
3
4
Рис. 10. Подынтегральное выражение (10)
Интегрирование выражения (10) от x0 до 1 имитируется интегриро ванием до x = 4 (рис. 10) по формуле трапециий. Результат: p11 1 0.1675 . Подынтегральное выражение (11) показано на рис. 11. Интегриро вание от 12 до x0 имитируется интегрированием от –1.5 до x0: x1=1.5:0.01:0.5; f1=1/sqrt(2*pi)*exp((x1+1).^2/2).*(1/21/2*erf((5*x12)/sqrt(2))); p2=trapz(f1)*0.01 p=p1+p2 f 0.1
0.05
0 –1.5
–1
x x0
Рис. 11. Подынтегральное выражение (11)
Результат: p12 1 0.0145 ; вероятность попадания в область H1 p1 1 p11 2 p12 1 0.1820 . Так же рассчитываются интегралы (12) и (13): p2 1 p21 2 p22 1 0.1411 2 0.2391 1 0.3801 , p3 1 0.4379 . Сумма вероятностей попаданий в области H1 , H2 , H3 p 1 p1 2 p2 2 p3 1 1 .
18
4. РАЗДЕЛЯЮЩИЕ ФУНКЦИИ Система распознавания (классификатор) описывается разделяющи ми функциями (РФ) g j 1 X 2 , j 1 1,...,k . Пространство признаков разби вается на k областей 1 j , j 1 1,...,k ; если наблюдения X 12i , класси фикатор относит их к iму классу. Этой процедуре соответствует вычис ление k РФ (рис. 12), нахождение максимальной из них и классифика ция по правилу: если gi 1 X 2 3 g j 1 X 2 для всех i 1 j , принимается реше ние в пользу Hi ( i го класса).
X
12
415
11
415
123
415
11
Рис. 12. Классификация по РФ
В качестве РФ естественно использовать апостериорную вероятность g j 1 X 2 3 p 1 Hj | X 2 3
или ее модификации
p 1 X | Hj 2 p 1 Hj 2 k
4 p 1 X | Hj 2 p 1 Hj 2
(14)
j 11
g j 1 X 2 3 p 1 X | Hj 2 p 1 Hj 2 ,
g j 1 X 2 3 log p 1 X | Hj 2 4 log p 1 Hj 2. (15) 1 Соприкасающиеся области 1i , j имеют границу, описывающую ся уравнением gi 1 X 2 3 g j 1 X 2 , (16) общим для любого из перечисленных заданий РФ. В случае двух классов используют одну РФ
g 1 X 2 3 g1 1 X 2 4 g2 1 X 2 . g X 3 0 Если 1 2 , принимается решение в пользу H1 . В многомерном случае РФ (15) T n 1 1 g j 1 X 2 3 4 ln 1 25 2 4 ln 1 det B j 2 4 1 X 4 6 j 2 B 1j 1 1 X 4 6 j 2 7 ln p 1 Hj 2 . 2 2 2 19
4.1. Некоррелированные признаки Пусть признаки некоррелированы и имеют одинаковые диспер 1 сии 12j 2 12 . Корреляционные матрицы B j 1 22I , B 1j 1 1 2 I , det B j 1 22N . 2 Кластерыгиперсферы с центрами 1 j . Для всех индексов j слагаемые n 1 3 ln 1 24 2 и 3 ln 1 det B j 2 одинаковы, поэтому 2 2 2 X 3 4j T 11 1 g j 1 X 2 3 4 1 X 3 4 j 2 B j 1 X 3 4 j 2 5 ln p 1 Hj 2 6 3 5 ln p 1 Hj 2 6 2 272 2
N
1 3 4 2 1 Xi 4 5ij 2 6 ln p 1 Hj 2 , 27 i 11
8
2
X 1 2 j – квадрат расстояния между точками X и 1 j в nмерном евк лидовом пространстве. Если классы равновероятны ( p 1 Hj 2 3 1/ k ), мак симальному значению РФ соответствует минимальное значение функции N
2
1 1 Xi 3 4ij 2 . 252 i 11 Таким образом, измеряются евклидовы расстояния от вектора призна ков Xi до каждого из векторов средних 1 j и принимается решение в пользу ближайшего. Векторы 1 j – эталоны классов. Метод классифи кации называется распознаванием по минимуму расстояния. На практике нет необходимости вычислять расстояния:
gj 1 X 2 3
X 3 4j
2
5 1X 3 4j 2
T
6
1 X 3 4 j 2 5 XT X 3 XT4 j 3 4Tj X 6 4Tj 4 j 5
1 XT X 2 23Tj X 4 3Tj 3 j ;
слагаемое XTX одинаково для всех j , поэтому g j 1 X 2 3 WjT X 4 Wj0 ,
(17)
где Wj 1 12 2 j , Wj 0 3 4 1 2 5Tj 5 j 6 ln p 1 Hj 2 . Функция (16) – линейная, 27 3 граница между кластерами находится из уравнения (17): WiT X 1 WjT X 2 Wi0 1 Wj0 3 0 ; p 1 Hi 2 1 1 4 3Tj X 4 3Ti 3i 5 3Tj 3 j 5 62 ln 70. 2 2 p 1 Hj 2 Это уравнение приводится к виду
13
T i
2
W 20
T
1 X 3 X0 2 4 0 ,
(18)
W 1 2i 3 2 j , X 0 6
32 1 4i 5 4 j 2 p 1 Hi 2 1 4 7 4 5 ln 1 i j2 . 2 2 p 1 Hj 2 4i 5 4 j
Уравнение (18) описывает гиперплоскость (nмерную плоскость), ортогональную вектору W, проходящую через точку X0 . Вектор W – прямая, соединяющая центры кластеров 1i и 1 j . Если p 1 Hi 2 3 p 1 Hj 2 , точка X0 находится посередине отрезка; если p 1 Hi 2 3 p 1 Hj 2 , точка X0 смещается к 1 j . Пример 6 Декоррелированные плотности распределения признаков трех рав новероятных ( p 1 Hi 2 3 1/3 ) классов из примера 4 (рис. 5 и 6) имеют оди наковую дисперсию 12 2 1 и различаются центрами кластеров 3Tj 4 15mjx
mjy 26 . Вследствие равновероятности классов точки
1 1 4i 5 4 j 2 , 2 –0.1188 –0.8349 –2.7794 X0 1 H1, H2 2 3 , X0 1 H1, H3 2 3 , X0 1 H2, H3 2 3 . 0.7941 1.6400 0.6083 X0 3
Уравнения (18) границ между областями классов 1j (рис. 13) 3.8890x 1 2.0633y 2 1.1765 3 0 (между H1 и H2 ), 5.3212x 1 0.3714y 1 3.8336 2 0 (между H1 и H3 ), 1.4322x 1 1.6919y 2 5.0098 3 0 (между H2 и H3 ), (19) записываются с учетом расчетных коэффициентов и свободных членов 13.8890 2 15.3212 2 W12 3 41 5 42 3 6 , W13 3 41 5 43 3 60.3714 7 , 82.0633 79 8 9
1 1.4322 2 W23 3 42 5 43 3 6 , 8 51.691979 4 30.1188 5 T W12 X0 6 13.8890 2.06332 7 6 1.1765 , 9 0.7941 8
4 30.83495 T W13 X0 6 15.3212 0.37142 7 6 33.8336 , 9 1.6400 8
4 32.7794 5 T W23 X0 6 11.4322 31.69192 7 6 35.0098 . 9 0.6083 8
На рис. 13 выделены линейные границы областей классификации, перпендикулярные отрезкам, соединяющим центры кластеров Mj, про ходящие посередине отрезков. 21
y 6 H3 4 H1 M1
2 M3 0
x
M2
–2
y2
–4
H2
–6 –6
–4
–2
0
2
4
6
Рис. 13. Эллипсы рассеивания: c = 0.003; области классификации y 6 H3 4 H1
2
x
0 –2
y2
–4
H2
–6 –6
–4
–2
0
2
4
6
Рис. 14. Эллипсы рассеивания: c = 0.003; области классификации
Если классы неравновероятны, границы сдвигаются в сторону цент ров менее вероятных кластеров за счет сдвига точки X0 в (18). Напри мер, на рис. 14 показаны границы при изменении вероятностей с p 1 Hi 2 3 1/3 до p 1 H1 2 3 1/2 , p 1 H1 2 3 1/3 , p 1 H1 2 3 1/6 . Их уравнения отличаются от уравнений (19) свободными членами: 3.8890x 1 2.0633y 2 0.7708 3 0 (между H1 и H2 ), 5.3212x 1 0.3714y 1 4.9324 2 0 (между H1 и H3 ), 1.4322x 1 1.6919y 2 5.7030 3 0 (между H2 и H3 ).
22
0.08 0.06 0.04 0.02 0 5 0 –5
–6
–4
–2
0
2
4
Рис. 15. Совместная плотность признаков
Совместная плотность показана на рис. 15 (сравните с плотностью на рис. 5). 4.2. Коррелированные признаки Случай одинаковых корреляционных матриц и различных матема тических ожиданий: РФ (15) записываются T n 1 1 g j 1 X 2 3 4 ln 1 25 2 4 ln 1 det B 2 4 1 X 4 6 j 2 B 11 1 X 4 6 j 2 7 ln p 1 Hj 2 . 2 2 2 Если p 1 Hj 2 3 1/ k , то существенная часть РФ имеет вид T 1 X 4 5 j 2 B 11 1 X 4 5 j 2 3 rj2 . 1 (20) 2 Процедура классификации формально сводится к нахождению мини мального квадратичного махаланобисова ri2 расстояния от вектора признаков до центров кластеров 1 j . Слагаемое XB 11XT в квадратичной форме rj2 не зависит от j , поэтому
gj 1 X 2 3 4
rj2 1 223Tj B 11X 4 3Tj B 113 j .
Уравнение РФ приводится к виду g j 1 X 2 3 WjT X 4 Wj0 ,
(21)
Wj 1 B 112 j , Wj0 3 4 1 5Tj B 115 j 6 ln p 1 Hj 2 . Граница между кластерами 2 (рис. 16) WT 1 X 3 X0 2 4 0 ,
23
где W 3 B 11 1 4i 5 4 j 2 ; X0 5
3i 4 3 j p 1 Hi 2 1 . 3i 6 3 j 2 4 ln 1 T 11 2 p H 1 2 j 1 3 i 4 3 j 2 B 1 3i 4 3 j 2 y
6 4 H2 2
M1
H1
x
0 –2
M2
–4 –6 –6
–4
–2
0
2
4
6
Рис. 16. Эллипсы рассеивания, области классификации; p(H1) = p(H2)
Вектор W не совпадает с отрезком, соединяющим центры кластеров, поэтому граница не ортогональна ему. 4.3. Произвольные корреляционные матрицы Если Bi 1 B j , 1i 2 1 j , кластеры различаются центрами, ориентаци ей и объемом. Разделяющие функции T n 1 1 g j 1 X 2 3 4 ln 1 25 2 4 ln 1 det B j 2 4 1 X 4 6 j 2 B 1j 1 1 X 4 6 j 2 7 ln p 1 Hj 2 2 2 2 могут быть приведены к виду
1 g j 1 X 2 3 4 XT B 1j 1X 5 B 1j 16 jX 5 Wj0 , 2
(22)
1 1 где Wj 0 3 4 5Tj B 1j 15 j 4 lndet B j 6 ln p 1 Hj 2 . Уравнение (22) описывает 2 2 nмерную поверхность второго порядка – эллипсоид, параболоид, ги перболоид.
24
4.4. Вероятности ошибок Качество системы распознавания можно оценить вероятностями правильной классификации p 1 Hi | Hi 2 и вероятностями ошибок клас сификации p 1 Hi | Hj 2 , i 1 j , i, j 1 1,...,k . В общем случае вероятности должны рассчитываться интегрированием плотности распределения признаков f 1 X | Hj 2 по соответствующим областям классификации 1i . Строгое интегрирование, как правило, затруднительно: например, n мерную нормальную плотность вида (1) не удается проинтегрировать по гиперплоскости, тем более – по поверхности второго порядка. Как и во многих других случаях, задача упрощается декорреляцией вектора признаков. Декоррелирующее преобразование приводит РФ (20) и (22) к виду (17) с дисперсией 12 2 1 g j 1 X 2 4 53jT X 6 Wj0 , (23)
1 где Wj0 4 5 63jT 63j 7 ln p 1 Hj 2; 21j – вектор средних, преобразованный 2 при декорреляции. Расчет вероятностей базируется на правиле мини мума расстояния от вектора X до центров кластеров 1 j . Реальная альтернатива расчетам – статистическое моделирование системы распознавания. Пример 7 Уравнения (15) границ между областями классов 11 , 12 , 13 в при мере 6 (рис. 13) 3.8890x 1 2.0633y 2 1.1765 3 0 (между H1 и H2 ), 5.3212x 1 0.3714y 1 3.8336 2 0 (между H1 и H3 ), 1.4322x 1 1.6919y 2 5.0098 3 0 (между H2 и H3 ). Векторы признаков имеют круговое рассеивание с единичной дисперси ей и средними (пример 4) М1 1
1.8257 , –2.0633 , –3.4955 . М2 1 М3 1 1.8257 –0.2376 1.4543
Пусть моделируется вектор признаков класса H1 (рис. 17): n=1000 x=randn(1,n)+1.8257; % координата точки по оси x y=randn(1,n)+1.8257; % координата точки по оси y Условия принадлежности точки x 1 i 2 , y 1 i 2 , i 1 1,...,n , области 11 3.8890x 1 2.0633y 2 1.1765 , 5.3212x 1 0.3714y 1 3.8336 2 0 ;
25
области 12 1.4322x 1 1.6919y 2 15.0098 , 3.8890x 1 2.0633y 2 1.1765 ; области 13 1.4322x 1 1.6919y 2 15.0098 , 3.8890x 1 2.0633y 2 1.1765 В одном из экспериментов результаты работы программы syms x y ezplot(‘1.1765+3.8890*x+2.0633*y=0’) hold on ezplot(‘3.8336+5.3212*x+0.3714*y=0’) ezplot(‘5.0098+1.4322*x1.6919*y=0’) n=10000 x=randn(1,n)+1.8257; y=randn(1,n)+1.8257; plot(x,y) pause
p1=0;p2=0;p3=0 for i=1:n if 3.8890*x(i)+2.0633*y(i)>1.1765 if 5.3212*x(i)+0.3714*y(i)>3.8336 p1=p1+1; end end if 3.8890*x(i)+2.0633*y(i)5.0098 p2=p2+1; end end if 3.8890*x(i)+2.0633*y(i)