Зверев В.А., Точилина Т.В. СПЕЦИАЛЬНЫЕ РАЗДЕЛЫ ПРИКЛАДНОЙ МАТЕМАТИКИ ДЛЯ ОПТОТЕХНИКОВ. Учебное пособие. – СПб.: СПбГУ ИТ...
18 downloads
262 Views
7MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Зверев В.А., Точилина Т.В. СПЕЦИАЛЬНЫЕ РАЗДЕЛЫ ПРИКЛАДНОЙ МАТЕМАТИКИ ДЛЯ ОПТОТЕХНИКОВ. Учебное пособие. – СПб.: СПбГУ ИТМО, 2005. – 235с. Теория образования изображения основана на применении соотношений теории поля, теории преобразования Фурье, специальных функций. Решение многих задач оптотехники невозможно без замены точных функциональных соотношений приближёнными, при этом применяются различные методы приближения. Для аппроксимации волновых фронтов при оценке качества образованного оптической системой изображения точки, при аппроксимации несферических поверхностей как в процессе расчёта оптических систем, так и при технологическом и аттестационном контроле при их изготовлении широко применяются различные системы ортогональных полиномов и, в частности, ортогональных полиномов Цернике. Все эти вопросы в объёме, необходимом для изучения важнейших разделов оптики и решения прикладных задач оптотехники, представлены в пособии. В пособии впервые в учебной отечественной литературе весьма обстоятельно рассмотрены вопросы, связанные с наименьшими величинами при приближённом представлении функций по Чебышеву, и, прежде всего, вопросы, связанные с расчётом схем оптических систем переменного увеличения. Применение различных разделов математики в оптике иллюстрируется примерами. Материал пособия ориентирован на студентов оптических специальностей и, прежде всего, на изучающих учебные курсы: "Основы оптики", "Расчёт оптических систем", "Специальные разделы прикладной оптики", "Адаптивная оптика", "Оптические измерения" и "Технология оптического производства", а также на оптотехников научных и производственных предприятий. Рецензенты: д-р техн. наук, профессор, зав.каф. информатики и прокладной математики О.Ф. Немолочнов (Санкт-Петербургский государственный университет информационных технологий, механики и оптики) д-р физ.-мат. наук, профессор, зав.каф. высшей математики И.Ю. Попов (Санкт-Петербургский государственный университет информационных технологий, механики и оптики) © СПбГУ ИТМО (Санкт-Петербургский государственный университет информационных технологий, механики и оптики) © В.А. Зверев Т.В. Точилина, 2005
Содержание Введение………………………………………………………………. 6 1. Преобразование Фурье……………………………………………. 8 1.1. Ряды Фурье…………………………………………………….. 8 1.2 . Интегралы Фурье……………………………………………... 10 2. Специальные функции…………………………………………….. 2.1. Гамма-функция………………………………………………… 2.1.1. Определение……………………………………………… 2.1.2. Свойства гамма-функции………………………………... 2.1.3. Некоторые значения функции Γ( z ) …………………….. 2.1.4. Связь между эйлеровыми интегралами первого и второго рода……………………………………………………...
21 21 21 23 26
2.2. Функция вероятности ошибок………………………………... 2.2.1. Определение функции вероятности ошибок…………… 2.2.2. Разложение функции Φ ( x ) в степенной ряд……………. 2.2.3. Дифракционный интеграл Френеля-Кирхгофа………… 2.2.4. Интегралы Френеля………………………………………
27 27 29 30 32
2.3. Функции Бесселя………………………………………………. 2.3.1. Определение функции первого рода……………………. 2.3.2. Соотношение между J ν ( z ) и J − ν ( z ) ……………………. 2.3.3. Рекуррентные соотношения……………………………... 2.3.4. Применение рекуррентных соотношений при вычислении некоторых интегралов…………………………… 2.3.5. Соотношение между двумя функциями, индексы которых отличаются на целое число………………………….. 2.3.6. Бесселевы функции первого рода с полуцелым индексом………………………………………………………… 2.3.7. Применение бесселевых функций при вычислении интегралов Френеля…………………………………………….. 2.3.8. Производящая функция для бесселевых функций первого рода целого порядка…………………………………... 2.3.9. Представление J ν ( z ) через определённый интеграл….. 2.3.10. Корни бесселевых функций……………………………. 2.3.11. Определение бесселевой функции второго рода……...
35 36 38 39
26
39 41 42 44 44 46 49 54
2.4. Функции Лежандра……………………………………………. 56 2.4.1. Разложение в степенные ряды…………………………... 56
3
2.4.2. Полиномы Лежандра…………………………………….. 2.4.3. Производящая функция полиномов Лежандра………… 2.4.4. Примеры полиномов Лежандра…………………………. 2.4.5. Рекуррентные формулы………………………………….. 2.4.6. Некоторые значения полиномов Лежандра…………….. 2.4.7. Формула Родрига………………………………………….
58 59 61 62 63 64
2.5. Полиномы Чебышева………………………………………….. 2.5.1. Определение……………………………………………… 2.5.2. Графики полиномов Tn (ω) и U n (ω)……………………... 2.5.3. Основные свойства полиномов Чебышева……………... 2.5.4. Фундаментальное свойство полиномов Чебышева…….
65 65 68 70 76
3. Разложение в ряд произвольных функций………………………. 79 3.1. Ортогональные системы функций…………………………… 80 3.2. Ортогонализация функций……………………………………. 84 3.3. Неравенство Бесселя. Условие полноты системы. Приближение в среднем…………………………………………… 85 3.4. Примеры ортогональных систем……………………………… 3.4.1. Полиномы Лежандра…………………………………….. 3.4.2. Обобщение постановки вопроса, приводящей к полиномам Лежандра…………………………………………. 3.4.3. Гипергеометрический ряд……………………………….. 3.4.4. Полиномы Якоби………………………………………….
87 87 89 90 91
3.5. Круговые полиномы Цернике………………………………… 93 4. Приближение функции……………………………………………. 103 4.1. Элементарные функции………………………………………. 103 4.1.1. Алгебраические функции………………………………... 103 4.1.2. Трансцендентные функции……………………………… 108 4.2. Приближение функции полиномами………………………… 4.2.1. Интерполяционные полиномы…………………………... 4.2.2. Интерполяционный полином Лагранжа………………... 4.2.3. Интерполяционный полином Ньютона…………………. 4.2.4. Интерполяционный полином Стирлинга……………….. 4.2.5. Интерполяционный полином Бесселя…………………... 4.2.6. Условия применения интерполяционных полиномов Ньютона, Стирлинга, Бесселя…………………………………..
4
108 110 117 123 127 129 130
4.2.7. Приближение функции линейной комбинацией функций, определённой с помощью критерия наименьших квадратов………………………………………………………… 133 4.2.8. Приближение функции полиномом, определённым с помощью критерия наименьших квадратов…………………... 134 4.2.9. Приближение функции по Чебышеву…………………... 140 5. Наименьшие величины при приближённом представлении функций……………………………………………………………….. 145 5.1. Общие положения теории приближённого представления функций…………………………………………………………….. 146 5.2. Приближённое представление функций полиномом……….. 150 5.3. Приближённое представление функций дробью с данным знаменателем……………………………………………………….. 152 5.4. О функции вида x n + p1 x n −1 + p2 x n − 2 + Κ + pn x + pn ……….. 154
x n + p′x n −1 + Κ + p (n −1) x + p (n ) 5.5. О дроби вида ……... 161 A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l − 2 x + An −l −1 6. Введение в теорию поля…………………………………………... 184 7. Основы электромагнитной теории света………………………… 196 7.1. Уравнение Максвелла………………………………………… 196 Заключение…………………………………………………………… 234 Литература…………………………………………………................. 235
5
Введение Идеи П.Л.Чебышева о плодотворности тесного союза между математикой, с одной стороны, и естественными науками и техникой, с другой, высказанные им в середине XIX века, звучат особенно актуально в наше время, ибо на наших глазах формируется новая ветвь математики – так называемая прикладная математика, сущность которой в истинно чебышевском духе сформулировал Гуго Штейнгауз: "…прикладная математика находится пока в зачаточном состоянии. Сегодня ещё в наших силах направить её развитие в любую сторону, и мы располагаем в этом отношении неограниченной свободой. Необходимо лишь понять, что математика – не свод готовых ответов на любой вопрос. Математика – это скорее школа мышления. Естественные и технические науки также нельзя рассматривать лишь как реестр наблюдений и экспериментов. Прикладная математика есть не что иное, как сотрудничество математики и этих наук. Прикладной математики в виде готовой науки не существует. Она возникает, когда математическая мысль прикасается к окружающему миру, но лишь при условии, если и математический дух, и природная материя не закоснели. Следует иметь в виду, что наука не только описывает существующую действительность, но и создаёт новую; поэтому математик должен занимать активную позицию: не ожидать задач, а самому их ставить. Вряд ли можно сомневаться, что успехи так понимаемой прикладной математики превзойдут самые смелые ожидания". Взаимоотношения между чистой и прикладной математикой, математикой и естественными науками, математикой и техникой многосложны и многообразны. Академик А.Н.Колмогоров охарактеризовал сущность отношений и связей между чистой и прикладной математиками следующим образом: "Прежде всего нужно заметить, что само различие между чистой и прикладной математиками чрезвычайно условно. Вопросы, которые, казалось бы, принадлежат к чистой математике и не имеют применений, очень часто совершенно неожиданно оказываются важными для разных приложений. С другой стороны, занимаясь прикладной математикой, учёный почти неизбежно наталкивается на смежные вопросы, решающиеся теми же методами, привлекающие его своей логической красотой, но, собственно говоря, непосредственных приложений уже не получающие. Вероятно, в практической работе математика нужно проявлять должную широту. Несомненно, что математики должны,
6
это их долг, заниматься всеми вопросами, которые настоятельно навязываются вопросами практики. Если смежные вопросы, пусть сразу применений не имеющие, являются привлекательными хотя бы в силу красоты и естественности возникающих задач, ими, конечно, тоже нужно заниматься". Проектирование и подготовка производства современных оптических и оптико-электронных приборов и комплексов немыслимы без применения различных разделов математики для решения инженерных задач оптотехники и математического моделирования структуры образования оптического изображения и процессов функционирования оптико-электронных каналов преобразования информации. Любое оптическое или оптикоэлектронное устройство строится на основе явлений того или иного раздела физики. Любой раздел физики, в конечном счете, представляет собой набор формул или математических моделей, отображающих соответствующие физические явления. Электромагнитная теория света, например, основана на представлениях об электромагнитном поле, которое естественным образом воспринимается в виде дифференциальных уравнений Максвелла. Порой трудно отделить собственно физику от математики. Известный трудами в области инструментальной оптики и кристаллооптики автор книги "Основы практической оптики" М.Берек в предисловии к книге писал, что "…геометрическая оптика может быть главой прикладной математики или технической физики в зависимости от того, как её применяют". Таким образом, для глубокого понимания основ оптотехники необходим достаточно большой запас знаний в области математики. Предлагаемое учебное пособие содержит необходимые сведения из специальных разделов прикладной математики, наиболее широко применяемые в теоретической и прикладной оптотехнике.
7
1. Преобразование Фурье 1.1. Ряды Фурье При решении многих задач физики и математики необходимо осуществить разложение периодической функции с периодом, равным p (мм), в ряд по тригонометрическим функциям: 2π 2π 2π f ( x ) = a0 + a1 sin x + b1 cos x + Κ + an sin n x+ p p p (1.1) n =∞⎛ nx nx ⎞ 2π x + Κ = a0 + ∑ ⎜⎜ an sin 2π + bn cos 2π ⎟⎟ . + bn cos n p p p⎠ n =1 ⎝ Ряд вида (1.1) называется рядом Фурье, а разложение функции f ( x ) в ряд Фурье составляет задачу гармонического анализа. В приложениях зачастую ограничиваются конечным числом членов и получают при этом приближение функции тригонометрическим многочленом. Легко убедиться, что коэффициенты такого ряда Фурье определяются формулами: 1 a0 = p
an =
2 p
2 bn = p
p
2
∫ f (x ) dx ,
−p
p
2
2
nx ∫ f (x )sin 2π p dx
−p p
2
2
∫
−p
(n = 1, 2, Κ ),
f ( x ) cos 2π
nx dx p
(n = 1, 2, Κ ).
2
Во многих случаях, когда ряд Фурье сходится в обычном смысле, т.е. поточечно, представляет интерес ответ на вопрос о том, каким образом он описывает функцию f ( x ) . На этот вопрос в значительной степени даёт ответ теорема Дирихле. Пусть функция f ( x ) ⎛ 1 1 ⎞ удовлетворяет в интервале ⎜ − p, p ⎟ так называемым условиям ⎝ 2 2 ⎠ Дирихле: ⎛ 1 1 ⎞ − интервал ⎜ − p, p ⎟ можно разбить на конечное число ⎝ 2 2 ⎠ интервалов, в которых f ( x ) непрерывна и монотонна;
8
− если x0 является точкой разрыва функции f ( x ) , то существуют f ( x0 + 0 ) и f ( x0 − 0 ) . Тогда ряд Фурье функции f ( x ) сходится и имеет место n ⎛ ⎡ nx ⎞⎤ nx lim ⎢a0 + ∑ ⎜⎜ an sin 2π + bn cos 2π ⎟⎟⎥ = n →∞ p ⎠⎦ p n =1 ⎝ ⎣
⎧⎪ f ( x ), если f ( x ) непрерывна в x; = ⎨ f (x + 0) + f (x − 0) в противном случае. ⎪⎩ 2 Запишем ряд Фурье в виде:
f ( x ) = a0 +
n =∞
n =∞
n =1
n =1
∑ an sin nωx + ∑ bn cos nωx ,
2π – круговая частота. p Представим функцию exp(ix ) в виде степенного ряда 1 1 1 1 1 exp(ix ) = 1 + ix + i 2 x 2 + i 3 x 3 + i 4 x 4 + i 5 x 5 + Κ + i n x n + Κ = 2! 3! 4! 5! n! 1 1 1 ⎛ 1 ⎞ ⎛ ⎞ = ⎜1 − x 2 + x 4 − Κ ⎟ + i⎜ x − x 3 + x 5 − Κ ⎟ = cos x + i sin x. 4! 3! 5! ⎝ 2! ⎠ ⎝ ⎠ Таким образом, exp(ix ) = cos x + i sin x , т.е. получаем известную формулу Эйлера. При этом n =∞ 1 f ( x ) = a0 + ∑ an [exp(inωx ) − exp(− inωx )] + n =1 2i
где ω =
+
n =∞
1
∑ 2 bn [exp(inωx ) + exp(− inωx )] =
n =1
= a0 +
где
n =∞
∑
n =1
bn + ian ⎡ bn − ian ⎤ ( ) ( ) ω + − ω exp in x exp in x ⎢⎣ 2 ⎥⎦, 2
bn − ian 1 = 2 p =
1 p
p
p
2
∫ f (x )(cos nωx − i sin nωx )dx =
−p
2
2
∫ f (x )exp(− inωx )dx;
−p
2
9
bn + ian 1 = p 2
При n = 0 :
p
2
∫
−p
1 p
1 f ( x )(cos nωx + i sin nωx )dx = p
2 p
2
∫
−p
f ( x ) e 0 dx =
2
1 p
p
−p
2
−p
2
bn + ian , получаем формулу 2 (1.2)
2
∫ f (x ) exp(− inωx )dx .
−p
∫ f (x )exp(inωx )dx .
∫ f (x )dx = a0 .
n =∞ bn − ian для . При этом f ( x ) = ∑ Cn exp(inωx ) , 2 n = −∞
1 где C n = p
2
2
Заменив знак величины n в формуле
p
p
(1.3)
2
1.2. Интегралы Фурье Пусть N – пространственная
частота функций (гармоник), n составляющих ряд Фурье, при этом N = . Единичное изменение p частоты N определим разностью n n 1 ∆N = i +1 − i = . p p p При этом
f (x ) =
p
n =∞
2
∑ g (N ) exp(i 2πNx )∆N , где g (N ) = ∫ f (x ) exp(− i 2πNx )dx .
n = −∞
−p
2
Пусть некоторая функция f ( x ) задана на всей вещественной оси. Предположим, что нас интересуют её значения в интервале [x0 , x0 + p ]. При этом функцию f (x ) на всей вещественной оси можно заменить последовательностью её значений в интервале [x0 , x0 + p ] с периодом, равным p , т.е. можно заменить функцию f ( x ) соответствующей периодической функцией. Тогда функцию f ( x ) в интервале [x0 , x0 + p ] можно представить рядом Фурье. Вполне очевидно, что в этом случае функция, представленная рядом Фурье, вне интервала [x0 , x0 + p ] не будет совпадать с функцией f ( x ) .
10
Для целого ряда задач было бы полезно иметь выражение, подобное ряду Фурье, представляющее функцию f ( x ) , заданную в промежутке от − ∞ до ∞ . При этом будем считать, что f ( x ) в любом конечном интервале подчиняется условиям Дирихле и является ∞
абсолютно интегрируемой, т.е.
∫ f (x ) dx < ∞ .
−∞
Чтобы распространить полученное выражение на случай непериодических функций, можно устремить период p к бесконечности. Основной интервал тогда становится бесконечно 1 можно считать бесконечно малым большим, при этом величину p 1 = dN . Тогда изменением пространственной частоты N , т.е. p суммирование бесконечно большого числа колебаний всех частот от − ∞ до ∞ , определяемое полученным бесконечным рядом, можно представить интегралом
f (x ) =
∞
∫ g (N ) exp(i 2πNx )dN ,
(1.4)
−∞
при этом функция g ( N ) определяется через f ( x ) формулой g (N ) =
∞
∫ f (x )exp(− i 2πNx )dx .
(1.5)
−∞
Введём обозначение: 2πN = 2π
n = ω ; при p → ∞ соотношение p
1 = dω . Тогда выражения (1.4) и (1.5) можно представить в виде: p 1 ∞ f (x ) = g (ω)exp(iωx )dω (1.6) 2π −∫∞ и, соответственно, 2π
g (ω) =
∞
∫ f (x ) exp(− iωx )dx .
(1.7)
−∞
Выражение (1.6) можно представить в виде:
11
⎤ 1 ∞⎡ 1 ∞ ( ) ( ) f (x ) = f x exp i x dx − ω ⎥ exp(iωx )dω = ∫⎢ ∫ 2π − ∞ ⎣ 2π − ∞ ⎦ ∞
(1.8)
1 g~ (ω) exp(iωx ) dω. ∫ 2π − ∞ При этом 1 ∞ ~ (1.9) g (ω) = ∫ f (x ) exp(− iωx ) dx . 2π − ∞ Выражение (1.4) определяет прямое преобразование Фурье функции f ( x ) и записывается в виде: =
F [ f ( x )] = g ( N ) =
∞
∫ f (x )exp(− i 2πNx ) dx ,
(1.10)
−∞
а выражение, определяющее обратное функции g ( N ), записывается в виде: F
−1
преобразование
Фурье
∞
[g (N )] = f (x ) = ∫ g (N ) exp(i 2πNx ) dN .
(1.11)
−∞
Это выражение можно рассматривать как представление функции f ( x ) в виде линейной комбинации (т.е. интеграла) элементарных функций характерного вида exp(i 2πNx ) . Вполне очевидно, что комплексное число g ( N ) представляет собой просто весовой коэффициент, на который следует умножить элементарную функцию частоты N при синтезе искомой функции f ( x ) . Преобразование Фурье функции двух переменных f ( x, y ) определяется формулой F [ f ( x, y )] = g (N x , N y ) = =
∞
∫ ∫ f (x, y )exp[− i 2π(N x x + N y y )] dxdy,
(1.12)
−∞
при этом обратное преобразование Фурье записывается в виде: F −1 g (N x , N y ) = f ( x, y ) =
[
=
]
∞
∫ ∫ g (N x , N y )exp[i 2π(N x x + N y y )] dN x dN y .
(1.13)
−∞
Заметим, что для любой пары частот N x , N y уравнение exp i 2π(N x x + N y y ) = 1 справедливо при i 2π(N x x + N y y ) = i 2πn , где
[
]
12
n – целое
число.
При
y=−
этом
Nx n x+ = xtgα + y0 , Ny Ny
где
Nx . Направление, перпендикулярное к этой линии, Ny определится очевидным уравнением вида: Ny 1 π⎞ ⎛ = y = xtg ⎜ α + ⎟ + y0 = xtgθ + y 0 , где tgθ = − . 2⎠ tgα N x ⎝ Отсюда N y = N x tgθ . При этом N N x x + N y y = N x x + N x ytgθ = x ( x cos θ + y sin θ) . cos θ Повернём систему координат xOy вокруг начала координат в положение x′Oy ′ в соответствии с уравнением ⎛ x ⎞ ⎛ cos θ − sin θ ⎞⎛ x′ ⎞ ⎟⎟⎜⎜ ⎟⎟ . ⎜⎜ ⎟⎟ = ⎜⎜ y sin θ cos θ ⎝ ⎠ ⎝ ⎠⎝ y ′ ⎠ При этом N ⎡ ⎤ exp i 2π(N x x + N y y ) = exp ⎢i 2π x ( x cos θ + y sin θ)⎥ = cos θ ⎣ ⎦ N ⎡ ⎤ = exp ⎢i 2π x x′ cos 2 θ − y ′ sin θ cos θ + x′ sin 2 θ + y ′ sin θ cos θ ⎥ = cos θ ⎣ ⎦ = exp(i 2πNx′), N где N = x , т.е. N x = N cos θ , а N y = N x tgθ = N sin θ . cos θ Таким образом, точно так же, как одномерное, двумерное преобразование Фурье можно рассматривать как представление функции f ( x, y ) в виде линейной комбинации элементарных функций вида exp i 2π(N x x + N y y ) , при этом каждая элементарная функция в плоскости xOy "направлена" по отношению к оси x под n n , при этом углом θ , как показано на рис.1.1. Здесь N x = ; Ny = px py tgα = −
[
]
(
[
N = N x2 + N y2 ;
величина
)
]
угла
θ
θ = arctg
Ny
. Nx Пространственный период (т.е. расстояние между линиями равной фазы) можно определить очевидным выражением вида:
13
равна:
p 1 ~ p= = = n N
1 N x2
+
N y2
. y
1 Ny
θ 1 Nx
x
~ p
Рис.1.1. Линии равной фазы
Из определения преобразования Фурье вытекает ряд математических следствий, облегчающих нахождение фурье-образа (иначе спектра Фурье или частотного спектра). Эти следствия сформулируем в виде математических теорем и приведём краткое их доказательство. Теорема линейности F [αf ( x, y ) + β F ( x, y )] = αF [ f ( x, y )] + βF [F ( x, y )]. Доказательство Эта теорема непосредственно следует из свойств интеграла. Теорема подобия 1 ⎛ Nx N y ⎞ ⎟. g⎜ Если F [ f ( x, y )] = g (N x , N y ), то F [ f (ax, by )] = , ab ⎜⎝ a b ⎟⎠ Доказательство F [ f (ax, by )] =
∞
∫ ∫ f (ax, by )exp[− i 2π(N x x + N y y )]dxdy =
−∞
=
∞
∫∫
−∞
N y ⎞⎤ ax by ⎡ ⎛N 1 ⎛ Nx N y ⎞ ⎟⎟, = g ⎜⎜ by ⎟⎟⎥ d d , f (ax, by )exp ⎢− i 2π⎜⎜ x ax + b ab a b a b a ⎝ ⎠⎦ ⎝ ⎠ ⎣
14
т.е. "растяжение" координат в пространственной области ( x, y ) приводит к "сжатию" координат в области частот (N x , N y ) и к изменению общей амплитуды спектра. Теорема смещения Если F [ f ( x, y )] = g (N x , N y ), то F [ f ( x − a, y − b )] = g (N x , N y )exp − i 2π(N x a + N y b ) . Доказательство
[
F [ f ( x − a, y − b )] =
]
∞
∫ ∫ f (x − a, y − b )exp[− i 2π(N x x + N y y )] dxdy =
−∞ ∞
∫ ∫ f (x′, y′)exp{− i 2π[N x (x′ + a ) + N y ( y′ + b )]}dx′dy′ =
=
−∞
[
]
= g (N x , N y )exp − i 2π(N x a + N y b ) , т.е. смещение функции в пространственной области вызывает линейный фазовый сдвиг в области частот. Теорема Парсеваля Если F [ f ( x, y )] = g (N x , N y ), то ∞
∫∫
∞
f ( x, y ) dxdy = 2
−∞
∫∫
g (N x , N y ) dN x dN y . 2
−∞
Доказательство Если F [ f ( x, y )] = g (N x , N y ), а F [F ( x, y )] = G (N x , N y ) , то
F [ f ( x, y )F ( x, y )] =
∞
∫ ∫ f ( x, y )F (x, y )exp[− i 2π(N x x + N y y )] dxdy =
−∞
=
∞
∫∫
−∞
⎧∞ ~ ~ f ( x, y ) exp − i 2π(N x x + N y y ) ⎨ ∫ ∫ G N x , N y × ⎩− ∞
[
]
(
~ ~ ⎧∞ ∫ ∫ G N x , N y ⎨ ∫ ∫ f ( x, y ) × ⎩− ∞ −∞ ~ ~ ~ ~ × exp − i 2π N x − N x x + N y − N y y dxdy dN x dN y =
[ (
)]
}
~ ~ ~ ~ × exp i 2π N x x + N y y dN x dN y dxdy =
[(
=
∞
(
)]
) (
)(
∞
)
(
)
}
)
~ ~ ~ ~ ~ ~ G N , N g N − N , N − N d N x y x x y y x dN y , ∫∫
−∞
т.е. преобразование Фурье произведения двух функций выражается просто через преобразования Фурье умножаемых функций g и G с помощью особой операции интегрирования, называемой свёрткой
15
функций g и G . Свёртку функций часто обозначают значком ⊗ . При этом F [ f ( x, y )F ( x, y )] = g (N x , N y ) ⊗ G (N x , N y ). Преобразование Фурье функции f ( x, y ) можно записать в виде:
g (N x , N y ) =
∞
∫ ∫ f (x, y )cos [2π(N x x + N y y )]dxdy −
−∞
−i
∞
∫ ∫ f (x, y )sin[2π(N x x + N y y )]dxdy.
−∞
Отсюда следует, что
g (− N x , − N y ) =
∞
∫ ∫ f (x, y )cos[2π(N x x + N y y )]dxdy +
−∞ ∞
∫ ∫ f (x, y )sin[2π(N x x + N y y )]dxdy = g * (N x , N y ). −∞ При этом F ( x, y ) = f * ( x, y ) имеем G (N x , N y ) = g * (N x , N y ) , +i
где g * (N x , N y ) =
∞
∫ ∫ f * (x, y )exp[i 2π(N x x + N y y )]dxdy.
−∞
Тогда F [ f ( x, y ) f * ( x, y )] = F f ( x, y ) = 2
∞
∫∫
f ( x, y ) exp[− i 2π( N x x + 2
−∞ ∞
⎧∞ ~ ~ + N y y )dxdy = ∫ ∫ f * ( x, y )exp − i 2π(N x x + N y y ) ⎨ ∫ ∫ g N x , N y × ⎩− ∞ −∞ ∞ ~ ~ ~ ~ ~ ~ ⎧∞ × exp i 2π N x x + N y y dN x dN y dxdy = ∫ ∫ g N x , N y ⎨ ∫ ∫ f * ( x, y )× ⎩− ∞ −∞ ~ ~ ~ ~ × exp i 2π N x − N x x + N y − N y y dxdy dN x dN y =
[ (
[
)]
]
}
(
[ ( ) ( )] } ∞ ~ ~ ~ ~ ~ ~ = ∫ ∫ g (N x , N y ) g * (N x − N x , N y − N y )dN x dN y . −∞
Положив N x = N y = 0 , получаем
16
(
)
)
∞
∫ ∫ f ( x, y )
2
dxdy =
−∞
=
∞
∫∫
(
∞
∫ ∫ g (N x , N y ) g * (N x , N y )dN x dN y = ~
~
~
~
~
~
−∞
)
~ ~ 2 ~ ~ g N x , N y dN x dN y .
−∞
Последнее выражение определяет теорему Парсеваля, которая обычно интерпретируется как закон сохранения. Теорема свёртки Если F [ f ( x, y )] = g (N x , N y ), а F [F ( x, y )] = G (N x , N y ) , то ⎡∞ ⎤ F ⎢ ∫ ∫ f (ξ, η)F ( x − ξ, y − η)dξdη⎥ = g (N x , N y )G (N x , N y ). ⎣−∞ ⎦ Доказательство ⎡∞ ⎤ F ⎢ ∫ ∫ f (ξ, η)F ( x − ξ, y − η)dξdη⎥ = ⎣−∞ ⎦ ∞
⎡∞ ⎤ = ∫ ∫ ⎢ ∫ ∫ f (ξ, η)F ( x − ξ, y − η)dξdη⎥ exp − i 2π(N x x + N y y ) dxdy = ⎦ −∞ ⎣−∞ ∞ ⎧∞ ⎫ = ∫ ∫ f (ξ, η)⎨ ∫ ∫ F ( x − ξ, y − η) exp − i 2π(N x x + N y y ) dxdy ⎬dξdη . ⎩− ∞ ⎭ −∞ Введём новые переменные q = x − ξ и p = y − η . При этом exp − i 2π(N x x + N y y ) =
[
]
[
[
[
]
] [
]
]
= exp − i 2π(N x ξ + N y η) exp − i 2π(N x q + N y p ) . Тогда F [ f ( x, y ) ⊗ F ( x, y )] =
=
∞
∫ ∫ f (ξ, η)exp [− i 2π(N x ξ + N y η)]dξdη ×
−∞
×
∞
∫ ∫ F (q, p ) exp [− i 2π(N x q + N y p )]dqdp = g (N x , N y )G (N x , N y ),
−∞
т.е. преобразование Фурье свёртки двух функций полностью эквивалентно более простой операции умножения их образов. Теорема свёртки известна как теорема Бореля. Теорема автокорреляции Если F [ f ( x, y )] = g (N x , N y ), то
17
⎡∞ ⎤ 2 F ⎢ ∫ ∫ f (ξ, η) f * ( x − ξ, y − η)dξdη⎥ = g (N x , N y ) . ⎣−∞ ⎦ Доказательство ⎤ ⎡∞ F ⎢ ∫ ∫ f (ξ, η) f * ( x − ξ, y − η)dξdη⎥ = ⎦ ⎣−∞ ∞
⎤ ⎡∞ = ∫ ∫ ⎢ ∫ ∫ f (ξ, η) f * ( x − ξ, y − η)dξdη⎥ exp − i 2π(N x x + N y y ) dxdy. ⎦ −∞ ⎣−∞ Введём переменные q = x − ξ и p = y − η . Тогда F [ f ( x, y ) ⊗ f * ( x, y )] =
[
]
∞
∫ ∫ f (ξ, η)exp [− i 2π(N x ξ + N y η)]dξdη ×
−∞
×
∞
∫ ∫ f * (q, p ) exp [− i 2π(N x q + N y p )]dqdp =
−∞
= g (N x , N y )g * (N x , N y ) = g (N x , N y ) . 2
Эту теорему можно рассматривать как частный случай теоремы свёртки. Интегральная теорема Фурье Во всех точках, где функция f (x, y ) непрерывна,
FF -1 [ f ( x, y )] = F -1F [ f ( x, y )] = f ( x, y ) , т.е. производя последовательно прямое и обратное преобразования Фурье функции, мы снова получаем эту функцию за исключением точек разрыва. В каждой точке разрыва функции f ( x, y ) два последовательных преобразования Фурье её дают среднее значение величины f ( x, y ) в окрестности этой точки. Рассмотренные теоремы преобразования Фурье определяют основные правила проведения преобразований и могут существенно упростить решение задач, связанных с использованием анализа Фурье. Световое возмущение в плоскости изображения, возникающее изза наличия точечного источника излучения в плоскости предмета, определяется двумерным преобразованием Фурье светового возмущения на сфере в пределах выходного зрачка (комплексного пропускания оптической системы или зрачковой функции) и может быть записано в виде:
18
iR ′ F (µ′, ν′) exp[− ik (µ′x′ + ν′y ′)]dµ′dν′ , λ Σ∫′ ∫ где x′, y ′ – координаты в плоскости изображения; R′ – радиус сферы сравнения; λ – длина волны; m′, M ′ – координаты элемента m′ M′ поверхности волнового фронта, при этом µ′ = , ν′ = ; Σ′ – R′ R′ площадь выходного зрачка. Начало координатных осей m′, M ′ совпадает с осевой точкой выходного зрачка, а координатных осей x′, y′ – с осевой точкой изображения. В этом выражении F (µ′, ν ′) – так называемая зрачковая функция, при этом F (µ′, ν′) = P (µ′, ν′)U (µ′, ν′) exp[− ikW (µ′, ν′)] , где P(µ′, ν′) – единично-нулевая функция, определяемая областью выходного зрачка: ⎧1, (m′, M ′) ∈ Σ′, P(µ′, ν′) = ⎨ ⎩0, (m′, M ′) ∉ Σ′; U (µ′, ν ′) – амплитуда светового возмущения на выходной сфере; W (µ′, ν ′) – функция волновой аберрации. Распределение освещённости в изображении точки определяется соотношением E p ( x′, y ′) = U ( x′, y ′)U * ( x′, y ′) , при этом относительное распределение освещённости в изображении точечного объекта, равное E p ( x′, y ′) , (1.14) I ( x′, y ′) = ∞ ∫ ∫ E p (x′, y′)dx′dy′ u ( x′, y ′) = −
−∞
принято называть функцией рассеяния точки (ФРТ). Отсюда следует, что ∞
∫ ∫ I (x′, y′)dx′dy′ = 1 .
−∞
Распределение освещённости в изображении предмета, образованном оптической системой, определяется выражением E0 ( x′, y ′) = πL( x′, y′)sin 2 σ′ cos 4 W ′ , (1.15)
19
где L( x′, y ′) – приведённое к плоскости изображения распределение яркости излучения изображаемого предмета; σ′ – задняя угловая амплитуда оптической системы (угол между крайним лучом осевого пучка и оптической осью в пространстве изображений); W ′ – полевой угол (угол между главным лучом и оптической осью) в пространстве изображений. Выражение (1.15) определяет идеальное отображение распределения яркости на предмете в распределении освещённости в плоскости изображения, т.е. это выражение не содержит ограничений на разрешающую способность оптической системы. Если предположить, что в рассматриваемой зоне изображения cos 4 W ′ ≈ 1, то при изопланатической коррекции аберраций оптической системы реальное распределение освещённости в изображении предмета определяется в результате свёртки функции распределения освещённости, определяемой выражением (1.15) при W ′ ≈ 0 , и функции рассеяния точки, определяемой выражением (1.14): E ( x′, y ′) = E0 ( x′, y ′) ⊗ I ( x′, y ′) . Процесс вычисления интеграла свёртки функций в рассматриваемом случае весьма трудоёмкий. Однако, в соответствии с пятой теоремой (теоремой Бореля) преобразование Фурье свёртки двух функций равно произведению преобразований Фурье свёртываемых функций, т.е. e(N x′ , N ′y ) = e0 (N x′ , N ′y )i (N x′ , N ′y ), где e, e0 и i – фурье-образы соответствующих функций. Это равенство определяет оптическую систему как фильтр пространственных частот. Функция i (N x′ , N ′y ) , определяющая каким образом, каждая частотная составляющая передаётся оптической системой с учётом дифракции, аберраций, ошибок изготовления и т.д., называется оптической передаточной функцией (ОПФ) оптической системы. Значение модуля ОПФ для каждой пространственной частоты называется коэффициентом передачи модуляции (КПМ). Совокупность значений КПМ для различных пространственных частот составляет функцию передачи модуляции (ФПМ) или частотно-контрастную характеристику оптической системы. Аргумент ОПФ определяет функцию передачи фазы (ФПФ) оптической системы.
20
2. Специальные функции 2.1. Гамма-функция 2.1.1. Определение Гамма-функцию Γ ( z ) можно определить для всех вещественных или комплексных значений z с помощью бесконечного произведения ∞ 1 z⎞ ⎡⎛ ⎛ z ⎞⎤ (2.1) = z exp(γz )∏ ⎢⎜1 + ⎟ exp ⎜ − ⎟⎥ . Γ( z ) m m ⎝ ⎠ ⎝ ⎠ ⎦ m =1 ⎣ В этой формуле величина γ обозначает постоянную Эйлера, которая определяется выражением 1 ⎛ 1 ⎞ γ = lim ⎜1 + + Κ + − ln m ⎟ . m →∞⎝ 2 m ⎠ Хорошее приближение к γ даётся простой формулой 1 γ ≈ 3 10 − 1 = 0,5772173Κ . 2 Другое определение гамма-функции можно дать с помощью соотношения m!m z . (2.2) Γ( z ) = lim m → ∞ z ( z + 1)Κ ( z + m ) Формулу (2.2) можно представить в виде: −1 ∞ m ⎞ 1 z⎞ 1 2 ⎛ z 1 ⎛ z Κ Γ( z ) = lim ⎜ m ⎟ = lim m ∏ ⎜1 + ⎟ . z m →∞⎝ z + 1 z + 2 z + m ⎠ z m→∞ m =1⎝ m ⎠ ∞ z⎞ 1 ⎛ Отсюда следует, что = z lim m − z ∏ ⎜1 + ⎟ . Умножим m →∞ m⎠ Γ( z ) m =1⎝ правую часть этой формулы на следующий множитель, равный единице: 1⎞ ⎤ ∞ ⎡⎛ 1 ⎛ z⎞ lim exp ⎢⎜1 + + Κ + ⎟ z ⎥ ∏ exp ⎜ − ⎟ = 1 . m →∞ m ⎠ ⎦ m =1 ⎝ m⎠ ⎣⎝ 2 При этом 1 1 z⎞ ⎡⎛ 1 ⎞ ⎤ ∞ ⎡⎛ ⎛ z ⎞⎤ = z lim exp ⎢⎜1 + + Κ + − ln m ⎟ z ⎥ ∏ ⎢⎜1 + ⎟ exp ⎜ − ⎟⎥ . m→∞ Γ( z ) m ⎠ ⎦ m =1 ⎣⎝ m ⎠ ⎝ m ⎠⎦ ⎣⎝ 2 1 1 Заметив, что при m → ∞ величина 1 + + Κ + − ln m стремится 2 m к γ , получаем
(
)
21
∞ 1 z⎞ ⎡⎛ ⎛ z ⎞⎤ = z exp(γz ) ∏ ⎢⎜1 + ⎟ exp⎜ − ⎟⎥ , Γ( z ) m⎠ ⎝ m ⎠⎦ m =1 ⎣⎝ т.е. получили формулу (2.1). Отсюда следует справедливость формулы (2.2). Можно также определить гамма-функцию через определённый интеграл вида:
∞
Γ( z ) = ∫ exp(− t ) t z −1dt ,
(2.3)
0
если вещественная часть комплексного числа R( z ) > 0 . Заметим, что n
⎛ t⎞ биноминальный ряд (бином Ньютона) функции ⎜1 − ⎟ при n → ∞ ⎝ n⎠ принимает вид: n t t2 t3 ⎛ t⎞ lim ⎜1 − ⎟ = 1 − + − + Κ = exp(− t ) . n →∞⎝ n⎠ 1! 2! 3! Поэтому для доказательства справедливости выражения (2.3) вычислим сначала интеграл вида: n n ⎛ t ⎞ z −1 I = ∫ ⎜1 − ⎟ t dt . n⎠ 0⎝ t Обозначим = τ . При этом n I =n
z
1
∫ (1 − τ)
n z −1
τ
dτ .
(2.4)
0
Интегрируя по частям, получаем 1 ⎡ (1 − τ )n τ z ⎤ 1 n 1 n z −1 n −1 z ∫ (1 − τ) τ dτ = ⎢ z ⎥ 0 + z ∫ (1 − τ) τ dτ . 0 0 ⎣ ⎦ Если R( z ) > 0 , то первый (внеинтегральный) член в правой части полученного выражения равен нулю. В результате последовательного интегрирования в выражении (2.4) получаем
22
1
∫ (1 − τ)
n z −1
τ
0
1
∫ (1 − τ)
n −1 1 (1 − τ)n−2 τ z +1dτ, τ dτ = ∫ z +1 0
n −1 z
0
1
∫ (1 − τ)τ 0
1
т.е.
n1 dτ = ∫ (1 − τ)n −1 τ z dτ, z0
z +n−2
1 1 1 dτ = τ z + n −1dτ = , ∫ ( z + n − 1)(z + n ) z + n −1 0
n z −1 ∫ (1 − τ) τ dτ = 0
n! . z ( z + 1)( z + 2 )Κ ( z + n )
Следовательно, n! I= nz . z ( z + 1)( z + 2 )Κ ( z + n ) Переходя при n → ∞ к пределу, имеем ∞ n! lim I = ∫ exp(− t )t z −1dz = lim n z = Γ( z ) , n →∞ n → ∞ z ( z + 1)( z + 2 )Κ ( z + n ) 0 ∞
т.е. Γ( z ) = ∫ exp(− t ) t z −1dz . 0
2.1.2. Свойства гамма-функции В соответствии с формулой (2.2) имеем m! Γ( z + 1) = lim m z +1 , m →∞ ( z + 1)( z + 2 )Κ ( z + m + 1) m! mz. Γ( z ) = lim m → ∞ z ( z + 1)( z + 2 )Κ ( z + m ) Следовательно, mz = zΓ ( z ) , Γ( z + 1) = Γ( z ) lim m→∞ z + m + 1 (2.5) т.е. Γ( z + 1) = zΓ( z ) . Эта формула, повторно применённая в предположении, что z = n ( n – целое положительное число), приводит к выражению вида: Γ(n + 1) = n(n − 1)Κ 2 ⋅ 1 ⋅ Γ(1) . m! Но Γ(1) = lim m = 1. m → ∞ 1 ⋅ 2 ⋅ Κ ⋅ (m + 1) 23
Следовательно, (2.6) Γ(n + 1) = n! . Из-за этого свойства гамма-функцию иногда называют факториальной. Согласно формуле (2.1) имеем ∞ z⎞ 1 ⎡⎛ ⎛ z ⎞⎤ = z exp(γz )∏ ⎢⎜1 + ⎟ exp⎜ − ⎟⎥ (− z ) exp(− γz ) × Γ( z )Γ(− z ) m⎠ ⎝ m ⎠⎦ m =1 ⎣⎝ ∞ ∞ ⎛ z⎞ z2 ⎞ ⎡⎛ ⎛ z ⎞⎤ 2 × ∏ ⎢⎜1 − ⎟ exp⎜ ⎟⎥ = − z ∏ ⎜⎜1 − 2 ⎟⎟ . m⎠ m ⎠ ⎝ m ⎠⎦ m =1 ⎣⎝ m =1⎝ В соответствии с формулой (2.5) Γ(1 − z ) = − zΓ(− z ) . При этом ∞ ⎛ 1 z2 ⎞ = z ∏ ⎜⎜1 − 2 ⎟⎟ . (2.7) Γ( z )Γ(1 − z ) m m =1⎝ ⎠ Для последующих преобразований выражения (2.7) обратимся к представлению периодической функции рядом Фурье. В общем случае периодическую функцию f ( x ) с периодом p = 2π можно представить рядом Фурье в виде: ∞ ∞ 1 f ( x ) = b0 + ∑ an sin nx + ∑ bn cos nx , 2 n =1 n =1 который сходится к функции f ( x ) при всех значениях x . Коэффициенты этого ряда определяются следующими формулами Эйлера-Фурье: 1 π an = ∫ f ( x ) sin nxdx, π −π
1 π bn = ∫ f ( x ) cos nxdx. π −π Представим рядом Фурье функцию f ( x ) = cos αx от − π до + π , где α – не целое число. Поскольку функция f ( x ) – чётная, все коэффициенты an равны нулю. Для определения коэффициентов bn имеем 1 π 1 π [cos(α + n )x + cos(α − n )x]dx = bn = ∫ cos αx cos nxdx = 2π −∫π π −π
=
1 ⎡ sin (α + n )π sin (α − n )π ⎤ 2 α sin απ α sin απ 2 . = (− 1)n 2 + = cos nπ 2 2 ⎢ ⎥ α−n ⎦ π π π⎣ α+n α − n2 α −n 24
При этом 2α sin απ ⎛ 1 cos x cos 2 x cos 3x ⎞ cos αx = − +Κ ⎟. ⎜ 2− 2 2+ 2 2 2 2 π α −1 α − 2 α −3 ⎠ ⎝ 2α Положив в этом выражении x = π и разделив его на sin απ , получаем 2α ⎛ 1 1 1 1 ⎞ + +Κ ⎟ ctgαπ = ⎜ 2+ 2 2+ 2 2 2 2 π ⎝ 2α α −1 α − 2 α −3 ⎠ 1 2α ⎛ 1 1 1 ⎞ =− + + +Κ ⎟ . или ctgαπ − ⎜ 2 2 2 2 2 2 απ π ⎝1 − α 2 −α 3 −α ⎠ Если величина α заключена в промежутке 0 ≤ α ≤ a < 1 , то общий 1 член ряда в скобках меньше общего члена ряда ∑ 2 . n − a2 Следовательно, ряд внутри скобок равномерно сходится и можно проинтегрировать обе части равенства от нуля до α . При этом получаем α α 1 ⎞ 1 1 sin απ α ⎛ ∫ ⎜⎝ ctgαπ − απ ⎟⎠dα = π (ln sin απ − ln α ) 0 = π ln α 0 . 0 ⎛ sin απ ⎞ π ⎟ = ln π , имеем Учитывая, что lim ln⎜ α → 0 ⎝ απ ⎠ α 1 ⎞ 1 sin απ 1 1 sin απ ⎛ ∫ ⎜⎝ ctgαπ − απ ⎟⎠dα = π ln α − π ln π = π ln απ . 0 Кроме того, 1 α ∞ 2α 1 ∞ α 2α 1 ∞ 2 2 α ln d d n α = α = − − α = ∑ ∑ ∑ 0 π ∫0 n =1 n 2 − α 2 π n =1 ∫0 n 2 − α 2 π n =1
(
(
)
)
1 ∞ 1 ∞ 1 ∞ ⎛ α2 ⎞ 2 2 2 = − ∑ ln n − α + ∑ ln n = − ∑ ln⎜⎜1 − 2 ⎟⎟. π n =1 π n =1 π n =1 ⎝ n ⎠ В результате интегрирования получили sin απ ∞ ⎛ α 2 ⎞ = ∑ ln⎜⎜1 − 2 ⎟⎟ ln απ n ⎠ n =1 ⎝
sin πα ∞ ⎛ α 2 ⎞ = ∏ ⎜⎜1 − 2 ⎟⎟ . или πα n ⎠ n =1 ⎝ Из сопоставления формул (2.7) и (2.8) имеем π . Γ( z )Γ(1 − z ) = sin πz 25
(2.8)
(2.9)
2.1.3. Некоторые значения функции Γ ( z ) Заметим, что при целом отрицательном значении z всегда z найдётся в выражении (2.1) число m = − z , при котором 1 + = 0 , т.е. m из формулы (2.1) следует, что при целых отрицательных значениях z гамма-функция бесконечна: Γ(− n ) = ±∞ , где n – целое число. 2
1 ⎡ ⎛ 1 ⎞⎤ Если в формуле (2.9) принять z = , то ⎢Γ⎜ ⎟⎥ = π , откуда 2 ⎣ ⎝ 2 ⎠⎦ ⎛1⎞ следует, что Γ⎜ ⎟ = π . Применяя последовательно формулу (2.5), ⎝2⎠ получаем Γ( z + 1) = z ( z − 1)Κ ( z − n + 1)Γ( z − n + 1) , где n – целое число. Положив z = n + k , имеем Γ(n + k + 1) = (n + k )(n + k − 1)Κ (k + 1)Γ (k + 1) . 1 При k = − имеем 2 1 ⎞ 1 ⋅ 3Κ (2n − 1) ⎛ 1 ⎞ 1 ⋅ 3Κ (2n − 1) ⎛ π. Γ⎜ n + ⎟ = Γ⎜ ⎟ = (2.10) 2⎠ 2n 2n ⎝ ⎝2⎠ 1 Заменив в формуле (2.9) величину z на z + , получаем 2 π ⎞ ⎞ ⎛1 ⎛1 Γ⎜ + z ⎟ Γ⎜ − z ⎟ = . (2.11) ⎠ cos πz ⎠ ⎝2 ⎝2 Заменим в формуле (2.11) величину z на n . Тогда формула (2.10) позволяет получить выражение вида: ( 1⎞ − 2)n ⎛ Γ⎜ − n + ⎟ = π. ( ) 2 1 3 2 n 1 ⋅ − Κ ⎝ ⎠
2.1.4. Связь между эйлеровыми интегралами первого и второго рода Эйлеров интеграл первого рода (бета-функция) – это функция двух положительных переменных p и q вида 1
B( p, q ) = ∫ x p −1 (1 − x )q −1 dx . 0
Эйлеровым интегралом второго рода называют гамма-функцию. Полагая x = cos 2 θ , бета-функцию можно записать в виде:
26
π
2
B ( p, q ) = 2 ∫ cos 2 p −1 θ sin 2 q −1 θdθ .
(2.12)
0
В формуле (2.3) заменим z на n и t на y 2 , а затем z заменим на m и t на x 2 . При этом будем иметь ∞
(
)
(
)
Γ(n ) = 2 ∫ y 2 n −1 exp − y 2 dy, 0
∞
Γ(m ) = 2 ∫ x 2 m −1 exp − x 2 dx. 0
Перемножив эти формулы, получаем ∞
(
)
Γ(m )Γ(n ) = 4 ∫ ∫ x 2 m −1 y 2 n −1 exp − x 2 − y 2 dxdy . 0
В результате получаем двойной интеграл, распространённый на первый квадрант координатной плоскости xy . Перейдём к полярным координатам: x = ρ cos θ , y = ρ sin θ , dxdy = ds = ρdρdθ . При этом имеем π
2
Γ(m )Γ(n ) = 2 ∫ cos
2 m −1
0
θ sin
2 n −1
∞
(
)
θdθ × 2 ∫ ρ 2(m + n )−1 exp − ρ 2 dρ . 0
Первый удвоенный интеграл в соответствии с формулой (2.12) равен бета-функции B(m, n ) , а второй удвоенный интеграл в соответствии с формулой (2.3) при t = ρ 2 и z = m + n равен гаммафункции Γ(m + n ) . Таким образом, получаем соотношение между функциями B и Γ в виде: Γ(m )Γ(n ) . (2.13) B (m, n ) = Γ(m + n ) 2.2. Функция вероятности ошибок 2.2.1. Определение функции вероятности ошибок Функция вероятности ошибок Φ ( x ) определяется интегралом 2 x Φ( x ) = exp − t 2 dt . ∫ π0 На рис.2.1 представлена кривая, изображающая функцию Гаусса
( )
27
⎛ x2 ⎞ 1 Ψ(x ) = exp⎜⎜ − ⎟⎟ . 2π ⎝ 2 ⎠
ψ( x )
1 2π
0
x
Рис.2.1. Функция Гаусса
Определим площадь, заключённую между кривой Ψ ( x ) и осью абсцисс. Положив x 2 = 2u , имеем 1 − ⎛ x2 ⎞ ⎛ x2 ⎞ 2∞ 1 ∞ 1 ∞ exp⎜⎜ − ⎟⎟ dx = exp⎜⎜ − ⎟⎟ dx = exp(− u ) u 2 du . ∫ ∫ ∫ π0 2π − ∞ π0 ⎝ 2 ⎠ ⎝ 2 ⎠ В соответствии с формулой (2.3) получаем ∞
1 2 du
⎛1⎞ = Γ⎜ ⎟ = π . ⎝2⎠ 0 ⎛ x2 ⎞ 1 ∞ При этом ∫ exp⎜⎜ − 2 ⎟⎟ dx = 1 , т.е. площадь, заключённая 2π − ∞ ⎠ ⎝ между кривой Ψ ( x ) и осью абсцисс, равна единице. Площадь между кривой Ψ ( x ) и осью абсцисс слева от абсциссы x обозначается через Π ( x ), т.е. ′ ⎛ t2 ⎞ 1 x Π(x ) = ∫ exp⎜⎜ − 2 ⎟⎟ dt . 2π − ∞ ⎠ ⎝ Функция Φ играет большую роль в теории вероятности. Эта функция часто используется при анализе отклонений параметров деталей и узлов при изготовлении оптических приборов, при анализе ошибок измерения и т.п. Полезно установить зависимость между функциями Φ и Π , так как функция Π подробно затабулирована. Если положить t 2 = u , то ⎛ u2 ⎞ 2x ⎛ x ⎞ exp⎜⎜ − ⎟⎟ du . Φ⎜ ⎟= π ∫0 ⎝ 2⎠ ⎝ 2 ⎠ Так как
∫ exp(− u )u
−
28
⎛ u2 ⎞ ⎛ u2 ⎞ 1 0 1 1 x ∫ exp⎜⎜ − 2 ⎟⎟ du = 2 = 2π ∫ exp⎜⎜ − 2 ⎟⎟ du + 2π − ∞ ⎠ ⎝ ⎠ ⎝ −∞ ⎛ u2 ⎞ ⎛ u2 ⎞ 1 0 1 2x + ∫ exp⎜⎜ − 2 ⎟⎟ du = Π(x ) − 2 π ∫ exp⎜⎜ − 2 ⎟⎟ du = 2π x ⎠ ⎝ ⎠ ⎝ 0 1 ⎛ x ⎞ = Π ( x ) − Φ⎜ ⎟, 2 ⎝ 2⎠ то ⎛ x ⎞ Φ⎜ ⎟ + 1 = 2Π ( x ) . 2 ⎠ ⎝
1 Заметим, что при x = 0 значение функции Π (0 ) = . При этом 2 Φ(0) = 0 . При x = ∞ : Π (∞ ) = 1 . При этом Φ(∞ ) = 1. 2.2.2. Разложение функции Φ( x ) в степенной ряд Разложив функцию exp − t 2 в степенной ряд и проинтегрировав его от нуля до x , получаем ряд ⎤ x3 x5 x 2 n +1 2 ⎡ n Φ(x ) = − Κ + (− 1) +Κ ⎥ , ⎢x − + n!(2n + 1) π ⎣ 1!3 2!5 ⎦ сходящийся при любом x . 2 x exp − t 2 dt представлен на рис.2.2. График функции Φ( x ) = ∫ π0
( )
( )
x
( )
2 Рис.2.2. График функции Φ ( x ) = exp − t 2 dt ∫ π0 29
2.2.3. Дифракционный интеграл Френеля-Кирхгофа Световое возмущение U (P ) в некоторой точке P , обусловленное излучением точечного источника P0 и дифракцией излучения на отверстии в плоском экране, определяется дифракционным интегралом Френеля-Кирхгофа: i cos δ A exp[ik (r ′ + s ′)] (2.14) U (P ) = − ∫ ∫ exp[ikf (ξ, η)]dξdη , λ r ′s ′ Σ где Σ – поверхность отверстия; ξ, η – координаты точки Q отверстия; δ – угол между линией P0 P и осью z ; A – постоянная величина. Смысл остальных величин, входящих в выражение (2.14), очевиден из рис.2.3. При этом f (ξ, η) = r + s − r ′ − s′ . x
Q r P0
r′
∑
s
P
s′
O z
y
Рис.2.3. Дифракция на отверстии в плоском экране
Основной дифракционный интеграл (2.14) можно записать в виде: U (P ) = B(C + iS ) , exp[ik (r ′ + s ′)] i , где B = − A cos δ λ r ′s ′ C = ∫ ∫ cos[kf (ξ, η)] dξdη, ⎫ ⎪ Σ (2.15) ⎬ S = ∫ ∫ sin[kf (ξ, η)] dξdη. ⎪ ⎭ Σ При этом интенсивность излучения в точке наблюдения P равна I (P ) = B 2 C 2 + S 2 .
(
)
30
Будем считать, что точки P0 , O и P лежат примерно на одной линии. При этом с точностью до величин ξ и η в степени, не превышающей вторую, имеем 1⎛ 1 1 ⎞ f (ξ, η) = ⎜ + ⎟ ξ 2 cos 2 δ + η2 + Κ . (2.16) 2 ⎝ r ′ s′ ⎠ Отбрасывая члены с ξ и η в третьей и более высоких степенях, интегралы (2.15) можно представить в виде: ⎫ ⎡π ⎛ 1 1 ⎞ ⎤ C = ∫ ∫ cos ⎢ ⎜ + ⎟ ξ 2 cos 2 δ + η2 ⎥ dξdη, ⎪ ⎣ λ ⎝ r ′ s′ ⎠ ⎦ ⎪ Σ (2.17) ⎬ ⎡π ⎛ 1 1 ⎞ 2 ⎤ S = ∫ ∫ sin ⎢ ⎜ + ⎟ ξ cos 2 δ + η2 ⎥ dξdη. ⎪ ⎪⎭ ⎣ λ ⎝ r ′ s′ ⎠ ⎦ Σ Удобно ввести новые переменные интегрирования u и v , определяемые соотношениями π⎛ 1 1 ⎞ 2 π 2 ⎫ 2 ⎜ + ⎟ ξ cos δ = u , ⎪ λ ⎝ r ′ s′ ⎠ 2 ⎪ (2.18) ⎬ π⎛ 1 1 ⎞ 2 π 2 ⎪ ⎜ + ⎟η = v . ⎪⎭ 2 λ ⎝ r ′ s′ ⎠ λ dudv Тогда dξdη = . 2⎛1 1⎞ ⎜ + ⎟ cos δ ⎝ r ′ s′ ⎠ При этом интегралы (2.17) принимают вид: ⎫ ⎡π ⎤ C = b ∫ ∫ cos ⎢ u 2 + v 2 ⎥ dudv, ⎪ ⎣2 ⎦ ⎪ Σ′ (2.19) ⎬ ⎡π 2 ⎤ S = b ∫ ∫ sin ⎢ u + v 2 ⎥ dudv, ⎪ ⎪⎭ ⎣2 ⎦ Σ′ λ где b = . ⎛1 1⎞ 2⎜ + ⎟ cos δ ⎝ r ′ s′ ⎠ Здесь интегрирование производится по области Σ′ в плоскости (u, v ) , в которую подстановкой (2.18) преобразована область Σ отверстия.
(
)
(
)
(
)
(
)
(
)
31
2.2.4. Интегралы Френеля Пусть Σ′ – прямоугольник со сторонами, параллельными осям u и v . Тогда интегралы (2.19) можно упростить, используя следующие тождества: ⎡π ⎤ ⎛π ⎞ ⎛π ⎞ ⎛π ⎞ ⎛π ⎞ ⎫ cos ⎢ u 2 + v 2 ⎥ = cos⎜ u 2 ⎟ cos⎜ v 2 ⎟ − sin ⎜ u 2 ⎟ sin ⎜ v 2 ⎟, ⎪ ⎣2 ⎦ ⎝2 ⎠ ⎝2 ⎠ ⎝2 ⎠ ⎝2 ⎠ ⎪ ⎬ (2.20) π π π π π ⎡ ⎤ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ sin ⎢ u 2 + v 2 ⎥ = sin ⎜ u 2 ⎟ cos⎜ v 2 ⎟ + cos⎜ u 2 ⎟ sin ⎜ v 2 ⎟. ⎪ ⎣2 ⎦ ⎝2 ⎠ ⎝2 ⎠ ⎝ 2 ⎠ ⎝ 2 ⎠ ⎪⎭ В этом случае для вычисления интегралов (2.19) необходимо рассмотреть интегралы v ⎫ ⎛π ⎞ C (v ) = ∫ cos⎜ τ 2 ⎟dτ, ⎪ ⎝2 ⎠ ⎪ 0 (2.21) ⎬ v ⎛π ⎞ S (v ) = ∫ sin ⎜ τ 2 ⎟dτ. ⎪ ⎪ ⎝2 ⎠ 0 ⎭ Интегралы C (v ) и S (v ) называются интегралами Френеля. Они имеют большое значение при решении многих дифракционных задач. Разложив косинус и синус под знаком интеграла в степенные ряды и проинтегрировав почленно, получаем 2 4 ⎫ ⎡ ⎤ 1 ⎛π 2⎞ 1 ⎛π 2⎞ C (v ) = v ⎢1 − v v + , Κ + ⎪ ⎜ ⎟ ⎜ ⎟ ⎥ ⎢⎣ 2!5 ⎝ 2 ⎠ 4!9 ⎝ 2 ⎠ ⎥⎦ ⎪ (2.22) ⎬ 3 5 ⎡ 1 ⎛π ⎞ 1 ⎛π 2⎞ ⎤ ⎪ 1 ⎛π 2⎞ S (v ) = v ⎢ ⎜ v 2 ⎟ − ⎜ v ⎟ − Κ ⎥. ⎪ ⎜ v ⎟ + ⎢⎣1!3 ⎝ 2 ⎠ 3!7 ⎝ 2 ⎠ 5!11 ⎝ 2 ⎠ ⎥⎦ ⎭ Эти ряды сходятся при всех значениях v . Однако, для вычислений они пригодны только при малых значениях v . Когда значения v велики, интегралы можно вычислить, пользуясь разложением в ряды по отрицательным степеням v . Перепишем выражения (2.21) в виде v ∞ ⎛π ⎞ ⎛π 2⎞ C (v ) = ∫ cos⎜ τ ⎟dτ + ∫ cos⎜ τ 2 ⎟dτ = ⎝2 ⎠ ⎝2 ⎠ 0 −∞ (2.23) ∞ d ⎛ π ⎞ dτ = C (∞ ) − ∫ ⎜ sin τ 2 ⎟ . 2 ⎠ πτ v dτ ⎝ Интегрируя по частям, получаем
(
)
(
)
32
∞ π ⎞ dτ d ⎛ 1 ⎛π 2⎞ C (v ) = C (∞ ) + sin ⎜ v ⎟ + ∫ ⎜ cos τ 2 ⎟ 2 3 . 2 ⎠π τ πv ⎝ 2 ⎠ v dτ ⎝ Снова интегрируя по частям и продолжая этот процесс, получаем 1 ⎡ ⎛π ⎞ ⎛ π ⎞⎤ ⎫ C (v ) = C (∞ ) − ⎢ P(v )cos⎜ v 2 ⎟ − Q(v )sin ⎜ v 2 ⎟⎥ ⎪ πv ⎣ ⎝2 ⎠ ⎝ 2 ⎠⎦ ⎪ ⎪ и аналогично (2.24) ⎬ ⎪ 1 ⎡ ⎛π 2⎞ ⎛ π 2 ⎞⎤ ⎪ S (v ) = S (∞ ) − ⎢ P(v )sin ⎜ v ⎟ + Q(v )cos⎜ v ⎟⎥, πv ⎣ ⎝2 ⎠ ⎝ 2 ⎠⎦ ⎪⎭ 1⋅ 3 1⋅ 3 ⋅ 5 ⋅ 7 ⎫ где Q(v ) = 1 − , + − Κ 2 4 ⎪ πv 2 πv 2 ⎪ (2.25) ⎬ 1 1⋅ 3 ⋅ 5 1⋅ 3 ⋅ 5 ⋅ 7 ⋅ 9 + −Κ . ⎪ P (v ) = 2 − 3 5 2 2 ⎪ πv πv πv ⎭ Для вычисления интегралов C (∞ ) и S (∞ ) объединим их в один комплексный интеграл ∞ ⎛ π ⎞ C (∞ ) + iS (∞ ) = ∫ exp⎜ i τ 2 ⎟dτ (2.26) 2 ⎠ ⎝ 0 и введём новую переменную интегрирования
( )
( )
( )
( )
π − 2i 1 − 2i + i 2 1− i ζ = τ −i = τ π=τ π=τ π, 2 2 2 2 2ζ i +1 i +1 τ= =ζ , dτ = dζ . (1 − i ) π π π При этом выражение (2.26) принимает вид: i +1∞ C (∞ ) + iS (∞ ) = exp − ζ 2 dζ . ∫ π 0 Как было показано, Φ(0) = 0 , а Φ(∞ ) = 1. При ∞ π 2 ∫ exp − t dt = 2 . Тогда в рассматриваемом случае 0 i +1 C (∞ ) + iS (∞ ) = . Следовательно, 2
(
)
( )
33
этом
∞
⎫ ⎪ ⎪ (2.27) ⎬ ∞ 1 ⎛π ⎞ S (∞ ) = ∫ sin ⎜ τ 2 ⎟dτ = . ⎪ ⎪ 2 ⎝2 ⎠ ⎭ 0 Окончательно соотношения (2.24) можно записать в виде: πv 2 πv 2 ⎫ cos sin ⎪ 1 2 2 , ⎪ − B (v ) C (v ) = + A(v ) ⎪ 2 πv πv ⎬ πv 2 πv 2 ⎪ sin cos 1 2 − B (v ) 2 , ⎪ S (v ) = + A(v ) ⎪⎭ 2 πv πv 1 ⎛π ⎞ C (∞ ) = ∫ cos⎜ τ 2 ⎟dτ = , 2 ⎝2 ⎠ 0
где асимптотические разложения функций A(v ) и B(v ) имеют вид: ∞ ∞ 3 ⋅ 7Κ (4n − 1) n +1 1 ⋅ 3 ⋅ 5Κ (4n + 1) . , B(v ) = ∑ (− 1)n +1 A(v ) = ∑ (− 1) n 2 1 + 2 2 2n n =0 n =0 πv πv
( )
( )
Рис.2.4. Клотоида или спираль Корню
Поведение интегралов Френеля хорошо иллюстрируется изящным геометрическим построением Корню. В качестве декартовых координат точки кривой берутся величины C и S . Переменная v принимает все возможные значения и поэтому точка, определяемая координатами C и S , описывает некую кривую, 34
показанную на рис.2.4. Эта кривая называется клотоидой или спиралью Корню. Поскольку C (0 ) = S (0 ) = 0 , кривая проходит через начало координат. Кроме того, поскольку C (− v ) = −C (v ) , S (− v ) = − S (v ) , она не симметрична относительно обеих осей. Если dl – элемент дуги рассматриваемой кривой, то ⎡⎛ dC ⎞ 2 ⎛ dS ⎞ 2 ⎤ 2 2 2 2 dl = dC + dS = ⎢⎜ ⎟ + ⎜ ⎟ ⎥ (dv ) . ⎢⎣⎝ dv ⎠ ⎝ dv ⎠ ⎥⎦ Взяв производную по верхнему пределу от интегралов (2.21), получаем ⎡ ⎛π ⎞ ⎛ π ⎞⎤ dl 2 = ⎢cos 2 ⎜ v 2 ⎟ + sin 2 ⎜ v 2 ⎟⎥ (dv )2 = (dv )2 . ⎝2 ⎠ ⎝ 2 ⎠⎦ ⎣ При этом dl = dv . Следовательно, если l измеряется в направлении увеличения v , то параметр v определяет длину дуги кривой, измеряемую от начала координат. Пусть θ – угол между касательной к кривой и осью C . Тогда dS sin ⎛ π v 2 ⎞ ⎟ ⎜ dS 2 ⎠ ⎛π ⎞ ⎝ v d = tg ⎜ v 2 ⎟, = = tgθ = dC dC ⎛π ⎞ ⎝2 ⎠ cos⎜ v 2 ⎟ dv ⎝2 ⎠ π т.е. θ = v 2 . Следовательно, θ возрастает монотонно с увеличением 2 v . Так как θ = 0, когда v = 0 , то в начале координат касательная к кривой совпадает с осью C . Спираль Корню полезна при рассмотрении общих свойств дифракционных картин Френеля.
2.3. Функции Бесселя Так называемые специальные функции математической физики представляют собой решения определённых, часто встречающихся линейных дифференциальных уравнений второго порядка. Весьма простая идея решения линейного дифференциального уравнения второго порядка вида y ′′ + y ′f1 ( x ) + yf 2 ( x ) = 0 состоит в том, чтобы попытаться написать его общий или частный интеграл в виде обобщённого степенного ряда с неопределёнными коэффициентами: y=x
ν
∞
∑ aλ x λ .
λ =0
35
Подставив этот ряд в дифференциальное уравнение, приведём подобные члены и приравняем нулю коэффициенты при различных степенях x . При этом получим бесконечную систему алгебраических уравнений, связывающих показатель степени ν и коэффициенты aλ (λ = 0, 1, 2, Κ ) . Первые (одно или два) уравнения позволяет определить ν . Уравнение, служащее для вычисления ν , называется определяющим уравнением. Остальные уравнения составляют систему рекуррентных соотношений, позволяющих последовательно вычислять коэффициенты разложения. Каждому корню определяющего уравнения соответствует своё разложение в ряд рассматриваемого вида, удовлетворяющее исходному дифференциальному уравнению. Функции Бесселя первого и второго рода порядка ν представляют собой частные решения следующего дифференциального уравнения: d 2 y 1 dy ⎛ ν 2 ⎞ + + ⎜1 − 2 ⎟⎟ y = 0 . (2.28) dz 2 z dz ⎜⎝ z ⎠ Если J ν ( z ) и Yν ( z ) – два независимых решения уравнения (2.28), то общий интеграл уравнения можно записать в виде: y = Z ν ( z ) = AJ ν ( z ) + BYν ( z ) . (2.29) Здесь A и B означают две произвольные постоянные. 2.3.1. Определение функции первого рода Функции Бесселя первого рода, обозначаемые как определяются с помощью следующего ряда: ∞
y = z ρ ∑ aλ z λ .
J ν (z ) ,
(2.30)
λ =0
Если подставить этот ряд в дифференциальное уравнение (2.28) и, придавая λ последовательные значения 0, 1, 2, Κ , λ − 2 , приравнять нулю коэффициенты при z ρ + λ , то получаем ⎫ ρ 2 − ν 2 a0 = 0 , ⎪ ⎪ ( ρ + 1)2 − ν 2 a1 = 0, ⎪ ⎬ 2 2 ⎪ ( ρ + 2 ) − ν a 2 + a0 = 0 , ⎪ ⎪ ( ρ + λ )2 − ν 2 a λ + a λ − 2 = 0. ⎭
(
)
[
]
[
[
]
]
36
(2.31)
Если число ν вещественное, то будем считать его положительным, а если оно комплексное, то будем считать, что R(ν ) > 0 . Пусть a0 ≠ 0 . Тогда из первого уравнения (2.31) находим, что ρ = ±ν . Пусть ρ = ν . При этом все нечётные коэффициенты равны нулю, а чётные коэффициенты вычисляются через a0 , который остаётся неопределённым. Обозначив λ = 2r , имеем ( − 1)r a 2 r = a0 2 r . 2 r!(1 + ν )(2 + ν )Κ (r + ν ) Для функции Бесселя первого рода J ν ( z ) порядка ν произвольный коэффициент a0 принято выбирать в виде: 1 a0 = ν . 2 Γ(1 + ν ) Учитывая, что Γ(1 + r + ν ) = (1 + ν )(2 + ν )Κ (r + ν )Γ(1 + ν ) , получаем 2r
( − 1)r ⎛z⎞ ∞ ⎛z⎞ J ν (z ) = ⎜ ⎟ ∑ ⎜ ⎟ . ⎝ 2 ⎠ r = 0 r!Γ(ν + r + 1) ⎝ 2 ⎠ Если ν равно целому числу n , то имеем ν
2r
r ⎛ z ⎞ ∞ (− 1) ⎛z⎞ J n (z ) = ⎜ ⎟ ∑ ⎜ ⎟ . ⎝ 2 ⎠ r = 0 r!Γ(r + n )! ⎝ 2 ⎠ В частном случае при n = 0 n
( − 1)r ⎛ z ⎞ J 0 (z ) = ∑ 2 ⎜ ⎟ r = 0 (r!) ⎝ 2 ⎠ ∞
(2.32)
(2.33)
2r
.
(2.34)
Впервые бесселева функция J 0 была найдена Даниелем Бернулли в 1732 году при изучении колебаний однородной тяжёлой нити. Разумеется, современное название, и подробное описание обширное семейство бесселевых функций получило лишь много времени спустя, ибо только в 1824 году Бессель, исследуя вопросы, связанные с возмущением движения планет, детально изучил свойства этих функций. Пусть ρ = −ν . При этом чётные коэффициенты a2 r и a2 r − 2 связаны формулой 2r (2r − 2ν )a 2 r + a2 r − 2 = 0 , а нечётные коэффициенты a2 r +1 и a2 r −1 – формулой (2r + 1)(2r + 1 − 2ν ) a2r +1 + a2r −1 = 0 .
37
Если ν не равно половине нечётного числа ( ν – целое число), то все нечётные коэффициенты равны нулю. Аналогично предыдущему находим
( − 1) r ⎛z⎞ ∞ ⎛z⎞ J −ν (z ) = ⎜ ⎟ ∑ (2.35) ⎜ ⎟ . ⎝ 2 ⎠ r = 0 r!Γ(r + 1 − ν ) ⎝ 2 ⎠ Пусть a0 = 0 . Тогда при a1 ≠ 0 второе уравнение (2.31) даёт ρ = ±ν − 1 , при этом все чётные коэффициенты в уравнениях (2.31) равны нулю, а все нечётные – выражаются через a1 . При соответствующем выборе коэффициента a1 можно получить результаты, не отличающиеся от формул (2.32) и (2.35). 2r
−ν
2.3.2. Соотношение между J ν ( z ) и J −ν ( z ) Предположим, что ν не равно целому числу. Тогда функция Γ(r + 1 − ν ) конечна при любых значениях r . Если устремить величину z к нулю, то функция J ν ( z ) также будет стремиться к нулю. Однако, функция J −1 ( z ) будет при этом бесконечно возрастать 2r −ν
⎛z⎞ , показатель степени у которых из-за наличия членов вида ⎜ ⎟ ⎝2⎠ отрицателен по крайней мере у одного или нескольких первых членов. В этом случае ( ν – не целое число!) оба решения J ν ( z ) и J −ν ( z ) , очевидно, линейно независимы. Общий интеграл уравнения (2.28) может быть написан в виде: Z ν ( z ) = AJ ν ( z ) + BJ − ν ( z ) . (2.36) Предположим теперь, что ν равно целому числу n . Тогда формула (2.35) принимает вид: 2r
r ⎛ z ⎞ ∞ (− 1) ⎛ z ⎞ J −n (z ) = ⎜ ⎟ ∑ ⎜ ⎟ . ⎝ 2 ⎠ r =0 r!(r − n )! ⎝ 2 ⎠ Первые члены этого ряда будут равны нулю, пока разность r − n равна целому отрицательному числу. Величина (r − n )! станет конечной при r = n, n + 1, Κ , n + r ′, Κ . Если опустить первые нулевые члены, то предыдущая формула будет выглядеть так:
−n
r +n ⎛z⎞ ⎛ z ⎞ ∞ (− 1) J −n (z ) = ⎜ ⎟ ∑ ⎜ ⎟ ⎝ 2 ⎠ r ′=0 (n + r ′)!r ′! ⎝ 2 ⎠ Отсюда следует, что
−n
′
2 r ′+ 2 n
38
.
J − n ( z ) = (− 1)− n J n ( z ) . (2.37) Теперь обе функции J n и J − n уже не будут линейно независимы и общий интеграл уравнения (2.28) нельзя написать в виде Z n ( z ) = AJ n ( z ) + BJ − n ( z ) . 2.3.3. Рекуррентные соотношения Продифференцируем формулу (2.32) по z . В результате получим следующие выражения:
( − 1)r (2r + ν )⎛⎜ z ⎞⎟ zJ ν′ ( z ) = ∑ ⎝2⎠ r = 0 r!Γ(ν + r + 1) ∞
2r +ν
( − 1)r ⎛z⎞ 2r ⎜ ⎟ zJ ν′ ( z ) = νJ ν ( z ) + ∑ ⎝ 2⎠ r = 0 r!Γ(ν + r + 1) ∞
, 2r +ν
,
( − 1)r −1 ⎛z⎞ zJ ν′ ( z ) = νJ ν ( z ) − z ∑ ⎜ ⎟ r =1 (r − 1)!Γ(r − 1 + ν + 1 + 1) ⎝ 2 ⎠ ∞
2 ( r −1)+ ν +1
.
Отсюда находим первую рекуррентную формулу: zJ ν′ ( z ) = νJ ν ( z ) − zJ ν +1 ( z ) . (2.38) Точно таким же образом получаем zJ ν′ ( z ) = −νJ ν ( z ) + zJ ν −1 ( z ) . (2.39) Вычитая выражение (2.39) из выражения (2.38), имеем ν 2 J v ( z ) = J ν +1 ( z ) + J ν −1 ( z ) . (2.40) z В результате сложения этих выражений получаем 2 J ν′ ( z ) = J ν −1 ( z ) − J ν +1 ( z ) . (2.41) При ν = 0 формула (2.38) принимает вид: J 0′ ( z ) = − J1 ( z ) . Отсюда следует, что нулевые значения функции J1 ( z ) совпадают с максимумами и минимумами функции J 0 ( z ) . 2.3.4. Применение рекуррентных соотношений при вычислении некоторых интегралов z
а. Рассмотрим интеграл
∫z
ν
J ν −1 ( z )dz .
z0
Продифференцируем произведение z ν J ν ( z ):
39
[
]
[
]
d ν z J ν ( z ) = z ν J ν′ ( z ) + νz ν −1 J ν ( z ) = z ν −1 [zJ ν′ ( z ) + νJ v ( z )]. dz Из сопоставления полученного выражения с формулой (2.39) имеем d ν z J ν ( z ) = z ν J ν −1 ( z ) . (2.42) dz Следовательно, рассматриваемый интеграл равен z z ν ν ( ) ( ) z J z dz z J z = . (2.43) ν ∫ ν −1 z 0 z0
Продифференцировав формулу (2.38), получаем
произведение
z
−ν −ν ∫ z J ν +1 (z )dz = − z J ν (z )
z0
z z0
z −ν J ν (z )
и применив
.
(2.44)
z
б. Рассмотрим интеграл ∫ J ν ( z )dz . 0
Заменив ν на ν + 1 и интегрируя выражение (2.41), получаем z
z
0
0
2 J ν +1 ( z ) = ∫ J ν ( z )dz − ∫ J ν + 2 ( z )dz . Аналогично z
z
0
0
2 J ν + 3 ( z ) = ∫ J ν + 2 ( z )dz − ∫ J ν + 4 ( z )dz и т.д. Складывая почленно всю эту цепочку равенств, получим z
∫ J ν (z )dz = 2[J ν +1 (z ) + J ν +3 (z ) + Κ ]. 0
Ряд, фигурирующий в правой части полученного выражения, очень быстро сходится. z
в. Рассмотрим интеграл I = ∫ z m J n ( z )dz , 0
где m и n – целые положительные числа, m > n . Этот интеграл можно записать в виде: z
I = ∫ z m − n −1 z n +1 J n ( z )dz . 0
Интегрируя по частям при использовании формулы (2.43), получаем 40
[
I= z
m − n −1 n +1
z
]
J n +1 ( z )
z 0
z
− (m − n − 1)∫ z m − n − 2 z n +1 J n +1 ( z ) dz 0
или z
I = z J n +1 ( z ) − (m − n − 1)∫ z m −1 J n +1 ( z )dz . m
0
Таким же образом получаем z
∫z
m −1
J n +1 ( z )dz = z
m −1
0 z
∫z
J n + 2 ( z ) − (m − n − 3)∫ z m − 2 J n + 2 ( z )dz , 0
m−2
J n + 2 ( z )dz = z
m−2
0 z
∫z
z
z
J n + 3 ( z ) − (m − n − 5)∫ z m −3 J n + 3 ( z )dz , 0
m − k +1
J n + k −1 ( z )dz = z
0
m − k +1
z
J n + k ( z ) − (m − n − 2k + 1)∫ z m − k J n + k ( z )dz. 0
Если можно найти такое целое число k , чтобы m − k = n + k + 1 , т.е. если m − n – нечётное число, то получим интеграл, вычисление которого рассмотрено в пункте а. Но если m − n – чётное число, то необходимо продолжить вычисление до такого номера k , при котором m − k = 0 . При этом приходим к интегралу от J m+ n ( z ) , способ вычисления которого рассмотрен в пункте б. 2.3.5. Соотношение между двумя функциями, индексы которых отличаются на целое число Обратимся к формуле (2.44), которую можно написать в виде: 1 d −ν z − ν −1 J ν +1 ( z ) = − z J ν (z ) . z dz Если в этой формуле заменить ν на ν + 1, получим 1 d − ν −1 1 d ⎧ 1 d −ν ⎫ z −ν −2 J ν + 2 (z ) = − z J ν +1 ( z ) = − z J ν (z ) ⎬ ⎨− z dz z dz ⎩ z dz ⎭ или в сокращённом виде 2 2 d −ν − 2 −ν z J ν + 2 ( z ) = (− 1) z J ν ( z ) и т.д. (zdz )2 В результате находим, что
[
]
[
]
[
[
]
41
]
z
−ν − n
J ν + n ( z ) = (− 1)
n
dn
(zdz )
n
[z
−ν
]
J ν (z ) .
(2.45)
Это выражение и определяет соотношение между двумя функциями, индексы которых отличаются на целое число. Точно так же из формулы (2.43), которую можно написать в виде: d ν z J ν ( z ) = z ν J ν −1 ( z ) , dz получаем dn ν−n z J ν −n (z ) = z ν J ν (z ) . (2.46) n (zdz )
[
]
[
]
2.3.6. Бесселевы функции первого порядка с полуцелым индексом Рассмотрим дифференциальное уравнение (2.28) в частном 1 случае при ν = . В этом случае уравнение имеет вид: 2 2 d y 1 dy ⎛ 1 ⎞ + + 1 − (2.47) ⎜ ⎟y = 0. dz 2 z dz ⎝ 4 z 2 ⎠ dy 1 ⎛ du 1 u ⎞ u . При этом а Пусть = y= ⎟, ⎜ − dz dz 2 z z z ⎠ ⎝ 2 2 d y 1 ⎛ d u 1 du 3 u ⎞ ⎜ 2 − ⎟ . Подставив эти соотношения в = + 2 2 ⎟ ⎜ z dz 4 z ⎝ dz dz z ⎠ уравнение (2.47), получаем d 2u + u = 0. dz 2 Очевидным решением этого уравнения является решение вида: u ( z ) = A cos z + B sin z . 1 ( A cos z + B sin z ) . Коэффициенты A и B При этом y ( z ) = z должны быть такими, при которых функция y совпадает либо с функцией J 1 , либо с функцией J 1 . В соответствии с формулой 2
(2.32) функция
−
2
J 1 (0) = 0 . При этом
y (0 ) = A . Следовательно,
2
коэффициент A должен быть равен нулю. Сравнивая разложение в
42
ряд функции J 1 ( z ) , представленное формулой (2.32), и функции 2
sin z , получаем z ⎛ z2 ⎞ ⎞ 2 ⎛ z2 ⎜1 − + Κ ⎟ . B z ⎜⎜1 − + Κ ⎟⎟ = z ⎟ 3! 3! π ⎜⎝ ⎝ ⎠ ⎠ 2 Отсюда следует, что B = и, соответственно, π 2 J 1 (z ) = sin z . π z 2 В результате аналогичных рассуждений получаем 2 J 1 (z ) = cos z . − π z 2
y(z ) = B
(2.48)
(2.49)
1 Если в рекуррентной формуле (2.40) положить ν = ± , то будем 2 иметь 2 ⎛ sin z ⎞ − cos z ⎟, J 3 (z ) = ⎜ πz ⎝ z ⎠ 2 J
3 − 2
(z ) =
2⎛ cos z ⎞ ⎜ − sin z − ⎟. πz ⎝ z ⎠
Аналогично последовательным применением формулы (2.40) получаем 2 ⎡⎛ 3 3 ⎤ ⎞ − − J 5 (z ) = 1 sin z cos z ⎜ ⎟ ⎢ z2 ⎥, π z z ⎝ ⎠ ⎣ ⎦ 2 J
5 − 2
(z ) =
J 7 (z ) = 2
J
7 − 2
(z ) =
2 ⎡3 ⎤ ⎛ 3 ⎞ + − sin z 1 cos z ⎜ ⎟ ⎥; 2 πz ⎢⎣ z z ⎝ ⎠ ⎦
2 ⎡⎛ 15 6 ⎞ ⎤ ⎛ 15 ⎞ ⎜ 3 − ⎟ sin z − ⎜ 2 − 1⎟ cos z ⎥, ⎢ z⎠ πz ⎣⎝ z ⎝z ⎠ ⎦ 2 ⎡ ⎛ 15 ⎞ ⎤ ⎛ 15 6 ⎞ − ⎜ 2 − 1⎟ sin z − ⎜ 3 − ⎟ cos z ⎥; ⎢ z⎠ πz ⎣ ⎝ z ⎝z ⎠ ⎦
43
J 9 (z ) = 2
J
−
9 (z ) = 2
2 ⎡⎛ 105 45 ⎞ ⎤ ⎛ 105 10 ⎞ − + − − 1 sin cos z z ⎜ ⎟ ⎜ ⎟ ⎥, πz ⎢⎣⎝ z 4 z 2 z⎠ ⎠ ⎝ z3 ⎦ 2 ⎡⎛ 105 10 ⎞ ⎤ ⎛ 105 45 ⎞ − − sin z ⎜ ⎟ ⎜ 4 − 2 + 1⎟ cos z ⎥. ⎢ 3 πz ⎣⎝ z z⎠ z ⎝ z ⎠ ⎦
2.3.7. Применение бесселевых функций при вычислении интегралов Френеля Интегралы Френеля, особенно часто встречающиеся в задачах по дифракции света, были определены формулами (2.21) следующего вида: ν ν ⎛π ⎞ ⎛π 2⎞ C (ν ) = ∫ cos⎜ τ ⎟dτ, S (ν ) = ∫ sin ⎜ τ 2 ⎟dτ . ⎝2 ⎠ ⎝2 ⎠ 0 0
πτ2 Пусть = z . При этом с учётом формул (2.48) и (2.49) 2 получаем 1ν 2 1ν C (ν ) = ∫ cos zdz = ∫ J 1 ( z ) dz , 2 0 πz 2 0 −2 1ν 2 1ν S (ν ) = ∫ sin zdz = ∫ J 1 ( z ) dz. 2 0 πz 20 2 z
Принимая во внимание метод вычисления интеграла
∫ J ν (z )dz , 0
рассмотренный в разделе 2.3.4. п.б, можно написать C (ν ) = J 1 (ν ) + J 5 (ν ) + J 9 (ν ) + Κ , ⎫ ⎪ 2 2 2 (2.50) ⎬ S (ν ) = J 3 (ν ) + J 7 (ν ) + J 11 (ν ) + Κ . ⎪ ⎭ 2 2 2 Оба ряда очень быстро сходятся и особенно удобны при вычислении интегралов Френеля C (ν ) и S (ν ) . 2.3.8. Производящая функция для бесселевых функций первого рода целого порядка Рассмотрим функцию ⎡ z ⎛ 1 ⎞⎤ ⎛ zt ⎞ ⎛ zt ⎞ exp ⎢ ⎜ t − ⎟⎥ = exp⎜ ⎟ exp⎜ − ⎟ . ⎝2⎠ ⎝ 2⎠ ⎣ 2 ⎝ t ⎠⎦ Так как ряды 44
2
n
1 ⎛ zt ⎞ zt 1 ⎛ zt ⎞ ⎛ zt ⎞ exp⎜ ⎟ = 1 + + ⎜ ⎟ + Κ + ⎜ ⎟ + Κ , 2 2! ⎝ 2 ⎠ n! ⎝ 2 ⎠ ⎝2⎠ 2
n
z 1⎛ z ⎞ ⎛ z⎞ n 1 ⎛ z ⎞ exp⎜ − ⎟ = 1 − + ⎜ ⎟ − Κ + (− 1) ⎜ ⎟ + Κ 2t 2! ⎝ 2t ⎠ n! ⎝ 2t ⎠ ⎝ 2t ⎠ сходятся абсолютно, то ряд для произведения равен произведению рядов для сомножителей. Соберём члены при одинаковой степени t . Легко убедиться, что коэффициент при t n представляет степенной ряд по z , который совпадает с рядом для функции J n ( z ) , а коэффициент при t − n совпадает с рядом для J − n ( z ) . Следовательно, можем написать ⎡ z ⎛ 1 ⎞⎤ exp ⎢ ⎜ t − ⎟⎥ = J 0 ( z ) + tJ 1 ( z ) + t 2 J 2 ( z ) + Κ + t n J n ( z ) + Κ ⎣ 2 ⎝ t ⎠⎦ 1 1 1 Κ + J −1 ( z ) + 2 J − 2 ( z ) + Κ + n J − n ( z ) + Κ t t t или же, в силу соотношения (2.37), ∞ 1⎤ ⎡ z ⎛ 1 ⎞⎤ ⎡ exp ⎢ ⎜ t − ⎟⎥ = J 0 ( z ) + ∑ J n ( z )⎢t n + (− 1)n n ⎥ . (2.51) t ⎦ ⎣ ⎣ 2 ⎝ t ⎠⎦ n =1 ⎡ z ⎛ 1 ⎞⎤ Функция exp ⎢ ⎜ t − ⎟⎥ называется производящей функцией для ⎣ 2 ⎝ t ⎠⎦ бесселевых функций первого рода целого порядка. Ряд справа сходится при всех z и при всех t ≠ 0 . Положим t = exp(iθ) . При этом выражение (2.51) принимает вид: ⎡z ⎤ exp ⎢ eiθ − e −iθ ⎥ = exp(iz sin θ) = ⎣2 ⎦
(
)
∞
[
]
= J 0 ( z ) + ∑ J n ( z ) exp(inθ) + (− 1)n exp(− inθ) n =1
группируя в сумме отдельно чётные (n = 2 p ) и нечётные члены (n = 2 p′ − 1) , это выражение можно записать в виде: ∞
∞
p =1
p ′ =1
exp(iz sin θ) = J 0 ( z ) + 2 ∑ J 2 p ( z ) cos 2 pθ + 2i ∑ J 2 p′−1 ( z ) sin (2 p ′ − 1)θ .
Приравнивая вещественные и мнимые части, имеем ∞
cos( z sin θ) = J 0 ( z ) + 2 ∑ J 2 p ( z ) cos 2 pθ , p =1
45
(2.52)
∞
sin ( z sin θ) = 2 ∑ J 2 p′−1 ( z ) sin (2 p ′ − 1)θ .
(2.53)
p ′ =1
Заменив θ на
π − θ , получаем 2 ∞
cos( z cos θ) = J 0 ( z ) + 2 ∑ (− 1) J 2 p ( z ) cos 2 pθ , p
(2.54)
p =1
∞
sin ( z cos θ) = −2 ∑ (− 1) J 2 p′−1 ( z ) cos(2 p ′ − 1) θ . p′
(2.55)
p ′ =1
Эти формулы дают разложения ряда Фурье функций, находящихся в левых частях равенств. Пользуясь классическим способом вычисления коэффициентов ряда Фурье, умножим обе части уравнения (2.52) на cos 2kθ и проинтегрируем от 0 до π . Тогда заметив, что все интегралы, содержащие произведение π cos 2kθ cos 2 pθ , равны нулю, если k ≠ p , и равны , если p = k , 2 π 1 получаем J 2 k ( z ) = ∫ cos( z sin θ) cos 2kθdθ . π0 Применив этот же способ к формуле (2.53), имеем 1π J 2 k −1 ( z ) = ∫ sin ( z sin θ) sin (2k − 1)θdθ . π0 Обе полученные формулы можно представить в виде одного соотношения, называемого интегралом Бесселя: 1π J n ( z ) = ∫ [cos( z sin θ) cos nθ + sin ( z sin θ) sin nθ] dθ = π0 (2.56) π 1 = ∫ cos(nθ − z sin θ) dθ. π0 Действительно, если n – чётное число, то второе слагаемое в квадратных скобках равно нулю. Если же n – нечётное число, то равно нулю первое слагаемое. 2.3.9. Представление J ν ( z ) через определённый интеграл Сравнивая формулы (2.12) и (2.13), получаем π
2 1 2 = cos 2α −1 θ sin 2β −1 θdθ . ∫ Γ(α + β ) Γ(α )Γ(β ) 0
46
1 1 Положим α = r + , β = ν + . Тогда предыдущее выражение 2 2 можно записать в виде: π
2 1 2 (2.57) cos 2 r θ sin 2ν θdθ . = ∫ 1⎞ ⎛ 1⎞ 0 Γ(r + ν + 1) ⎛ Γ ⎜ ν + ⎟Γ ⎜ r + ⎟ 2⎠ ⎝ 2⎠ ⎝ Подставив выражение (2.57) в формулу (2.32) и выполнив при 1⎞ ⎛ этом замену выражения Γ⎜ r + ⎟ в соответствии с формулой (2.10), 2⎠ ⎝ получаем
2 ⎛z⎞ J ν (z ) = ⎜ ⎟ 1⎞⎝2⎠ ⎛ πΓ⎜ ν + ⎟ 2⎠ ⎝
π
2 (− 1)r z 2 r ∑ 1⋅ 3Κ (2r − 1) ⋅ 2 ⋅ 4Κ 2r ∫ cos 2r θ sin 2ν θdθ r =0 0
ν ∞
или π
2 ⎡ 2ν ∞ (− 1)r z 2 r cos 2 r θ ⎤ 2 ⎛z⎞ J ν (z ) = ⎜ ⎟ ⎢sin θ ∑ ⎥ dθ . 1 ⎞ ⎝ 2 ⎠ ∫0 ⎣ ( 2r )! ⎛ r =0 ⎦ πΓ⎜ ν + ⎟ 2⎠ ⎝ Сумма под знаком интеграла представляет собой разложение в степенной ряд функции cos( z cos θ) . При этом имеем ν
2 ⎛z⎞ J ν (z ) = ⎜ ⎟ 1⎞⎝2⎠ ⎛ πΓ⎜ ν + ⎟ 2⎠ ⎝
ν π2
∫ sin
2ν
θ cos( z cos θ) dθ
0
или 1 ⎛z⎞ J ν (z ) = ⎜ ⎟ 1⎞⎝2⎠ ⎛ πΓ⎜ ν + ⎟ 2⎠ ⎝
νπ
∫ sin
2ν
θ cos( z cos θ) dθ .
(2.58)
0
π
Учитывая, что ∫ sin 2ν θ sin ( z cos θ) dθ = 0 , выражение (2.58) можно 0
представить в виде: νπ 1 ⎛z⎞ 2ν J ν (z ) = ⎜ ⎟ ∫ exp(iz cos θ) sin θ dθ . 1⎞ 2 ⎛ πΓ⎜ ν + ⎟ ⎝ ⎠ 0 2⎠ ⎝ 47
(2.59)
Единственное ограничение относится к индексу ν , который 1⎞ ⎛ должен быть таким, чтобы R⎜ ν + ⎟ > 0 . 2⎠ ⎝ Для примера обратимся вновь к выражению, определяющему распределение светового возмущения в изображении точки: u ( x′, y ′) = C0 ∫ ∫ F (µ′, ν′) exp[− ik (µ′x′ + ν ′y ′)] dµ′dν′ , Σ′
где F (µ′, ν ′) = P(µ′, ν′)U (µ′, ν′) exp[− ikW (µ′, ν′)]. f ( x′, y ′) , преобразование Фурье которой Для функции F [ f ( x′, y ′)] = g (N x , N y ) , обладающей осевой симметрией, удобно перейти к полярной системе координат: y′ x′ = r ′ cos ϕ , y ′ = r ′ sin ϕ , r ′ = x′ 2 + y ′ 2 , tgϕ = . x′ Преобразование Фурье функции f (r ′, ϕ) запишем в виде: F [ f (r ′, ϕ)] = g (ρ, γ ) , Ny . При этом где ρ = N x2 + N y2 , tgγ = Nx ∞ 2π
∫ ∫ f (r ′, ϕ) exp[− i 2πr ′ρ(cos γ cos ϕ + sin γ sin ϕ)]r ′dr ′dϕ . 0 0 Из свойства осевой симметрии функции f (r ′, ϕ) следует, f (r ′, ϕ) = f (r ′) . Тогда g (ρ, γ ) =
g (ρ, γ ) =
∞
2π
0
0
что
∫ f ′(r ′)r ′dr ′ ∫ exp[− i 2πr ′ρ cos(ϕ − γ )]dϕ .
⎛1⎞ Напомним, что Γ⎜ ⎟ = π . При этом при ν = 0 выражение (2.59) ⎝2⎠ можно записать в виде: 1 2π J 0 (z ) = exp(− iz cos θ) dθ . 2π ∫0 Используя это соотношение, получаем ∞
g (ρ, γ ) = g (ρ) = 2π ∫ f (r ′)J 0 (2πr ′ρ )r ′dr ′ . 0
Полученное выражение преобразования Фурье, играющее важную роль в решении оптических задач, называется преобразованием Фурье-Бесселя или преобразованием Ганкеля.
48
Положив в выражение для u ( x′, y ′) зрачковую функцию F (µ′, ν ′) = U 0 , т.е. положив P(µ′, ν′) = 1 , а W (µ′, ν′) ≡ 0 , и заменив декартовы координаты полярными, получаем a′ 2 π
u (r ′) = C ∫ ∫ exp[− ikr ′ρ cos(ϕ − γ )]ρdρdγ , 0 0
где C = U 0C0 . Используя преобразование выражение преобразуем к виду:
Фурье-Бесселя,
полученное
a′
u (r ′) = 2πC ∫ J 0 (kr ′ρ )ρdρ . 0
Положив в рекуррентной формуле (2.42) индекс ν = 1, имеем d [zJ 1 ( z )] = zJ 0 ( z )dz . Это соотношение позволяет выражение для u (r ′) представить в виде: 2 J (ka ′r ′) 2πC u (r ′) = 2 2 ka ′r ′J1 (ka ′r ′) = 2πa ′ 2 C 1 . k ′a ′r ′ k r′ При r ′ = 0 : u (0 ) = 2πa ′ 2 C . Таким образом, относительное распределение светового возмущения в изображении точки определяется выражением u (r ′) 2 J 1 (ka ′r ′) = , u~ (r ′) = u (0 ) ka ′r ′ а относительное распределение освещённости в изображении точки соответственно равно: 2 2 J 1 (ka ′r ′)⎤ ~ ⎡ E (r ′) = ⎢ . ⎥ ′ ′ k a r ⎣ ⎦ 2.3.10. Корни бесселевых функций Можно показать, что решение уравнения (2.28) может иметь лишь простые корни (за исключением случая z = 0 , ν > 1 ); два линейно независимых решения уравнения (2.28) не могут иметь общих корней и корни эти взаимно разделены; для вещественных x и ν > −1 все корни J ν ( x ) ёвещественны. Теорема Корни J ν и J ν +1 взаимно разделены. Из формул (2.44) и (2.43) посредством дифференцирования получаем
49
[ [
]
d −ν x J ν ( x ) = − x −ν J ν +1 ( x ) ; dx d ν +1 x J ν +1 ( x ) = x ν +1 J ν ( x ) . dx Первая формула показывает, что между двумя последовательными корнями x − ν J ν ( x ) имеется, по крайней мере,
]
один корень x − ν J ν +1 ( x ) . Вторая формула показывает, что между двумя ν +1 последовательными корнями x J ν +1 ( x ) имеется, по крайней мере,
один корень x ν +1 J ν ( x ) . Формула (2.38) показывает, что у функций J ν и J ν +1 нет общих корней, так как все корни функции J ν простые. Повторное применение рекуррентных формул и формул, из них вытекающих, позволяет показать, что корни J ν и J ν + m также взаимно разделены. Кривые J 0 ( x ), J1 ( x ), J 2 ( x ), Κ , J 5 ( x ) представлены на рис.2.5.
Рис.2.5. Кривые J 0 ( x ), J1 ( x ), Κ
Значения функций J 0 и J1 для последовательности значений величины z приведены в табл.2.1.
50
Таблица 2.1. Бесселевы функции J 0 , J1
z
J 0 (x )
J1 ( x )
z
J 0 (x )
J1 ( x )
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1,000 0 0,997 5 0,990 0 0,977 6 0,960 4 0,938 5 0,912 0 0,881 2 0,846 3 0,807 5
0,000 0 0,049 9 0,099 5 0,148 3 0,196 0 0,242 3 0,286 7 0,329 0 0,368 8 0,405 9
4,0 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9
– 0,397 1 – 0,388 7 – 0,376 6 – 0,361 0 – 0,342 3 – 0,320 5 – 0,296 1 – 0,269 3 – 0,240 4 – 0,209 7
– 0,066 0 – 0,103 3 – 0,138 6 – 0,171 9 – 0,202 8 – 0,231 1 – 0,256 6 – 0,279 1 – 0,298 5 – 0,314 7
1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9
0,765 2 0,719 6 0,671 1 0,620 1 0,566 9 0,511 8 0,455 4 0,398 0 0,340 0 0,281 8
0,440 1 0,470 9 0,498 3 0,522 0 0,541 9 0,557 9 0,569 9 0,577 8 0,581 5 0,581 2
5,0 5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9
– 0,177 6 – 0,144 3 – 0,110 3 – 0,075 8 – 0,041 2 – 0,006 8 + 0,027 0 0,059 9 0,091 7 0,122 0
– 0,327 6 – 0,337 1 – 0,343 2 – 0,346 0 – 0 345 3 – 0,341 4 – 0,334 3 – 0,324 1 – 0,311 0 – 0,295 1
2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9
0,223 9 0,166 6 0,110 4 0,055 5 0,002 5 – 0,048 4 – 0,096 8 – 0,142 4 – 0,185 0 – 0,224 3
0,576 7 0,568 3 0,556 0 0,539 9 0,520 2 0,497 1 0,470 8 0,441 6 0,409 7 0,375 4
6,0 6,1 6,2 6,3 6,4 6,5 6,6 6,7 6,8 6,9
0,150 6 0,177 3 0,201 7 0,223 8 0,243 3 0,260 1 – 0,274 1 0,285 1 0,293 1 0,298 1
– 0,276 7 – 0,255 9 – 0,232 9 – 0,208 1 – 0,181 6 – 0,153 8 – 0,125 0 – 0,095 3 – 0,065 2 – 0,034 9
51
Продолжение таблицы 2.1. Бесселевы функции J 0 , J1
z
J 0 (x )
J1 ( x )
z
3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9
– 0,260 1 – 0,292 1 – 0,320 2 – 0,344 3 – 0,364 3 – 0,380 1 – 0,391 8 – 0,399 2 – 0,402 6 – 0,401 8
0,339 1 0,300 9 0,261 3 0,220 7 0,179 2 0,137 4 0,095 5 0,053 8 0,012 8 – 0,027 2
7,0 7,1 7,2 7,3 7,4 7,5 7,6 7,7 7,8 7,9
J 0 (x )
0,300 1 0,299 1 0,295 1 0,288 2 0,278 6 0,266 3 0,251 6 0,234 6 0,215 4 0,194 4
Корни уравнения J n ( z ) = 0 представлены в табл.2.2.
52
J1 ( x )
– 0,004 7 + 0,025 2 0,054 3 0,082 6 0,109 6 0,135 2 0,159 2 0,181 3 0,201 4 0,219 2
53
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
n
2,40483 3,83171 5,13562 6,38016 7,58834 8,77142 9,93611 11,08637 12,22509 13,35430 14,47550 15,58985 16,6983 17,8014 18,9000 19,9944 21,0851 22,1725 23,2568 24,3383
1 5,52008 7,01559 8,41724 9,76102 11,06471 12,33860 13,58929 14,82127 16,0378 17,2412 18,4335 19,6160 20,7899 21,9562 23,1158 24,2692
2 8,65373 10,17347 11,61984 13,01520 14,37254 15,70017 17,0038 18,2876 19,5545 20,8070 22,0470 23,2759 24,4949
3 11,79153 13,32369 14,79595 16,22347 17,6160 18,9801 20,3208 21,6416 22,9452 24,2339
4 14,93092 16,47063 17,95982 19,40942 20,8269 22,2178 23,5861 24,9349
5
Номер корня
18,07106 19,61586 21,11700 22,58273 24,1990
6 21,21164 22,76008 24,27112
7
24,35247
8
Таблица 2.2. Корни уравнения Jn(z)=0
2.3.11. Определение бесселевой функции второго порядка Рассмотрим функцию cos πνJ ν ( z ) − J −ν ( z ) Yν ( z ) = . (2.60) sin πν Если ν – не целое число, то это выражение представляет собой частный интеграл дифференциального уравнения (2.28). Если устремить ν к целому числу n , то правая часть в выражении (2.60) становится неопределённой. Раскроем эту неопределённость, применив правило Лопиталя. Учитывая, что sin πn = 0 , а n cos πn = (− 1) , получаем ∂J ( z )⎤ 1 ⎡ ∂J ( z ) (2.61) Yn ( z ) = ⎢ n − (− 1) n − n ⎥ . π ⎣ ∂n ∂n ⎦ Пользуясь разложением в ряд (2.32), вычислим производную функции J ν ( z ) по индексу ν : ν+ 2r
∂J ν ( z ) ( Γ′(r + ν + 1) ⎛ z ⎞ − 1)r z ∞ = J ν ( z ) ln − ∑ . ⎜ ⎟ ∂ν 2 r =0 r!Γ(ν + r + 1) Γ(r + ν + 1) ⎝ 2 ⎠ Логарифмическая производная гамма-функции по определению равна Γ′( z + 1) Ψ(z ) = . Γ( z + 1) Используя формулы (2.1) и (2.5), имеем ∞ 1 ⎞ ⎛1 Ψ(z ) = −γ + ∑ ⎜ − ⎟. + n n z ⎝ ⎠ n =1 Отсюда можно получить соотношение: 1 Ψ ( z ) = Ψ ( z − 1) + , z 1 1 1 при этом Ψ (n ) = − γ + 1 + + + Κ + . 2 3 n Устремим ν к целому числу. Тогда в соответствии с приведёнными соотношениями и формулой (2.6) получаем r ∂J n ( z ) ⎛ z ⎞ ∞ (− 1) = J n ( z )⎜ ln + γ ⎟ − ∑ × ( ) ∂n + 2 ! ! r r n ⎝ ⎠ r =0 (2.62) n+ 2r 1 ⎞⎛ z ⎞ ⎛ 1 × ⎜1 + + Κ + . ⎟⎜ ⎟ + 2 2 r n ⎝ ⎠⎝ ⎠ Используя формулы (2.35) и (2.9), выражение для функции J −ν ( z ) можно представить в виде: 54
Γ(ν + r ) sin πν ⎛ z ⎞ J −ν ( z ) = ∑ ⎜ ⎟ π ⎝2⎠ r! r =0 n −1
+ (2.63)
−ν + 2r
(− 1)
r
∞
−ν + 2r
⎛z⎞ , ⎜ ⎟ ( ) Γ − ν + + ! 1 2 r r ⎝ ⎠ r =n где n – ближайшее целое число, большее ν . Продифференцируем выражение (2.63) по индексу ν : ∂J − ν ( z ) sin πν z n −1 1 ⎡ = − J −ν ( z ) ln + ∑ ⎢Γ′(ν − r ) + 2 r =0 r ! ⎣ ∂ν π +∑
⎛z⎞ + Γ(ν − r ) cos πν ]⎜ ⎟ ⎝2⎠
−ν + 2r
+
(2.64) −ν + 2r
(− 1)r
Γ′(− ν + r + 1) ⎛ z ⎞ . +∑ ⎜ ⎟ r = n r !Γ(− ν + r + 1) Γ(− ν + r + 1) ⎝ 2 ⎠ Устремим ν к n . Тогда формула (2.64) примет вид: −n+ 2r ∂J − n ( z ) z n −1 n (n − r − 1)!⎛ z ⎞ = [γ − J − n ( z )]ln + ∑ (− 1) + ⎜ ⎟ ∂n r! 2 2 r =0 ⎝ ⎠ ∞
(− 1) ⎛ z ⎞ ⎜ ⎟ ( ) + ! r n r ⎝2⎠ r =0 ∞
r
2r −n
(2.65)
1⎞ ⎛ 1 ⎜1 + + Κ + ⎟ . r⎠ ⎝ 2 Подставим выражения (2.62) и (2.65) в формулу (2.61). Учитывая соотношение (2.37), получаем для Yn ( z ) следующее разложение в ряд, показывающее, что эта функция (она называется функцией Вебера) линейно независима от J n ( z ) : + (− 1)n ∑
2⎛ 1 n −1 (n − r − 1)!⎛ z ⎞ z⎞ Yn ( z ) = ⎜ γ + ln ⎟ J n ( z ) − ∑ ⎜ ⎟ 2⎠ r! π⎝ π r =0 ⎝ 2⎠
n−2r
−
2r + n (2.66) ⎛z⎞ ⎜ ⎟ 1 ∞ 1 1 1 ⎫ ⎧ 1 r ⎝ 2⎠ − ∑ (− 1) ⎨1 + + Κ + + 1 + + Κ + ⎬. 2 r !(n + r )! ⎩ 2 r n+ r⎭ π r =0 При r = 0 под суммой в фигурных скобках надо понимать выражение 1 1 1+ +Κ + . 2 n 1 Если в формуле (2.60), определяющей Yν ( z ) , положить ν = , то 2
55
Y1 ( z ) = − J 2
−
2 cos z . πz
1 (z ) = − 2
(2.67)
Точно так же Y
1 − 2
(z ) = J 1 (z ) = 2
2 sin z . πz
(2.68)
1⎞ ⎛ Если в формуле (2.60) положить ν = ±⎜ n + ⎟ , то получим 2⎠ ⎝ n +1 Y 1 ( z ) = (− 1) J 1 ( z ) , (2.69) n+
Y
−n−
2
−n−
1 2
(z ) = (− 1)
n +1
J
2
n+
1 2
(z ).
(2.70)
2.4. Функции Лежандра Дифференциальное уравнение вида 2 df 2 d f 1− z − 2 z + ν(ν + 1) f = 0 (2.71) dz dz 2 называется дифференциальным уравнением Лежандра. Решения этого уравнения называются функциями Лежандра (сферическими функциями Лежандра).
(
)
2.4.1. Разложения в степенные ряды Попробуем найти решение уравнения (2.71) в виде обобщённого степенного ряда по возрастающим степеням переменной z : ∞
f ( z ) = z k ∑ aλ z λ . λ =0
Подставим этот ряд в уравнение (2.71) и приравняем нулю коэффициенты при различных степенях z . Так как величина λ ≥ 0 , то наименьший показатель степени z равен k − 2 . В результате этого получаем a0 k (k − 1) = 0, a1k (k + 1) = 0, ⎫ ⎪ (2.72) ( k + λ )(k + λ + 1) − ν(ν + 1) ⎬ aλ . ⎪ aλ + 2 = (k + λ + 1)(k + λ + 2) ⎭ Пусть k = 0 . Тогда коэффициенты a0 и a1 могут принимать произвольные значения, а (ν − λ )(ν + λ + 1) a . aλ + 2 = − (ν + 1)(ν + 2) λ 56
При этом, используя принятые обозначения для гипергеометрических рядов, решение уравнения (2.71) можно представить в виде: ⎛ ν ν +1 1 2 ⎞ ⎛ ν −1 ν + 2 3 2 ⎞ f ( z ) = a0 F ⎜ − , , ; z ⎟, , , ; z ⎟ + a1 zF ⎜ − 2 2 2 ⎝ 2 2 2 ⎠ ⎝ ⎠ ν(ν + 1) 2 ⎛ ν ν +1 1 2 ⎞ z + , ; z ⎟ =1− где F ⎜ − , 2! ⎝ 2 2 2 ⎠ ν(ν − 2 )(ν + 1)(ν + 3) 4 (2.73) z −Κ + + 4! ν(ν − 2)Κ (ν − 2λ + 2 )(ν + 1)(ν + 3)Κ (ν + 2λ − 1) 2λ z +Κ , + (− 1)λ (2λ )! ⎛ ν −1 ν + 2 3 2 ⎞ F⎜− , ;z ⎟= , 2 2 2 ⎝ ⎠ (ν − 1)(ν + 2) z 2 + (ν − 1)(ν − 3)(ν + 2)(ν + 4) z 4 − Κ + (2.74) =1− 3! 5! (ν − 1)(ν − 3)Κ (ν − 2λ + 1)(ν + 2)(ν + 4)Κ (ν + 2λ ) z 2λ + Κ . + (− 1)λ (2λ + 1)! Отношение двух последовательных членов в каждом из рядов aλ + 2 2 (2.73) и (2.74) равно z . Из выражения, связывающего aλ коэффициенты aλ + 2 и aλ , следует, что при бесконечно возрастающем λ отношение aλ + 2 к aλ стремится к единице. Следовательно, ряды (2.73) и (2.74) сходятся в интервале (− 1, + 1) и дают в нём решения уравнения (2.71). Этот интервал особенно важен, так как часто переменная z представляет собой косинус полюсного углового расстояния между точками в сферических коэффициентах: z = cos θ . Вполне очевидно, что соотношения (2.72) удовлетворяются также при k = 1, a1 = 0 ( a0 принимает произвольные значения) и при k = −1 , a0 = 0 ( a1 принимает произвольные значения). Легко убедиться, что эти условия приводят к разложениям, полученным выше. Попробуем теперь представить решение дифференциального уравнения (2.71) с помощью разложения в ряд по убывающим степеням переменной z . Подставим для этого в уравнение (2.71) ряд f (z ) = z
k
∞
∑ bλ z −λ
λ =0
57
и приравняем нулю коэффициенты при различных степенях z . Учитывая, что наивысший показатель степени z равен k , получаем b0 (k − ν )(k + ν + 1) = 0, b1 (k − ν − 1)(k + ν ) = 0, bλ (k − λ − ν )(k − λ + ν + 1) = bλ − 2 (k − λ + 2 )(k − λ + 1), λ ≥ 2. Пусть k = ν , b1 = 0 и b0 – произвольная величина. При этом получаем ряд: ν(ν − 1) − 2 ν(ν − 1)(ν − 2 )(ν − 3) − 4 ⎡ ⎤ f ( z ) = b0 z ν ⎢1 − z + z −Κ ⎥ = 2 ⋅ 4(2ν − 1)(2ν − 3) ⎣ 2(2ν − 1) ⎦ (2.75) ⎛ ν 1− ν 1 ⎞ , ν; z − 2 ⎟ . = b0 z ν F ⎜ − , ⎝ 2 2 2 ⎠ При k = −ν − 1 , b1 = 0 и произвольном значении b0 имеем
⎡ (ν + 1)(ν + 2 ) − 2 f ( z ) = b0 z − ν −1 ⎢1 + z + ( ) ν + 2 2 3 ⎣ (ν + 1)(ν + 2)(ν + 3)(ν + 4) z − 4 + Κ ⎤ = + ⎥ 2 ⋅ 4(2ν + 3)(2ν + 5) ⎦
(2.76)
⎛ ν +1 ν + 2 3 ⎞ + b0 z −ν −1 F ⎜ , , + ν; z − 2 ⎟ . 2 2 ⎝ 2 ⎠ Ряды (2.75) и (2.76) определяют частные решения уравнения (2.71), сходящиеся при z > 1 . 2.4.2. Полиномы Лежандра Если параметр ν равен целому неотрицательному числу n , то все коэффициенты одного из рядов (2.73) или (2.74), начиная с определённого номера, будут равны нулю и, следовательно, этот ряд сведётся к полиному. Если n – чётное число, то ряд (2.73) оборвётся на члене n -й степени; если же n – нечётное число, то ряд (2.74) оборвётся на члене (n − 1) -й степени. Если положить (n −1) 1 ⋅ 3 ⋅ 5Κ n n 1 ⋅ 3 ⋅ 5Κ (n − 1) , , a1 = (− 1) 2 a0 = (− 1) 2 2 ⋅ 4 ⋅ 6 Κ (n − 1) 2 ⋅ 4 ⋅ 6Κ n то при z = 1 оба полинома будут принимать значения, равные единице. Полученные таким образом полиномы называются полиномами Лежандра Pn ( z ) . Расположенные по возрастающим степеням z , они определяются выражением вида:
58
Pn ( z ) = +
1 ⋅ 3 ⋅ 5Κ (2n − 1) ⎡ n n(n − 1) n − 2 + ⎢ z − 2(2n − 1) z n! ⎣
n(n − 1)(n − 2 )(n − 3) n − 4 ⎤ −Κ ⎥. z 2 ⋅ 4 ⋅ (2n − 1)(2n − 3) ⎦
(2.77)
2.4.3. Производящая функция полиномов Лежандра Пусть A и M – две точки, расположенные соответственно на расстоянии r и r ′ от начала координат O , как показано на рис.2.6. В соответствии с рисунком имеем AM = OM − OA . При этом AM 2 = OM 2 − 2OM ⋅ OA∠ cos OM ⋅ OA + OA2 = r ′ 2 − 2rr ′ cos θ + r 2 ,
(
расстояние AM равно r − 2rr ′ cos θ +
(
2
)
1 2 2 r′ ,
т.е.
)
1 2
AM = r ′ h − 2h cos θ + 1 2
или
(
)
2
AM = r h − 2h cos θ + 1
1 2,
r r′ при r ′ > r и отношение при r′ r r ′ < r . Следовательно, величина h в обоих случаях меньше единицы. A
где через h обозначено отношение
r
θ O
r′
M
Рис.2.6. Производящая функция полиномов Лежандра
Ньютоновский потенциал в точке A , находящийся на расстоянии r от начала координат, вызванный единичной массой, помещённой в точку M на расстоянии r ′ от начала координат, выражается формулой
59
1 ⎧1 r′ 2 −2 1 − 2h cos θ + h , h = при r ′ < r , ⎪ 1 ⎪ r = ⎨r 1 AM ⎪ 1 r 2 −2 1 2 cos , при r ′ > r. − θ + = h h h ⎪⎩ r ′ r′
(
)
(
)
(
)
1 2 −2 1 − 2h cos θ + h
Разложим выражение
в ряд по возрастающим
степеням h . При этом коэффициент при разложением (2.77), если z заменить на cos θ , т.е.
(1 − 2h cos θ + )
1 2 −2 h
hn
определяется
= P0 (cos θ) + hP1 (cos θ)Κ
Κ + h Pn (cos θ) + Κ =
∞
∑h
n
n =0
n
(2.78)
Pn (cos θ).
Это выражение оправдывает название коэффициентов Лежандра,
(
)
1 2 −2 +h
данное полиномам Pn (cos θ). Функция 1 − 2hz называется производящей функцией полиномов Лежандра. Пусть начало системы координат x, y, z расположено в точке O , а ось oz направлена вдоль линии OM . При этом при r 2 = x 2 + y 2 + z 2
[
]
1 2 2 y .
С помощью разложения в ряд расстояние AM = (r ′ − z ) + x + Тейлора по r ′ при r ′ = 0 , учитывая, что 1 1 ∂ ∂ AM = − AM , находим ∂r ′ ∂z 2
r ′= 0
2
r ′= 0
[
]
1
n ∞ − 1 n n 1 ∂ ⎛1⎞ 2 2 2 2 = ( z − r ′) + x + y = ∑ (− 1) r ⎜ ⎟. AM n! ∂z n ⎝ r ⎠ n =0 Сравнив с выражением (2.78), получаем n n 1 n +1 ∂ ⎛ 1 ⎞ Pn ( z ) = (− 1) r ⎜ ⎟. n! ∂z n ⎝ r ⎠ Иногда может оказаться удобным разложить Pn (cos θ) по косинусам углов, кратных θ . Для этого запишем производящую функцию в виде:
(
)
1 2 −2 1 − 2h cos θ + h
=
(
) (
1 iθ − 2 1 − he
)
1 − iθ − 2 1 − he .
60
Биноминальные ряды для обоих двучленов абсолютно сходятся. Поэтому искомое разложение можно получить непосредственным перемножением биномиальных рядов. В результате этого находим, что 1 ⋅ 3 ⋅ 5Κ (2n − 1) ⎡ 1⋅ n Pn (cos θ) = 2 cos nθ + cos(n − 2 )θ + ⎢ 2 ⋅ 4 ⋅ 6 Κ 2n ⎣ 1 ⋅ (2n − 1) (2.79) 1 ⋅ 3 ⋅ n(n − 1) ⎤ + cos(n − 4 )θ + Κ ⎥ . 1 ⋅ 2 ⋅ (2n − 1)(2n − 3) ⎦ 2.4.4. Примеры полиномов Лежандра Положив в формуле (2.78) величину h равной нулю, получаем P0 (cos θ) = P0 ( z ) = 1. Если в выражениях (2.77) и (2.79) последовательно принять n = 1, 2,Κ , 7,Κ , то получим P1 ( z ) = z ,
(
)
1 2 3z − 1 , 2 1 P3 ( z ) = 5 z 3 − 3 z , 2 1 P4 ( z ) = 35 z 4 − 30 z 2 + 3 , 8 1 P5 ( z ) = 63 z 5 − 70 z 3 + 15 z , 8 P2 ( z ) =
(
)
( (
)
)
(
)
P6 ( z ) =
1 231z 6 − 315 z 4 + 105 z 2 − 5 , 16
P7 ( z ) =
1 429 z 7 − 693 z 5 + 315 z 3 − 35 z . 16
(
)
61
P1 (cos θ) = cos θ, 1 P2 (cos θ) = (3 cos 2θ + 1) , 4 P3 (cos θ) =
1 (5 cos 3θ + 3 cos θ), 8
P4 (cos θ) =
1 (35 cos 4θ + 20 cos 2θ + 9), 64
P5 (cos θ) =
1 (63 cos 5θ + 35 cos 3θ + 30 cos θ), 128
P6 (cos θ) =
1 (231cos 6θ + 126 cos 4θ + 105 cos 2θ + 50), 512
P7 (cos θ) =
1 (429 cos 7θ + 231cos 5θ + 189 cos 3θ + 175 cos θ). 1024
2.4.5. Рекуррентные формулы Продифференцируем по h обе части равенства
(1 − 2hz
)
1 2 −2 +h
=
∞
∑ h n Pn (z ) .
(2.80)
n =0
При этом
(1 − 2hz
3 2 −2 +h
)
(z − h ) = ∑ nh n −1 Pn (z )
(1 − 2hz
1 2 −2 +h
)
( z − h ) = (1 − 2hz + h 2 )∑ nh n −1 Pn (z ) .
∞
(2.81)
n =0
или ∞
n =0
Используя в левой части этого равенства формулу (2.80), имеем
(z − h )∑ h n Pn (z ) = (1 − 2hz + h 2 )∑ nh n −1 Pn ( z ) . ∞
∞
n =0
n =0
Приравнивая коэффициенты при h n , получаем рекуррентное соотношение, связывающее три последовательных полинома Лежандра: (n + 1)Pn +1 (z ) − (2n + 1)zPn ( z ) + nPn −1 ( z ) = 0 . (2.82) Продифференцируем уравнение (2.80) по z . При этом 62
(
h 1 − 2hz
)
3 2 −2 +h
∞
=
d
∑ h n dz Pn (z ) .
n =0
Умножив левую и правую части этого равенства на ( z − h ) и учитывая равенство (2.81), получаем ∞ ∞ d n ∑ nh Pn (z ) = (z − h )∑ h n dz Pn (z ) . n =0 n =0 Приравнивая в этом равенстве коэффициенты при h n , получаем рекуррентное соотношение вида: d d z Pn ( z ) − Pn −1 ( z ) = nPn ( z ) . (2.83) dz dz Продифференцируем по z формулу (2.82): (n + 1) d Pn +1 ( z ) − (2n + 1)Pn (z ) − (2n + 1)z d Pn (z ) + dz dz (2.84) d + n Pn −1 ( z ) = 0. dz d Исключив Pn −1 ( z ) из соотношений (2.83) и (2.84), получаем dz рекуррентную формулу вида: d d Pn +1 ( z ) − z Pn ( z ) = (n + 1)Pn ( z ) . (2.85) dz dz 2.4.6. Некоторые значения полиномов Лежандра При z = 1 выражение (2.80) принимает вид:
(
)
1 2 −2 1 − 2h + h
−1
∞
∑ h n Pn (1).
n =0
− Но (1 − h ) 1 = ∞
= (1 − h ) = ∞
∑ h n . В результате получаем тождество
n =0 ∞
∑ h n Pn (1) = ∑ h n ,
n =0
n =0
из которого следует, что Pn (1) = 1 . Заменим в выражении (2.80) величину z на − z . При этом имеем
[1 − 2h(− z )
]
1 2 −2 +h
[
]
1 2 −2 +h .
= 1 − 2(− h )z соответствующие
Приравнивая получаем Pn (− z ) = (− 1)n Pn ( z ) .
правые
части
разложений, (2.86)
63
Отсюда, в частности, следует, что Pn (− 1) = (− 1)n . Положив в выражении (2.80) величину z = 0 , разложим левую часть выражения в ряд и приравняем коэффициенты при одинаковых степенях h . В результате получаем 1 ⋅ 3 ⋅ 5Κ (2 p − 1) . (2.87) P2 p +1 (0 ) = 0, P2 p (0 ) = (− 1) p 2 ⋅ 4 ⋅ 6Κ 2 p 2.4.7. Формула Родрига
(
)
n
Легко убедиться, что формула y = z 2 − 1 удовлетворяет дифференциальному уравнению z 2 − 1 y ′′ + 2 z (1 − n ) y ′ − 2ny = 0 . (2.88) Продифференцировав это уравнение n раз по z , получаем d n−2 d n −1 dn 2 z − 1 n y ′′ + 2nz n −1 y ′′ + n(n − 1) n − 2 y ′′ + dz dz dz dn d n −1 dn + 2(1 − n )z n y ′ + 2(1 − n )n n −1 y ′ − 2n n y = 0 . dz dz dz n d Обозначим n y = w . При этом предыдущее соотношение можно dz представить в виде: z 2 − 1 w′′ + 2nzw′ + n(n − 1)w + 2(1 − n )zw′ + 2(1 − n )nw − 2nw = 0 или z 2 − 1 w′′ + 2 zw′ − n(n + 1)w = 0 . (2.89) Из сопоставления полученного выражения с уравнением (2.71) следует, что выражение (2.89) представляет собой дифференциальное уравнение Лежандра. Следовательно, w( z ) с точностью до постоянного множителя равен полиному Лежандра Pn ( z ) :
(
)
(
)
(
)
(
)
(
)
n dn 2 Pn ( z ) = kw ( z ) = k n z − 1 . dz Легко убедиться, что дифференцирования получаем Pn ( z ) = k ⋅ 2 n n!+ k z 2 − 1 Ψ ( z ) . При z = 1 имеем
(
(2.90) в
)
Pn (1) = 1 = k ⋅ 2 n n! Отсюда k =
1 . 2 n n!
64
результате
n -кратного
Подставив это соотношение в выражение (2.90), получаем формулу Родрига n 1 dn 2 Pn ( z ) = n z − 1 . (2.91) n 2 n! dz
(
)
2.5. Полиномы Чебышева 2.5.1. Определение Рассмотрим дифференциальное уравнение: 2 dy 2 d y 1− ω −ω + n2 y = 0 , (2.92) 2 dω dω где n – целое число. Пусть ω = cos t или ω = cht . e t + e −t – гиперболический косинус. При этом Здесь cht = 2 получаем: d2y d2y 2 + n y = 0 или 2 − n 2 y = 0 . 2 dt dt Эти уравнения имеют соответственно следующие два линейно независимых решения: y = cos nt , y = sin nt ; ⎫ (2.93) ⎬ y = chnt , y = shnt. ⎭ При этом линейно независимые решения уравнения (2.92) можно представить в виде: Tn (ω) = cos(n arccos ω) при ω < 1 , (2.94) Tn (ω) = ch(nArchω) при ω > 1 , (2.95) U n (ω) = sin (n arccos ω) при ω < 1 , (2.96) U n (ω) = sh(nArchω) при ω > 1 . (2.97) Функции Tn и U n называются соответственно функциями Чебышева первого и второго рода n -го порядка. Функция Tn (ω) представляет собой полином. Действительно, при ω < 1 имеем:
(
)
(
)
n
Tn (ω) + iU n (ω) = cos nt + i sin nt = (cos t + i sin t ) = ω ± ω − 1 , n
(
)
n
2
Tn (ω) − iU n (ω) = (cos t − i sin t ) n = ω µ ω2 − 1 . Сложив, левые и правые части полученных равенств, находим,
что 65
(
) + (ω µ
(
)
)
n ⎤ (2.98) ω2 − 1 ⎥ . ⎦ e t + e −t или 2ω = e t + e −t . Умножив Напомним, что ω = cht = 2 левую и правую части этого равенства на e t , получаем e 2t − 2e t ω + 1 = 0 . Решив это уравнение, находим, что e t = ω ± ω2 − 1 . n 1 2 = ω µ ω − 1 . При этом e nt = ω ± ω2 − 1 n ; e − nt = n 2 ω ± ω −1 Таким образом, при ω > 1 имеем
Tn (ω) =
1⎡ ω ± ω2 − 1 ⎢ 2⎣
n
(
)
)
(
(
)
n e nt + e − nt e nt − e − nt Tn (ω) + U n (ω) = + = e nt = ω ± ω2 − 1 ; 2 2
)
(
n
Tn (ω) − U n (ω) = e − nt = ω µ ω2 − 1 . Отсюда следует, что и в этом случае величина Tn (ω) определяется тем же выражением (2.98). Полином Tn (ω) называется полиномом Чебышева первого рода. В соответствии с формулой бинома Ньютона имеем: (x ± a )n = x n ± nx n −1a + n(n − 1) x n −2 a 2 ± n(n − 1)(n − 2) x n −3 a 3 + Κ 2! 3! Κ + (± 1) n a n или
(x ± a )n = Cn0 x n a 0 ± Cn1 x n−1a + Cn2 x n−2 a 2 ± Cn3 x n−3a 3 + Κ Κ + (± 1)n Cnn x 0 a n ,
⎛n⎞ где C nm или ⎜⎜ ⎟⎟ – число всех сочетаний из n элементов по m . При ⎝m⎠ этом сумма коэффициентов разложения ( x + a )n : C n0 + C n1 + C n2 + Κ + C nn − 2 + C nn −1 + C nn = 2 n ,
а сумма коэффициентов разложения ( x − a )n :
C n0 − C n1 + C n2 − Κ + (− 1)n − 2 C nn − 2 + (− 1)n −1 C nn −1 + (− 1)n C nn = 0 . Используя формулу бинома Ньютона, выражение (2.98) можно представить в виде:
66
n n(n − 3) n − 4 n(n − 4 )(n − 5) n − 6 ⎡ Tn (ω) = 2 n −1 ⎢ωn − 2 ωn − 2 + ω + ω − 4 6 1 ! 2 2 ! 2 3 ! 2 ⎣ n(n − 5)(n − 6 )(n − 7 ) n −8 n(n − 6 )(n − 7 )(n − 8)(n − 9 ) n −10 ⎤ + ω − ω + Κ ⎥⎦ . 4!28 5!210 Последний член в квадратных скобках равен 1 , если n = 2k ; 2 2 k −1 2k + 1 ω , если n = 2k + 1 . 2 2k Аналогично получаем n n 1⎡ ⎤ при ω < 1 U n (ω) = ⎢ ω ± i 1 − ω2 − ω µ i 1 − ω2 ⎥ , 2i ⎣ ⎦ n n 1⎡ ⎤ а при ω > 1 U n (ω) = ⎢ ω ± ω2 − 1 − ω µ ω2 − 1 ⎥ . 2⎣ ⎦ Функции Чебышева второго рода U n могут быть представлены следующими формулами: U n (ω) = ± 1 − ω2 p n (ω) , если ω < 1 ;
(
(
) ( ) (
) )
U n (ω) = ± ω2 − 1 p n (ω) , если, ω > 1 , где p n (ω) – полином (n − 1) -й степени от ω, при этом: n−2 ⎡ p n (ω) = 2 n −1 ⎢ωn −1 − 2 ωn −3 + 1!2 ⎣ (n − 3)(n − 4) ωn −5 − (n − 4)(n − 5)(n − 6) ωn −7 + Κ ⎤. + ⎥⎦ 2!2 4 3!2 6 Последний член в квадратных скобках равен 2k ω , если n = 2k ; 2 2 k −1 1 , если n = 2k + 1 . 22k Полином Pn (ω) , равный полиному p n +1 (ω) , называется полиномом Чебышева второго рода. Выражения, определяющие первые одиннадцать полиномов Tn (ω) и pn (ω) , имеют вид:
67
T0 (ω) = 1,
T1 (ω) = ω, T2 (ω) = 2ω2 − 1, T3 (ω) = 4ω3 − 3ω, T4 (ω) = 8ω4 − 8ω2 + 1, T5 (ω) = 16ω5 − 20ω3 + 5ω, T6 (ω) = 32ω6 − 48ω4 + 18ω2 − 1, T7 (ω) = 64ω7 − 112ω5 + 56ω3 − 7ω, T8 (ω) = 128ω8 − 256ω6 + 160ω4 − 32ω2 + 1, T9 (ω) = 256ω9 − 576ω7 + 432ω5 − 120ω3 + 9ω, T10 (ω) = 512ω10 − 1280ω8 + 1120ω6 − 400ω4 + 50ω2 − 1. p0 (ω) = 0, p1 (ω) = 1,
p 2 (ω) = 2ω, p3 (ω) = 4ω2 − 1, p 4 (ω) = 8ω3 − 4ω, p5 (ω) = 16ω4 − 12ω2 + 1, p6 (ω) = 32ω5 − 32ω3 + 6ω, p7 (ω) = 64ω6 − 80ω4 + 24ω2 − 1, p8 (ω) = 128ω7 − 192ω5 + 80ω3 − 8ω, p9 (ω) = 256ω8 − 448ω6 + 240ω4 − 40ω2 + 1, p10 (ω) = 512ω9 − 1024ω7 + 672ω5 − 160ω3 + 10ω.
2.5.2. Графики полиномов Tn (ω) и U n (ω) Если на некотором листе бумаги начертить синусоиду с периодом 2π и амплитудой, равной единице, а затем обернуть в эту синусоиду n цилиндр вращения с радиусом, равным единице, то проекция синусоиды (косинусоиды) на плоскость, параллельную оси цилиндра, определит в соответствии с формулой (2.94) график полинома 68
Чебышева Tn (ω) в интервале (− 1, + 1) , как показано на рис.2.7, при этом один из максимумов или минимумов синусоиды должен находиться в плоскости, параллельной плоскости проекции и проходящей через ось цилиндра. Каждая точка кривой является проекцией двух точек, симметрично расположенных на цилиндре. Это соответствует тому, что согласно выражению (2.98) функцию Tn (ω) можно представить как полусумму проекций двух комплексно сопряжённых точек. На рис.2.7 изображён полином T6 (ω) , представляющий собой проекцию шести периодов синусоиды, обвитой вокруг цилиндра.
Рис.2.7. Полином Чебышева T6 (ω)
На рис.2.8 приведены графики шести первых полиномов Чебышева. Они выходят из (− 1) n ∞ для отрицательных и очень больших ω, колеблются n − 1 раз между абсциссами и ординатами − 1 и + 1 и быстро возрастают к + ∞ для ω > 1 .
Рис.2.8. Графики полиномов T1 , T2 , Κ , T6
69
Если синусоида, обвитая вокруг цилиндра, помещена на нём таким образом, что одна из её нулевых точек находится на плоскости, проходящей через ось цилиндра параллельно плоскости проекции, то её проекцией будет кривая U n (ω) . В области внешней по отношению к интервалу ω < 1 функция будет вещественна, если произвести замену определения, перейдя от ± 1 − ω2 внутри к ± ω2 − 1 вне интервала (− 1, + 1) . Первые шесть функций U n (ω) представлены на рис.2.9.
Рис.2.9. Графики полиномов U1 , U 2 , Κ , U 6
2.5.3. Основные свойства полиномов Чебышева Итак, проекция кривых cos nω и sin nω , обвитых вокруг круглого цилиндра с радиусом, равным единице, на плоскость, параллельную оси цилиндра, определяет кривые Tn (ω) и U n (ω) . Если обвить вокруг того же цилиндра график периодической функции с периодом 2π , представленной разложением в ряд Фурье: ∞
b0 + ∑ (a n sin nω + bn cos nω) , n =1
то проекция его на ту же плоскость будет представлена разложением вида: ∞
b0T0 (ω) + ∑ [a nU n (ω) + bnTn (ω)] . n =1
Корни полиномов Чебышева Все корни Tn (ω) вещественны и заключены между − 1 и + 1 . Корень ωi номера i определяется формулой: 70
π , где i = 1, 2, 3, Κ , n . 2n Эти значения ωi попарно симметричны, а поэтому можно написать: T2 k (ω) = 2 2 k −1 ω2 − ω12 ω2 − ω22 Κ ω2 − ωi2 Κ ω2 − ω2k , ωi = cos(2i − 1)
(
(
)(
) ( )(ω − ω )Κ (ω
) ( − ω )Κ (ω
)
)
2 2 2 2 T2 k +1 (ω) = 2 2 k ω ω2 − ω12 2 − ω2k . 2 i Корни U n (ω) определяются выражением iπ ωi = cos , где i = 1, 2, 3, Κ , n − 1 . n И здесь можно также написать: p 2 k (ω) = 2 2 k −1 ω ω2 − ω12 Κ ω2 − ωi2 Κ ω2 − ω2k −1 ,
(
(
) ( )Κ (ω
) ( )Κ (ω
)
)
2 2 p 2 k +1 (ω) = 2 2 k ω2 − ω12 − ωi2 − ω2k . Корни Tn (ω) – это значения ω, при которых U n (ω) имеет максимум или минимум, и наоборот. При практическом применении полиномов Чебышева часто необходимо решать уравнение n -й степени: Tn (ω) = c , (2.99) где c – численная константа. Если c < 1, уравнение (2.99) имеет n вещественных корней. Положив cos γ = c , в соответствии с выражением (2.94) имеем Tn (ω) = cos(n arccos ω) = cos γ . Пусть ω = cos γ . При этом arccos ω = α . Тогда Tn (ω) = cos(n arccos ω) = cos γ . Отсюда следует, что nα = γ + 2kπ . В результате имеем γ + 2kπ γ получаем формулу, α= . Обозначив cos = ω0 , n n определяющую корни уравнения (2.99), в виде: 2kπ 2kπ ω = ω0 cos − 1 − ω02 sin , (2.100) n n где k = 0, 1, 2, Κ , n − 1 . Пусть c > 1. При этом уравнение (2.99) в соответствии с выражением (2.95) можно написать в виде: Tn (ω) = ch(nArchω) = c .
71
e µ + e −µ Обозначив nArchω = µ , получаем = c . Отсюда находим, 2 что e 2µ − 2ce µ + 1 = 0 . Решение этого уравнения можно представить в виде: eµ = c ± c 2 − 1 . Пусть chν = ω . При этом Archω = ν . Но e ν + e −ν chν = = ω . Отсюда находим, что 2 e ν = ω ± ω2 − 1 . Тогда Archω = ln ω ± ω2 − 1 . Можно показать, что ⎛ e ν + e −ν e ν − e −ν ⎞ 2 ⎟ = ±ν = ± ln e ν = ln ω ± ω − 1 = ln⎜⎜ ± ⎟ 2 2 ⎝ ⎠
(
(
)
(
)
= ± ln ω ± ω2 − 1 . В рассматриваемом случае Archω = ± ln ω + ω2 − 1 . При этом
)
(
(
µ Archω = = ln c ± c 2 − 1 n Отсюда следует, что
(c + (c −
)
2
) − 1)
c −1 c2
1 n 1 n
)
1 n
(
)
= ± ln ω + ω2 − 1 .
= ω + ω2 − 1, =
1 2
.
ω + ω −1 Сложив соответственно, левые и правые части последних двух соотношений, получаем: 1 1 ⎤ 1⎡ 2 2 ω = ⎢ c + c −1 n + c − c −1 n ⎥ . (2.101) 2⎢ ⎥⎦ ⎣ Итак, если c > 1, то уравнение (2.99) имеет только один вещественный положительный корень, определяемый формулой (2.101). Используя уравнение (2.92), нетрудно убедиться, что в рассматриваемом случае справедливы соотношения, аналогичные формуле Родрига для полиномов Лежандра:
(
) (
)
72
1 n ( − 1) n −1 2 d 2 n− 2 (1 − ω ) , Tn (ω) = 1− ω 1 ⋅ 3 ⋅ 5Κ (2n − 1) dωn 1 n(− 1) n −1 d n −1 2 n− 2 (1 − ω ) . U n (ω) = 1 ⋅ 3 ⋅ 5Κ (2n − 1) dωn −1
Если ω > 1 , то во втором уравнении следует 1 − ω2 заменить на ω2 − 1 . Ортогональность полиномов Чебышева Напомним, что: 1 cos nt cos mt = [cos(n + m ) t + cos(n − m ) t ], 2 1 sin nt sin mt = [cos(n − m ) t − cos(n + m ) t ]. 2 При этом интегралы ⎧0 при m ≠ n, π ⎪π при m = n ≠ 0, cos nt cos mtdt = ⎨ ∫ 2 0 ⎪ ⎩π при m = n = 0; ⎧0 при m ≠ n, π ⎪π nt mtdt при m = n ≠ 0, sin sin = ⎨ ∫ 2 0 ⎪ ⎩0 при m = n = 0 . Положив в первом интеграле cos t = ω , получаем: ⎧0 при m ≠ n, 1 ⎪π dω ( ) ( ) T T при m = n ≠ 0, ω ω = ⎨ ∫ n m 2 2 1− ω −1 ⎪ ⎩π при m = n = 0. Та же подстановка во втором интеграле приводит к формуле ⎧0 при m ≠ n, 1 ⎪π dω при m = n ≠ 0, =⎨ ∫ U n (ω)U m (ω) 2 2 1− ω ⎪ −1 ⎩0 при m = n = 0 . Из этих формул следует, что функции Tn (ω) и U n (ω)
ортогональны в интервале (− 1, + 1) с весовой функцией
73
(
)
1 2 −2 1− ω .
Связь полиномов Чебышева с бесселевыми функциями Функции Бесселя J n (t ) связаны с полиномами Чебышева следующими формулами: ⎧ n Tn (ω) ∞ при ω < 1, ⎪2(− i ) 2 ( ) ( ) exp − ω = i t J t dt ⎨ n 1− ω ∫ −∞ ⎪ 0 при ω > 1; ⎩
U (ω) ⎧ dt ⎪2(− i ) n n при ω < 1, n ∫ exp(− iωt ) J n (t ) t = ⎨ −∞ ⎪⎩ 0 при ω > 1. Из этих формул следует, что при анализе спектра частот сигналов J (t ) вида J n (t ) и n удобно вводить полиномы Чебышева и что в этом t спектре отсутствуют круговые частоты больше единицы. Производящая функция полиномов Чебышева Из ряда ∞ ∞ ∞ 1 n n = ∑ t exp(inx ) = ∑ t cos nx + i ∑ t n sin nx , 1 − t exp(ix ) n = 0 n =0 n =1 если положить cos x = ω , получаем ∞
∞ ∞ 1 − tω + it 1 − ω2 n ( ) = t T ω + i t nU n (ω) . ∑ ∑ n 2 1 − 2tω + t n =1 n =0 Отсюда находим две производящие функции: ∞ 1 − tω n = t Tn (ω), ∑ 1 − 2tω + t 2 n =0 ∞ t 1 − ω2 = t nU n (ω). ∑ 2 1 − 2tω + t n =1
( )
Если исходить из ряда exp te cos x = ω , то найдём, что
[ (
)
(
ix
exp(tω) cos t 1 − ω + i sin t 1 − ω 2
2
tn = ∑ exp(inx ) и обозначить n = 0 n! ∞
)]= ∑ [cos(n arccos ω) + ∞
n =0
tn + i sin (n arccos ω)] . n! Отсюда получаем две другие производящие функции:
74
( exp(tω) sin ( t
) t 1 − ω ) = ∑ U (ω). n!
exp(tω) cos t 1 − ω
2
2
tn = ∑ Tn (ω), n = 0 n! ∞
∞
n
n =1
n
Рекуррентные соотношения Если исходить из формул для cos(a + b ) и sin (a + b ) и положить a = mx , b = nx , cos x = ω , то легко находим, что Tm + n (ω) = Tm (ω)Tn (ω) − U m (ω)U n (ω) ,
U m + n (ω) = U m (ω)Tn (ω) + U n (ω)Tm (ω). Точно так же, исходя из формул для cos(a − b ) и sin (a − b ) , получаем Tm − n (ω) = Tn (ω)Tm (ω) + U n (ω)U m (ω) ,
U m − n (ω) = U m (ω)Tn (ω) − U n (ω)Tm (ω). Из полученных соотношений следует, что 1 Tn (ω)Tm (ω) = [Tm + n (ω) + Tm − n (ω)], 2 1 U n (ω)U m (ω) = [Tm − n (ω) − Tm + n (ω)], 2 1 U m (ω)Tn (ω) = [U m + n (ω) + U m − n (ω)]. 2 Положив в первой и последней формуле n = 1, получаем следующие рекуррентные соотношения: Tm +1 (ω) − 2ωTm (ω) + Tm −1 (ω) = 0, U m +1 (ω) − 2ωU m (ω) + U m −1 (ω) = 0. Формула умножения Имеем Tn [Tm (ω)] = Tm [Tn (ω)] = cos(nm arccos ω) = Tmn (ω) .
Если m = 2 , то T2 (ω) = 2ω2 − 1 . Учитывая при этом, что Tn (1) = 1 получаем Tn 2ω2 − 1 = 2Tn2 (ω) − 1 = T2 n (ω) .
(
)
Полагая здесь ω2 = x , имеем Tn (2 x − 1) = T2 n x .
( )
75
2.5.4. Фундаментальное свойство полиномов Чебышева Для этих полиномов существует следующая важная теорема. Теорема pn ( x ) – совокупность многочленов степени n Пусть
с
коэффициентом при x n , равным единице, заданных на отрезке − 1 ≤ x ≤ 1 . Рассмотрим M pn = max p n ( x ) . −1≤ x ≤1
Наименьшее значение M pn составляет 1 2 n −1
Tn ( x ) ,
n ⎛ ⎞ где Tn ( x ) – полином Чебышева: Tn ( x ) = 2 n −1 ⎜ x n − 2 x n − 2 + Κ ⎟ . 1!2 ⎝ ⎠ Доказательство На отрезке − 1 ≤ x ≤ 1 полином Tn ( x ) имеет экстремумы (достигает предельных значений ± 1) в n + 1 точках kπ x k = cos , где k = 0, 1, Κ , n , n при этом Tn ( xk ) = cos kπ = (− 1)k . Все значения Tn ( x ) в экстремальных точках равны по модулю, а знаки последовательно чередуются. Для доказательства теоремы предположим противное. Пусть среди совокупности pn ( x ) есть некий многочлен p *n ( x ) , который
менее уклоняется от нуля, чем Полином p *n −1 ( x ) = p *n ( x ) −
1 2 n −1
Tn ( x ) .
1
Tn ( x ) 2 n −1 имеет степень n − 1 . В соответствии с принятым предположением при 1 n + 1 значениях x k имеем: p *n −1 ( x ) < n −1 Tn ( x ) . Поскольку при этом 2 знаки Tn ( x ) чередуются, то многочлен p *n −1 ( x ) при этих n + 1
значениях x k последовательно меняет знаки (он положителен тогда, когда Tn ( xk ) < 0 , и отрицателен тогда, когда Tn ( xk ) > 0 ). Напомним, что если функция f ( x ) задана и непрерывна в замкнутом интервале [a, b] и на концах его значения f (a ) и f (b ) 76
имеют разные знаки, то, в соответствии с теоремой Коши, между a и b существует (по меньшей мере одно) такое значение c , при котором f ( x ) обращается в нуль: f (c ) = 0 (a < c < b ) . Следовательно, в соответствии с теоремой Коши многочлен p *n −1 ( x ) имеет не менее n
корней, а это для полинома степени n − 1 невозможно. Таким образом, теорема, в соответствии с которой минимальная величина максимального значения абсолютной величины совокупности многочленов степени n с коэффициентом при x n , равным единице, 1 заданных на отрезке − 1 ≤ x ≤ 1 , равна n −1 Tn ( x ) , доказана. 2 Полином Tn ( x ) называется наименее уклоняющимся от нуля. Из теоремы следует, что полином n -й степени ⎛x⎞ Tn ⎜ ⎟ α Qn ( x ) = ⎝ ⎠ , ⎛1⎞ Tn ⎜ ⎟ ⎝α⎠ равный 1 при x = 1 , в промежутке [− α, α ] даёт наименьшее 1 . отклонение от нуля, равное ± ⎛1⎞ Tn ⎜ ⎟ ⎝α⎠ ⎛x⎞ Итак, Tn (ω) ≤ 1 при − 1 ≤ ω ≤ 1. При этом Tn ⎜ ⎟ ≤ 1 при ⎝α⎠ x − 1 ≤ ≤ 1 или при − α ≤ x ≤ α . С другой стороны, при α < 1 величина α 1 ⎛1⎞ > 1 , а, следовательно, Tn ⎜ ⎟ > 1. При этом Qn ( x ) < 1. α ⎝α⎠ Пусть, например, требуется определить промежуток изменения 1 x , в котором Q5 ( x ) ≤ . Это означает, что нужно найти величину α 10 ⎛1⎞ из уравнения T5 ⎜ ⎟ = 10 , т.е. нужно решить уравнение (2.99) при ⎝α⎠ n = 5 и c = 10 > 1. При этом в соответствии с выражением (2.101) имеем 1 1 ⎤ 1 1⎡ = ⎢ 10 + 99 5 + 10 − 99 5 ⎥ = 1,1846 . α 2⎣ ⎦
(
) (
)
77
Отсюда следует, что α = 0,8442 . Кривая функции Q5 ( x ) показана на рис.2.10.
Рис.2.10. График функции Q5 ( x )
78
3. Разложение в ряд произвольных функций В оптике нередко возникает необходимость решения задачи разложения в ряд произвольно взятой функции по заданной системе функций. Подобные задачи возникают, например, при изучении основ геометрической оптики, при изучении дифракционно-аберрационной структуры изображения, образованного оптической системой, при проектировании оптических систем, при обработке поверхностей оптических деталей и оценке их формы и т.д. Напомним, что световое возмущение в изображении точки, образованном оптической системой, определяется преобразованием Фурье зрачковой функции, в которую входит функция волновой аберрации. Для аберрационной функции возможны различные представления. В оптике достаточно широко применяют разложение аберраций в степенной ряд. Если использовать для точек выходного зрачка полярные координаты ρ и ϕ , то для осесимметричной оптической системы разложение функции волновой аберрации в степенной ряд можно представить в виде: W (ρ, ϕ) = ∑∑ Wij ρ i cos j ϕ = W00 + W20 ρ 2 + W11ρ cos ϕ + i
j
+ W40 ρ 4 + W31ρ 3 cos ϕ + W22 ρ 2 cos 2 ϕ + W60ρ 6 + Κ . Здесь Wij – коэффициент волновой аберрации, равный волновой аберрации на краю зрачка при ρ = 1 , ϕ = 0 ; i ≥ j , i − j – чётное число; W00 – постоянная составляющая, которая не влияет на качество изображения и обычно в разложение не включается. Поскольку при круглой форме апертурной диафрагмы световое возмущение в изображении точки определяется интегрированием по единичному кругу, функцию волновой аберрации удобнее представлять в виде разложения в ряд по полной системе полиномов, ортогональных внутри единичного круга. Разложения в ряд произвольных функций по полной ортогональной системе функций имеют замечательное геометрическое истолкование. Относительно рассматриваемых функций будем предполагать, что они кусочно-гладкие, т.е. что они кусочно-непрерывны и имеют кусочно-непрерывные первые производные.
79
3.1. Ортогональные системы функций Известно, что любую совокупность объектов, в которой можно производить линейные действия (сложение этих объектов и умножение их на скаляры, т.е. на числа), можно представить в виде многомерного векторного пространства. Такими объектами могут быть, в частности, некоторые функции f ( x ) , рассматриваемые на некотором интервале оси x . Последний может быть конечным или бесконечным, может совпадать со всей осью, но он должен быть одним и тем же для всех рассматриваемых функций, поскольку эти функции можно как складывать, так и умножать на скаляр. Отсюда следует, что функции f ( x ) можно рассматривать как векторы, при этом совокупность таких функций образует соответствующее векторное пространство. Пусть рассматриваемые функции принимают только вещественные значения. Выберем n значений независимой переменной x = x1 , x2 ,Κ , xn и будем рассматривать значения любой функции f только в этих точках: f ( x1 ), f ( x 2 ), Κ , f ( x n ). Вполне очевидно, что при этом имеется n степеней свободы, т.е. такие функции образуют n -мерное векторное пространство, в котором скалярное произведение можно ввести по формуле n
( f , ϕ) = ∑ f (xk ) ϕ(xk ).
(3.1)
k =1
При "сгущении" узловых значений переменной x , т.е. значений xk , n -мерное пространство переходит в бесконечномерное, а сумма (3.1), определяющая скалярное произведение функций, естественным образом заменяется интегралом. Таким образом, в пространстве функций скалярное произведение можно ввести по формуле b
( f , ϕ) = ∫ f (x ) ϕ(x )dx ,
(3.2)
a
где a и b начало, и конец интервала оси x , на котором рассматриваются функции. Согласно этой формуле и правилам векторной алгебры вводится "длина вектора f ", называемая нормой функции f и обозначаемая f . Норма функции f вычисляется по формуле
f
2
b
= ( f , f ) = ∫ [ f ( x )] 2 dx .
(3.3)
a
80
Пространство функций со скалярным произведением, определяемым формулой (3.2), и с нормой, определяемой формулой (3.3), называется гильбертовым пространством или, полнее, вещественным гильбертовым пространством функций на заданном интервале с концами a, b . В гильбертовом пространстве естественным образом вводится понятие ортогональности. Принимается, что две функции g1 ( x ) и g 2 ( x ) ортогональны друг другу (на интервале с концами a, b ), если их скалярное произведение равно нулю, т.е. если b
∫ g1 (x )g 2 (x )dx = 0 . a
Две ортогональные функции, очевидно, подобны двум перпендикулярным друг другу векторам. Если имеется ортогональная система функций, т.е. совокупность попарно ортогональных функций (3.4) g1 ( x ), g 2 ( x ), Κ , g n ( x ), Κ , то часто возникает задача о разложении любой заданной функции f ( x ) по этим функциям, т.е. о разложении f ( x ) в ряд вида: ∞
f (x ) = ∑ ak g k (x ) .
(3.5)
k =1
В обычном (трёхмерном) пространстве любой вектор можно разложить по трём ортогональным, т.е. перпендикулярным друг другу, векторам. Такая тройка векторов называется полной, при этом, как говорят, её можно принять за базис в пространстве. Если же ортогональных векторов два, то по ним можно разложить только такие векторы, которые лежат в плоскости этих двух векторов. Такая пара векторов в трёхмерном пространстве не является полной. Она становится полной только после присоединения к ней третьего ортогонального вектора. В конечномерном векторном пространстве система ортогональных векторов полная, если число векторов в системе равно размерности пространства. Подобно этому ортогональная система функций (3.4) называется полной, если по ней можно разложить любую функцию f ( x ) в ряд вида (3.5). Любая такая система функций образует базис в пространстве Гильберта. Обычно установить полноту системы ортогональных функций (3.4) бывает далеко не просто. Если всё же полнота системы функций (3.4) так или иначе, установлена, то найти коэффициенты разложения
81
заданной функции f ( x ) в ряд (3.5) очень легко. Для этого обе части равенства (3.6) f ( x ) = a1 g1 ( x ) + a 2 g 2 ( x ) + a3 g 3 ( x ) + Κ надо скалярно умножить на одну из функций g k ( x ) . При этом в правой части равенства (3.6) в соответствии с соотношением ортогональности все члены обратятся в нуль, кроме одного, в котором функция умножается сама на себя. В результате получаем равенство ( f , g k ) = a k (g k , g k ) , отсюда b
ak =
f ( x )g k ( x )dx ( f , g k ) ∫a .
(g k , g k ) = b [g (x )] 2 dx ∫ k
(3.7)
a
Если левую и правую части равенства (3.6) скалярно умножить самих на себя, то получается интересное обобщение теоремы Пифагора на пространство Гильберта. При этом в правой части все попарные скалярные произведения в соответствии с соотношением ортогональности оказываются равными нулю, а остаются только скалярные квадраты всех слагаемых. В результате имеем ( f , f ) = a12 (g1 , g1 ) + a22 (g 2 , g 2 ) + Κ , т.е. 2
2
2
2
f = a12 g1 + a22 g 2 + a32 g 3 + Κ . Таким образом, получаем, что квадрат длины вектора f равен сумме квадратов его проекций на базисные векторы g1 , g 2 , Κ . Полученное выражение называется равенством Парсеваля. Функцию, норма которой равна единице, называют нормированной функцией. Систему нормированных функций ϕ1 ( x ), ϕ 2 ( x ), Κ , в которой каждые две различные функции взаимно ортогональны, называют ортогональной нормированной системой функций, а характеризующие её соотношения (ϕν , ϕµ ) = exp(νµ ) ( eνν = 1, eνµ = 0 при µ ≠ ν ) называют соотношениями ортогональности. Пример ортогональной нормированной системы функций в интервале 0 ≤ x ≤ 2π или вообще в любом интервале длиной 2π представляют функцию: 1 cos x cos 2 x sin x sin 2 x , , , Κ, , , Κ. 2π π π π π
82
Если рассматривается комплексное гильбертово пространство, т.е. если рассматриваемые функции от вещественного аргумента могут принимать комплексные значения, то формула для скалярного произведения будет иметь вид: b
( f , g ) = ∫ f (x )g * (x ) dx , a
где звёздочкой обозначена комплексно сопряжённая величина. Соответственно изменится и формула, определяющая квадрат нормы функции f :
f
2
b
= ( f , f ) = ∫ f (x) f
*
b
( x ) dx = ∫ f ( x )
a
2
dx .
a
Две комплексозначные функции f ( x ) и g ( x ) называются ортогональными, если соблюдаются соотношения: f , g* = f *, g = 0 . Функция f ( x ) называется нормированной, если
(
) (
b
f = ∫ f (x ) f a
)
*
b
(x ) dx = ∫ f (x )
2
dx = 1 .
a
Простейший пример комплексной ортогональной нормированной системы представляют в интервале − π ≤ x ≤ π показательные функции: exp(ix ) exp(2ix ) 1 , Κ, , , 2π 2π 2π что непосредственно следует из соотношений ортогональности: 1 π exp[i(µ − ν )x] dx = eµν ( eνν = 1, eνµ = 0 при µ ≠ ν ). 2π −∫π Функции f1 , Κ , f r называются линейно зависимыми, если они x однородному удовлетворяют тождественно относительно линейному соотношению r
∑ ci f i = 0 i =1
с постоянными коэффициентами ci (i = 1, 2, Κ , r ) , которые не все равны нулю. В противном случае эти n функции называются линейно независимыми. Важно заметить, что функции ортогональной системы всегда линейно независимы. Действительно, из соотношения c1 f1 + c2 f 2 + Κ + cn f n = 0
83
следовало бы, если его умножить на f ν и проинтегрировать, что cν = 0 . 3.2. Ортогонализация функций Пусть задана бесконечная система функций q1 , q 2 , Κ , обладающая тем свойством, что при любом r каждые r произвольно выбранных функций линейно независимы. Из этой системы функций можно при помощи процесса ортогонализации получить ортогональную нормированную систему функций ϕ1 , ϕ 2 , Κ , выбирая ϕ n как соответствующую линейную комбинацию функций q1 , Κ , q n . q Сначала полагаем ϕ1 = 1 . Затем выбираем такое число α , q1 чтобы функция ϕ′2 = αϕ1 + q 2 была ортогональной к ϕ1 , т.е. чтобы соблюдалось равенство: α + (ϕ1 , q 2 ) = 0 Отсюда следует, что α = −(ϕ1 , q 2 ) . Тогда ϕ 2 = q 2 − ϕ1 (ϕ1 , q 2 ) . Функция ϕ′2 в силу линейной независимости q1 и q2 , а, следовательно, и функций ϕ1 и q2 , не может тождественно равняться нулю. Таким образом, ϕ′ ϕ2 = 2 . ϕ′2 Теперь образуем функцию ϕ′3 = βϕ 1 + γϕ 2 + q3 , выбирая два одновременно не равных нулю числа β и γ , удовлетворяющих двум линейным однородным уравнениям: (ϕ′3 , ϕ1 ) = β + (ϕ1 , q3 ) = 0, (ϕ′3 , ϕ 2 ) = γ + (ϕ 2 , q3 ) = 0. Из этих равенств, следует, что β = −(ϕ1 , q3 ) , а γ = − (ϕ 2 , q3 ). При этом ϕ′3 = q3 − ϕ1 (ϕ1 , q3 ) − ϕ 2 (ϕ 2 , q3 ) . В силу линейной независимости функций q1 , q 2 и q 3 , а вместе с тем и ϕ1 , ϕ 2 и q 3 , функция ϕ′3 не может тождественно равняться нулю, а поэтому соотношение ϕ′ ϕ3 = 3 ϕ′3
84
определяет нормированную функцию, ортогональную к ϕ1 и ϕ 2 . Продолжая неограниченно этот процесс, получим искомую ортогональную нормированную систему функций с помощью рекуррентной формулы: n ϕ′ (3.8) ϕ n +1 = n +1 , ϕ′n +1 = qn +1 − ∑ ϕ k (ϕ k , q n +1 ) . ϕ′n +1 k =1 Заметим, что рассмотренная процедура, известна под названием процедуры ортогонализации Грама-Шмидта, одновременно с ортогонализацией осуществляет и нормирование функций. 3.3. Неравенство Бесселя. Условие полноты системы. Приближение в среднем Если дана ортогональная нормированная система функций ϕ1 , ϕ 2 , Κ и любая функция f , то числа cν = ( f , ϕ ν ) , где ν = 1, 2, Κ , называются коэффициентами разложения или компонентами функции f относительно заданной ортогональной системы. Из непосредственно очевидного соотношения 2
n ⎛ ⎞ (3.9) ∫ ⎜ f − ∑ cν ϕν ⎟ dx ≥ 0 ν =1 ⎝ ⎠ путём возведения в квадрат и почленного интегрирования получаем: n
n
ν =1
ν =1
0 ≤ ∫ f 2 dx − 2 ∑ cν ∫ fϕ ν dx + ∑ cν2 = f
2
n
n
ν =1
ν =1
− 2 ∑ cν2 + ∑ cν2 ,
откуда следует, что n
∑ cν2 ≤
f
2
.
(3.10)
ν =1
Так как в правой части выражения (3.10) имеем постоянное, не зависящее от n , число, то ∞
∑≤
f
2
.
(3.11)
ν =1
Это основное неравенство, неравенство Бесселя, справедливо для любой ортогональной нормированной системы. Это неравенство доказывает сходимость ряда с неотрицательными членами, составленного из квадратов коэффициентов разложения, находящегося в левой части соотношения (3.11). Для системы функций, принимающих комплексные значения, справедливо соответствующее соотношение: 85
∞
∑ cν
2
≤ f
ν =1
2
(
)
= f, f* ,
(
)
если под c ν понимать коэффициент разложения: cν = f , ϕ*ν . Оно вытекает, аналогично случаю действительных функций, из неравенства:
∫
2
n
f ( x ) − ∑ cν ϕ ν dx = f ν =1
2
n
− ∑ cν ≥ 0 . 2
ν =1
Интегральное выражение, стоящее в левой части формулы (3.9), получается совершенно естественно, если поставить себе задачу аппроксимировать, используя метод наименьших квадратов, данную функцию
f (x )
с помощью линейной комбинации
n
∑ γ ν ϕν
с
ν =1
постоянными коэффициентами γ ν и фиксированным слагаемых n так, чтобы "средняя квадратичная ошибка"
числом
M = ∫ ( f − ∑ γ ν ϕ ν ) dx 2
была, возможно, меньше. Действительно, учитывая, что ∑ γ ν ( fϕν ) = ∑ γ ν cν , путём простого преобразования интеграла получаем тождество: 2
n n n ⎛ ⎞ 2 2 M = ∫ ⎜ f − ∑ γ ν ϕ ν ⎟ dx = ∫ f dx + ∑ (γ ν − cν ) − ∑ cν2 , ⎝ ⎠ ν =1 ν =1 ν =1 из которого непосредственно следует, что минимум M достигается при γ ν = cν . Если для любой кусочно-непрерывной функции f можно сделать наименьшую среднюю квадратичную ошибку
2
n ⎛ ⎞ f − ⎜ ∑ cν ϕν ⎟ dx ∫ ⎝ ⎠ ν =1 путём соответствующего выбора числа n меньше сколь угодно малого положительного числа, т.е. если каждую функцию можно аппроксимировать с произвольной точностью, определяемой методом наименьших квадратов или, как говорят, в среднем, с помощью
линейной комбинации
n
∑ cν ϕ ν
с достаточно большим числом членов,
ν =1
то систему функций ϕ1 , ϕ 2 , Κ системой функций.
называют полной ортогональной
86
Из неравенства Бесселя следует, что в этом случае коэффициенты f удовлетворяют разложения cν = ( f , ϕ ν ) любой функции соотношению: ∞
∑ cν2 =
2
f ,
(3.12)
ν =1
которое называют условием полноты. Заслуга первой постановки вопроса о полноте данной системы ортогональных функций {ϕ k ( x )} по отношению к классу функций { f (x )} принадлежит В.А.Стеклову, который посвятил этому вопросу ряд исследований. Установив условие полноты (по его терминологии – "уравнение замкнутости"), В.А.Стеклов доказал полноту многих конкретных ортогональных систем. 3.4. Примеры ортогональных систем 3.4.1. Полиномы Лежандра Полная ортогональная система функций получается, если применить процедуру ортогонализации Грамма-Шмидта к степеням x : 1, x, x 2 , Κ в заданной основной области, например, в интервале − 1 ≤ x ≤ 1. При этом получается последовательность ортогональных нормированных полиномов, которые будут однозначно определены, если потребовать ещё, например, чтобы коэффициент при высшей степени x в каждом полиноме был положительным. С точностью до постоянного множителя полученные полиномы совпадают с полиномами, определяемыми формулой Родрига (2.91), т.е. совпадают с полиномами Лежандра. Покажем, что полиномы Лежандра Pn ( x ) обладают свойством ортогональности. Для этого сначала вычислим интеграл 1
I = ∫ Pn ( x )x m dx ( m – целое число < n ). −1
В соответствии с формулой Родрига n 1 dn 2 Pn ( x ) = n x − 1 . 2 n! dx n При этом имеем 1 n n n m d 2 2 n! I = ∫ x x − 1 dx . n dx −1 Интегрируя по частям, получаем
(
)
(
)
87
1
1 n −1 ⎡ m d n −1 2 n⎤ n 2 n m −1 d − 2 n! I = ⎢ x x 1 − m x x − 1 dx . ⎥ ∫ n −1 n −1 dx dx ⎣ ⎦ −1 −1 Внеинтегральный член равен нулю, так как производная (n − 1) -го порядка от x 2 − 1 n содержит множитель x 2 − 1 . Продолжая интегрирование по частям, получаем выражение
(
(
)
(
)
)
1
⎡ d n − m −1 2 n n⎤ d n−m 2 − = − x 1 dx x 1 ⎢ n − m −1 ⎥ = 0. ∫ dx n− m dx ⎣ ⎦ −1 −1 Следовательно, интеграл I = 0 . Отсюда вытекает, что интеграл
(
1
)
(
)
1
∫ ϕ(x ) Pn (x ) dx = 0 ,
−1
если ϕ( x ) – полином степени, меньшей n . Если, в частности, ϕ( x ) – полином Лежандра, то 1
∫ Pm (x ) Pn (x ) dx = 0 (m ≠ n ) ,
(3.13)
−1
что и доказывает ортогональность полиномов Лежандра. При m = n имеем
Pn ( x ) = 2
1
∫ [Pn (x )]
2
dx .
−1
Формула Родрига позволяет написать
(
1
)
(
n
)
n
d n x2 −1 d n x2 −1 Pn ( x ) = 2 n dx . n n 2 ∫ dx dx 2 (n!) −1 Интегрируем n раз по частям. Заметив, что все внеинтегральные члены равны нулю, получаем 2n n d n ( − 1) n 1 2 2 2 Pn ( x ) = 2 n 2 ∫ x − 1 x − 1 dx . dx 2 n 2 (n!) −1 1
2
(
(
)
d 2n 2 Но 2 n x − 1 dx
∫ (x 1
а
2
)
n
− 1 dx = 2
−1
n
)
(
= (2n )! ,
2 ⋅ 4 Κ 2n . 1⋅ 3Κ (2n + 1)
При этом 1
2
∫ [Pn (x )] dx = 2n + 1 . 2
−1
88
)
Следовательно, нормированные полиномы Лежандра имеют вид:
(
)
ν
2ν + 1 2ν + 1 1 d ν x 2 − 1 Pν ( x ) = ϕν ( x ) = (ν = 0, 1, 2, Κ ). 2 2 2 ν ν! dx ν Заметим, что нормированные полиномы Лежандра совпадают с нормированными полиномами, полученными в результате 2 ортогонализации степеней x : 1, x, x , Κ . 3.4.2. Обобщение постановки вопроса, приводящей к полиномам Лежандра Пусть в интервале a ≤ x ≤ b задана неотрицательная функция p ( x ) , которую будем называть весовой функцией или нагрузкой. Требуется исследовать системы функций, получающиеся ортогонализацией функций p ( x ), x p ( x ), x 2 p ( x ), Κ в интервале a ≤ x ≤ b . Эти функции так же линейно независимы между собой, как и степени x : 1, x, x 2 , Κ . Очевидно, что в ортогонализированной p( x ) будут полиномы системе функций множителями при степеней 0, 1, Κ , которые можно однозначно Q0 ( x ), Q1 ( x ), Κ определить при помощи соответствующих добавочных условий. Эти полиномы называются ортогональными полиномами, соответствующими весовой функции p ( x ) . Так, например, при a = −1, b = 1 и p ( x ) = 1 получаются полиномы Лежандра Pn ( x ) ; 1 получаются полиномы Чебышева: при a = −1, b = 1 и p( x ) = 1 − x2 1 Tn ( x ) = n −1 cos(n arccos x ) ; 2 при a = −1, b = 1 и p( x ) = 1 − x 2 получаем полиномы: sin [(n + 1) arccos x ] ; Qn ( x ) = 1− x2 при a = 0 , b = 1 и p ( x ) = x q −1 (1 − x ) p − q (q > 0, p − q > −1) получаем полиномы Якоби или гипергеометрические полиномы; при a = −∞ , b = ∞ и p( x ) = exp − x 2 получаем полиномы Эрмита; при a = 0 , b = ∞ и p ( x ) = exp (− x ) получаются полиномы Лагерра. Заметим, что полиномы Эрмита впервые встречаются у Лапласа, а полиномы Лагерра – у Лагранжа. Гениальный русский математик
( )
89
П.Л.Чебышев, основоположник общей теории ортогональных полиномов, получил для этих функций в 1859 году основные результаты задолго до Эрмита и Лагерра. Поэтому по справедливости эти функции называть полиномами Чебышева-Эрмита и ЧебышеваЛагерра соответственно (см. Я.Л.Геронимус, Теория ортогональных многочленов, М.-Л., 1950). 3.4.3. Гипергеометрический ряд Рассмотрим уравнение (3.14) x ( x − 1) y ′′ + [(1 + α + β ) x − γ ] y ′ + αβ y = 0 , где параметры α, β, γ – постоянные величины. Напомним, что точка, в окрестности которой аналитическая функция разложима в ряд Тейлора, называется обыкновенной точкой. Всякая необыкновенная точка называется особой точкой. Полюса – это изолированные особые точки, вблизи которых f ( x ) остаётся однозначной и которые являются обыкновенными точками 1 . для f (x ) Если дифференциальное уравнение y ′′ + f1 ( x ) y ′ + f 2 ( x ) y = 0 таково, что f1 ( x ) и f 2 ( x ) имеют полюсы при x = x0 , то в соответствии с теоремой Фукса можно найти его решение в виде сходящегося обобщённого степенного ряда ∞
y ( x ) = ( x − x0 )ν ∑ aλ ( x − x0 )λ λ =0
при условии, что произведения ( x − x0 ) f1 (x ) , (x − x0 )2 f 2 ( x ) остаются конечными при x = x0 . Для особых точек x = 0 и x = 1 коэффициентов уравнения (3.14) условия теоремы Фукса выполняются. Построим, например, решение этого уравнения в окрестности особой точки x = 0 . Полагаем y=x
ν
∞
∑ aλ x λ .
(3.15)
λ =0
Приравниваем нулю коэффициенты при x ν + λ : aλ (ν + λ )(ν + λ − 1) − aλ +1 (ν + λ + 1)(ν + λ ) +
(3.16) + aλ (ν + λ )(1 + α + β ) − aλ +1 (ν + λ + 1)γ + aλ αβ = 0 . Члену с наименьшей степенью x , равной ν − 1, соответствует определяющее уравнение 90
a 0 ν (ν − 1) + a 0 νγ = 0 , т.е. ν (ν + γ − 1) = 0 . Его корни: ν = 0 , ν = 1 − γ . Будем предполагать, что γ – не нуль и не целое число, т.е. рассматриваемое дифференциальное уравнение, имеет два линейно независимых решения в виде обобщённого степенного ряда (3.15). Пусть ν = 0 . При этом рекуррентное соотношение (3.16) даёт (α + λ )(β + λ ) a . aλ +1 = (λ + 1)(λ + γ ) λ Отсюда получаем частное решение ⎡ αβ α(α + 1)β(β + 1) 2 y = a0 ⎢1 + x+ x +Κ + ( ) γ ⋅ ⋅ γ γ + 1 2 1 ⎣ α(α + 1)Κ (α + λ − 1)β(β + 1)Κ (β + λ − 1) λ ⎤ + x +Κ ⎥. λ! γ (γ + 1)Κ (γ + λ − 1) ⎦ Этот ряд называется гипергеометрическим рядом Гаусса. Он сходится абсолютно для любых значений α, β, γ при x < 1 , а также
при x = 1 , если γ − α − β > 0 . Классическое обозначение такого ряда y = a 0 F (α , β, γ; x ) , причём F (α , β, γ; x ) называется гипергеометрической функцией Гаусса. Пусть ν = 1 − γ . При этом рекуррентное соотношение (3.16) принимает вид: (α − γ + λ + 1)(β − γ + λ + 1) a . aλ +1 = λ (λ + 1)(λ + 2 − γ ) Оно совпадает с предыдущим выражением, в котором параметры α, β, γ заменены соответственно на α − γ + 1, β − γ + 1, 2 − γ . Отсюда получаем второе, линейно независимое с первым, решение y2 = a0 x1− γ F (α − γ + 1, β − γ + 1, 2 − γ; x ) . При этом общее решение имеет вид y = Ay1 + By 2 . 3.4.4. Полиномы Якоби Полиномы Якоби G n (ρ, q , x ) получаются при ортогонализации
степеней x : 1, x, x 2 , Κ с весовой функцией p ( x ) = x q −1 (1 − x ) p − q , где q > 0 , p − q > −1 в интервале a ≤ x ≤ b при a = 0 , b = 1 .
91
Они могут быть получены также из гипергеометрического ряда αβ α(α + 1)β(β + 1) 2 F (α, β, γ; x ) = x+ x +Κ , (3.17) 1 γ 1⋅ 2 ⋅ γ (γ + 1) если положить β равным целому отрицательному числу − n , α = p + n , а γ = q . При этом полиномы Якоби удовлетворяют гипергеометрическому дифференциальному уравнению x (1 − x ) y ′′ + [γ − (α + β + 1)x ] y ′ − αβ y = 0 , т.е., в частности, полиномы Gn ( x ) удовлетворяют дифференциальному уравнению: x (1 − x ) G n′′ ( x ) + [q − ( p + 1) x ]Gn′ ( x ) + ( p + n ) nG n ( x ) = 0 и представляют собой единственное целое рациональное решение этого уравнения. Первые из них имеют вид: G0 ( p, q, x ) = 1, ⎛ 1⎞ p + 1 G1 ( p, q, x ) = 1 − ⎜⎜ ⎟⎟ x, 1 q ⎝ ⎠ ⎛ 2⎞ p + 2 ⎛ 2 ⎞ ( p + 2 )( p + 3) 2 x , x + ⎜⎜ ⎟⎟ G2 ( p, q, x ) = 1 − ⎜⎜ ⎟⎟ ⎝1⎠ q ⎝ 2 ⎠ q(q + 1) ⎛ 3⎞ p + 3 ⎛ 3 ⎞ ( p + 3)( p + 4 ) 2 G3 ( p, q, x ) = 1 − ⎜⎜ ⎟⎟ x + ⎜⎜ ⎟⎟ x − ( ) 1 2 1 q q q + ⎝ ⎠ ⎝ ⎠ ⎛ 3 ⎞ ( p + 3)( p + 4 )( p + 5) 3 ⎜⎜ ⎟⎟ x . ( )( ) 3 q q 1 q 2 + + ⎝ ⎠ В общем случае они могут быть определены выражением вида: x1− q (1 − x )q − p d n q + n −1 p +n−q ( ) x 1 − x Gn ( p , q , x ) = . (3.18) q(q + 1)Κ (q + n − 1) dx n Из этого выражения следует, что полиномы Якоби можно найти с помощью производящей функции определяемой следующим соотношением:
[
(1 − x )1−q (1 + x )q − p
(t − 1 +
t
1 − 2tx + t 2 p −1
]
) (t + 1 − q −1
1 − 2tx + t
2
⎛ q + n − 1⎞ ⎛ 1− x ⎞ ∑ ⎜⎜ n ⎟⎟ Gn ⎜ p, q, 2 ⎟ t n . ⎠ n = 0⎝ ⎠ ⎝ При p = q = 1 получаем полиномы Лежандра: =
∞
92
1 − 2tx + t 2
)
p −q
=
(3.19)
1− x ⎞ 1− x ⎞ ⎛ ⎛ Pn ( x ) = Gn ⎜1, 1, (3.20) ⎟ = F ⎜ n + 1, − n, 1, ⎟. 2 2 ⎝ ⎝ ⎠ ⎠ 1 с точностью до постоянных множителей При p = 0 , q = 2 получаем полиномы Чебышева: 1 1 1 1− x ⎞ ⎛ 1 1− x ⎞ ⎛ Tn ( x ) = n −1 Gn ⎜ 0, , (3.21) ⎟ = n −1 F ⎜ n, − n, , ⎟. 2 2 2 2 2 ⎝ ⎝ ⎠ 2 ⎠ 3.5. Круговые полиномы Цернике Существует бесчисленное множество полных систем полиномов от двух вещественных переменных x и y , ортогональных внутри единичного круга, т.е. удовлетворяющих условию * (3.22) ∫ ∫ V(α ) (x, y ) V(β ) (x, y ) dxdy = Aαβδαβ . x 2 + y 2 ≤1
Здесь
V(α )
и
V(β ) – два произвольных полинома системы
(звёздочка обозначает комплексное сопряжение); Aαβ – нормировочная постоянная, которая будет определена позднее; δ αβ – символ Кронекера, определяемый условиями ⎧1, если α = β, δ αβ = ⎨ ⎩0, если α ≠ β. Однако, в оптике наиболее широкое применение нашла система круговых полиномов. Впервые круговые полиномы были введены и исследованы Ф.Цернике в его важной работе, посвящённой исследованию методов тёмного поля и фазового контраста. Круговые полиномы Цернике отличаются от полиномов других систем некоторыми простыми свойствами инвариантности, которые проще всего объяснить в рамках теории групп. Однако, с помощью своего рода нормировки можно избежать введения абстрактного формализма теории групп. Рассмотрим сначала такие системы полиномов, которые "инвариантны по форме" относительно поворота координатных осей вокруг начала координат. Такая инвариантность означает, что при любом повороте x′ = x cos ϕ + y sin ϕ ⎫ (3.23) ⎬ y ′ = − x sin ϕ + y cos ϕ ⎭
93
каждый полином V ( x, y ) переходит в полином такого же вида, т.е. при использовании преобразования (3.23) полином V удовлетворяет следующему соотношению: (3.24) V ( x, y ) = Ψ (ϕ )V ( x ′, y ′) , где Ψ (ϕ ) – непрерывная периодическая функция угла поворота ϕ с периодом 2π при Ψ(0) = 1 . Осуществление двух последовательных поворотов на углы ϕ1 и ϕ 2 эквивалентно одному повороту на угол ϕ1 + ϕ 2 . При этом, из соотношения (3.24) следует, что величина Ψ должна удовлетворять функциональному уравнению (3.25) Ψ (ϕ1 )Ψ (ϕ 2 ) = Ψ (ϕ1 + ϕ 2 ) . Общее решение этого уравнения, имеющее период 2π , хорошо известно: (3.26) Ψ (ϕ ) = exp (ilϕ ) . Здесь l – любое целое число, положительное, отрицательное или нуль. Положив x = ρ cos ϕ , y = ρ sin ϕ , x′ = ρ , а y′ = 0 и подставив при этом выражение (3.26) в соотношение (3.24), получаем (3.27) V (ρ cos ϕ, ρ sin ϕ ) = R (ρ ) exp (ilϕ ) , где функция R (ρ ) = V (ρ, 0 ) зависит только от ρ . Разложим теперь exp (ilϕ ) в ряд по степеням cos ϕ и sin ϕ . Предположим, что V – полином степени n от переменных x = ρ cos ϕ , y = ρ sin ϕ . Тогда из выражения (3.27) следует, что функция R (ρ ) представляет собой полином по ρ степени n и не содержит степеней ρ , меньших l . Это означает, что радиальные функции R (ρ ) являются полиномами по ρ , содержащими степени ρ : ρ n , ρ n − 2 , Κ , ρ l . Более того, полином R (ρ ) является, очевидно, чётным или нечётным полиномом в зависимости от чётности числа l . Система круговых полиномов Цернике отличается от всех других подобных систем тем, что она содержит полином для каждой пары возможных значений n (степень) и l (угловая зависимость), т.е. для всех целых значений n и l , для которых n ≥ 0 , l 0, p − q > −1. Эти полиномы определяются как функции, получающиеся при ортогонализации степеней t (3.35) с весовой функцией более общего вида ω(t ) = t q −1 (1 − t ) p − q в области 0 ≤ t ≤ 1 . Свойства ортонормируемости этих полиномов определим выражением
[
]
1
p −q q −1 ∫ t (1 − t ) Gk ( p, q, t )Gk ′ ( p, q, t ) dt = bk ( p, q ) δ kk ′ ,
(3.38)
0
k![(q − 1)!] ( p − q + k )! где bk ( p, q ) = . (3.39) (q − 1 + k )!( p − 1 + k )!( p + 2k ) При таком выборе bk для всех k имеем G k ( p , q , 0 ) = 1 . Сравнивая выражения (3.38) и (3.34), получаем 2
2an± m Qk (t ) = Gk (m + 1, m + 1, t ) . bk (m + 1, m + 1) 96
(3.40)
Подставив выражение (3.40) в выражение (3.33), получаем следующее соотношение между радиальными полиномами и полиномами Якоби:
2an± m (ρ) = ρ m Gk m + 1, m + 1, ρ 2 , (3.41) bk (m + 1, m + 1) n−m . где k = 2 Следуя Цернике, выберем нормировку таким образом, чтобы при всех n и m осталось справедливым соотношение Rn± m (1) = 1. (3.42) Положив в выражении (3.41) ρ = 1 и учитывая соотношение (3.42), получаем bk (m + 1, m + 1) (3.43) = Gk (m + 1, m + 1, 1) . 2a n± m Значение G k (m + 1, m + 1, 1) можно получить с помощью 1− x = ρ2 , производящей функции (3.19) полиномов Якоби. Положив 2 а t = z , получаем
(
Rn± m
[z −1+
(2 zρ )
2 m
(
)
1 − 2 z 1 − 2ρ 2 + z 2
(
2
)
]
1 − 2 z 1 − 2ρ + z
)
m
2
= (3.44)
⎛m + s⎞ ⎟⎟ Gs m + 1, m + 1, ρ 2 z s . = ∑ ⎜⎜ s =0 ⎝ s ⎠ −1 При ρ = 1 левая часть последнего соотношения равна (1 + z ) . Разлагая при этом левую часть выражения (3.44) в степенной ряд и сравнивая полученный результат с правой частью, получаем ( − 1)s . (3.45) Gs (m + 1, m + 1, 1) = m + s ⎛ ⎞ ⎜⎜ ⎟⎟ s ⎝ ⎠ Из выражений (3.45) и (3.43) следует, что ⎛1 ⎞ ( ) + n m ±m ⎜ ⎟ n − m 2a n 2 ⎟. (3.46) = (− 1) 2 ⎜ bk (m + 1, m + 1) ⎜⎜ 1 (n − m )⎟⎟ ⎝2 ⎠ ∞
(
)
97
Используя соотношения (3.36), (3.37) и (3.46), преобразуем выражение (3.41) к виду, определяющему окончательные выражения для радиальных полиномов: Rn± m
1 (ρ) = ⎛n−m⎞ m ⎜ ⎟ !ρ 2 ⎝ ⎠
n−m ⎫ 2
⎧ d ⎨ 2 ⎬ ⎩d ρ ⎭
( )
⎧ 2 ⎨ρ ⎩
m+n 2
( ) (ρ
2
n−m 2
)
−1
⎫ ⎬ ⎭
(3.47)
или Rn± m (ρ ) =
1 (n − m ) 2
(n − s )!
s ∑ (− 1)
ρ n−2s .
(3.48) n m n m + − ⎛ ⎞ ⎛ ⎞ s =0 s!⎜ − s ⎟ !⎜ − s ⎟! ⎝ 2 ⎠⎝ 2 ⎠ В табл.3.1 приведены в явном виде выражения для ряда первых полиномов Цернике. Соотношения (3.46) и (3.39) позволяют найти выражение, определяющее нормировочную постоянную an± m , в виде: 1 an± m = . (3.49) 2n + 2 Для нахождения производящей функции радиальных полиномов n−m в выражения (3.41) и (3.46) напишем s вместо k = и m + 2s 2 вместо n и подставим выражения в выражение (3.44). В результате получаем
[z −1 +
(2 zρ)
(
)
1 − 2 z 1 − 2ρ 2 + z 2
(
2
)
]
2
m
∞
= ∑ z s Rm± m+ 2 s (ρ).
s =0 1 − 2 z 1 − 2ρ + z Вместо комплексных полиномов вещественные полиномы 1 U nm = Vnm + Vn− m = Rnm (ρ) cos mϕ, 2 1 U n− m = Vnm − Vn− m = Rnm (ρ) sin mϕ. 2i m
(
)
(
)
98
V
можно
(3.50) использовать
99
m
8
7
6
5
4
3
2
1
0
1
ρ
n 0 1
ρ2
2ρ2−1
2
ρ3
3ρ3−2ρ
3
ρ4
4ρ4−3ρ2
6ρ4−6ρ2+ +1
4
ρ5
5ρ5−4ρ3
10ρ5−12ρ3+ +3ρ
5
ρ6
6ρ6−5ρ4
15ρ6−20ρ4+ +6ρ2
20ρ6−30ρ4+ +12ρ2−1
6
ρ7
7ρ7−6ρ5
21ρ7−30ρ5+10ρ3
35ρ7−60ρ5+ +30ρ3−4ρ
7
ρ8
8ρ8−7ρ6
28ρ8−42ρ6+15ρ4
56ρ8−105ρ6+ +60ρ4−10ρ2
70ρ8−140ρ6+ +90ρ4−20ρ2+1
8
Таблица 3.1. Радиальные полиномы Rmn(ρ) для m≤8, n≤8
Следуя Нижберу, разложим функцию волновой аберрации W по круговым полиномам Цернике. Так как волновые аберрации симметричны относительно меридиональной плоскости (ϕ = 0 ), то функция аберраций является чётной функцией угла ϕ . Поэтому в разложении функции волновой аберрации по круговым полиномам Цернике применяют только полиномы вида U nm = Rnm (ρ) cos mϕ . Из условия симметрии следует, что разложение функции волновой аберрации в ряд должно содержать лишь комбинации переменных y′2 , ρ2 и y ′ρ cos ϕ , где y ′ – координата некоторой точки P′ изображения в меридиональной плоскости. Это означает, что функцию волновой аберрации с помощью круговых полиномов Цернике можно представить в виде: W ( y ′, ρ, ϕ) = ∑∑∑ alnm y ′ 2l + m Rnm (ρ) cos mϕ , l
n m
где l , n, m – неотрицательные целые числа, при этом n ≥ m ; n − m – целое число; alnm – постоянная величина. Поскольку обычно определяют изображение фиксированной точки предмета ( y ′ = const ) , удобно не выделять явную зависимость W от y ′ и представлять функцию волновой аберрации в виде: ∞ n 1 ∞ 0 (3.51) ( ) W (ρ, ϕ) = A00 + A R ρ + Anm Rnm (ρ ) cos mϕ . ∑ ∑ ∑ n0 n 2 n=2 n =1 m =1 Здесь коэффициенты Anm зависят от величины y ′ , а множитель 1 перед вторым членом введён для упрощения окончательных 2 формул. Некоторые свойства круговых полиномов Цернике определяют их широкое применение в оптике. Пусть, например, требуется оценить качество изображения, образованного оптической системой. Для оценки качества изображения удобно пользоваться распределением так называемой нормированной освещённости в изображении рассматриваемой точки предмета, определяемой отношением E (ξ, η) , I (ξ, η) = E 0 (0, 0 )
100
где E (ξ, η) – распределение освещённости в изображении точки, определяемое в системе координат ξ, η , начало которой совмещено с точкой параксиального изображения; E 0 (0, 0 ) – значение освещённости в изображении точечного предмета, образованном безаберрационной системой, в точке параксиального изображения. Наибольшее значение нормированной освещённости называют определительной яркостью или числом Штреля. Обозначая эту величину через St , имеем E (ξ, η) = I max (ξ, η) . St = max E0 (0, 0 ) Пусть W pn′ – среднее значение n -й степени W p′ , т.е. 1 2π
∫ ∫ W p ′ ρ dρ dϕ n
W pn′
=
0 0 1 2π
∫ ∫ ρ dρ dϕ
1 1 2π n = ∫ ∫ W p ′ ρ dρ dϕ . π0 0
(3.52)
0 0
Если
аберрации достаточно малы (строго говоря, при λ⎞ ⎛ ⎜ W p′ max < ⎟ , то выражение, определяющее число Штреля, 4⎠ ⎝ приобретает вид: 2 ⎛ 2π ⎞ St ≈ 1 − ⎜ ⎟ (∆W p′ ) 2 , (3.53) ⎝ λ ⎠ где (∆W p′ ) = W p2′ − (W p′ ) . Из условия ортогональности полиномов Цернике следует, что 2
2
1 2π
∫ ∫ A00 Anm Rn (ρ) cos mρdρdϕ = 0 , m
0 0
откуда для любых значений величины m имеем 1 2π
∫ ∫ Anm Rn (ρ) cos mρdρdϕ = 0 . m
0 0
Подставив выражение (3.51) в (3.52) и учитывая условие ортогональности полиномов, получаем W = A00 , ⎫ ⎪ ∞ n A2 (3.54) ⎬ 1 2 + ∑ ∑ nm . ⎪ W 2 = A00 2 n =1 m =0 n + 1 ⎭
101
Из первого равенства (3.54) следует, что коэффициент A00 характеризует среднее запаздывание волнового фронта относительно опорной сферы Гаусса. Второе соотношение представляет собой равенство Парсеваля для ортогональной системы функций Rnm (ρ) cos mϕ . Подставив соотношения (3.54) в выражение (3.53), получаем достаточно простое выражение для нормированной интенсивности в параксиальном изображении точки: 2 π 2 ∞ n Anm St ≈ 1 − 2 2 ∑ ∑ . n + 1 λ n =1 m = 0 Обработанная отражающая поверхность крупногабаритных зеркал имеет форму, мало отличающуюся от номинальной, однако, достаточно сложную и, как правило, ассиметричную. Поэтому отклонение формы поверхности (отклонение формы отражённого ею волнового фронта) от номинальной моделируют с помощью системы круговых ортогональных полиномов Цернике разложением вида: ∞ n 1 ∞ 0 W (ρ, ϕ) = A00 + An 0 Rn (ρ ) + ∑ ∑ Rnm (ρ )( Anm cos mϕ + Bnm sin mϕ). ∑ 2 n=2 n =1 m =1
102
4. Приближение функции 4.1. Элементарные функции Прежде, чем говорить о приближении функции, напомним, что переменная y называется функцией переменной величины x (аргумента или независимой переменной), если при заданном значении x величина y принимает одно определённое значение (однозначная функция; например, y = x 2 ) или несколько определённых значений (многозначная функция; например, функция y = ± x – двузначная). Совокупность значений x , для которых функция определена, образует область задания функции. Под элементарными функциями понимают в общем случае функции, представимые в виде аналитического выражения. К элементарным функциям относятся функции, определённые формулами, содержащими конечное число алгебраических или тригонометрических операций, производимых над аргументом, функцией или некоторыми постоянными. Под этими операциями понимаются четыре арифметических действия, возведение в любую степень и извлечение корня, логарифмирование и потенцирование при любом основании, взятие тригонометрической или обратной тригонометрической функции. В основном элементарные функции разделяются на алгебраические и трансцендентные. 4.1.1. Алгебраические функции В алгебраических функциях аргумент x и функция y связаны между собой алгебраическим уравнением вида: k
∑ ai x n y m = 0 , i =1
например, 3 xy 3 − 4 xy + x 3 − 1 = 0 . Если такое уравнение удаётся алгебраически разрешить относительно y , то имеем один из следующих простейших типов алгебраических функций. 1. Целые рациональные функции Функция f ( x ) называется целой рациональной функцией (или полиномом), если она может быть представлена в виде: n
y = f ( x ) = ∑ a n −i x i
(4.1)
i =0
103
для любого x (из области определения); a0 , a1 , Κ , a n действительны (или комплексны); a0 ≠ 0 . Правая часть выражения (4.1) называется полиномом (относительно переменной x ), ai – коэффициентами полинома, число n – степенью целой рациональной функции (или степенью полинома). В частности, y = a (константа), y = ax + b (линейная функция), y = ax 2 + bx + c (квадратичная функция) – целые рациональные функции. Представление функции (4.1) единственно, т.е. функции f (x ) = g (x ) =
n
∑ an − k x k ,
k =0 m
∑ bm −k x k
k =0
равны тогда и только тогда, когда m = n и a k = bk для k = 0, 1, Κ , n . Выражение (4.1) называется канонической формой представления целой рациональной функции. Основная теорема алгебры: любая целая рациональная функция n -й степени с коэффициентами из множества комплексных чисел может быть разложена на n + 1 сомножителей, один из которых нулевой степени, и n линейных множителей: n
∑ an − k x k
k =0
= a0 ( x − α1 )( x − α 2 )Κ ( x − α n ) .
Здесь α i – комплексные числа. Если a0 , a1 , Κ , a n – действительные числа, то для каждого линейного множителя ( x − α k ) с комплексным α k в разложении содержится линейный множитель (x − α~ k ) , где α~ k – число, комплексно сопряжённое к α k . Если область определения коэффициентов сужена до множества действительных чисел, то любая целая рациональная функция n -й степени может быть разложена на линейные и квадратичные множители:
∑ an−k x k = a0 (x − α1 )(x − α 2 )Κ (x − ar )(x 2 + p1 x + q1 )Κ (x 2 + pl x + ql ), n
k =0
2l + r = n , числа где a0 , α1 , α 2 , Κ , α r ; p1 , Κ , pl ; q1 , Κ , ql – действительные. Действительное число x j называется корнем (нулём) целой рациональной функции f ( x ) с действительными коэффициентами, если 104
f (x j ) =
n
∑ an −k x kj
= 0.
k =0
2. Дробно-рациональные функции Функция f ( x ) называется дробно-рациональной функцией, если она представима в виде отношения двух целых рациональных функций P ( x ) и Q ( x ) , т.е. в виде: n
y=
an − k x k ∑ P(x ) k =0 f (x ) = = , Q( x ) m j ∑ bm− j x
(4.2)
j =0
где a0 ≠ 0 , b0 ≠ 0 , n, m ∈ N (или m, n = 0 ) ( N – множество натуральных чисел). При m = 0 это выражение определяет целую рациональную функцию. При m > 0 функция f ( x ) называется дробно-рациональной функцией. Выражение (4.2) называется канонической формой представления дробно-рациональной функции f ( x ) , если функции P ( x ) и Q ( x ) не имеют общих корней. Если P ( x ) и Q ( x ) имеют общие корни x1 , Κ , xk , то P( x ) ( x − x1 )Κ ( x − xk ) P1 ( x ) P1 ( x ) = = f1 ( x ) . = f (x ) = Q( x ) ( x − x1 )Κ ( x − xk ) Q1 ( x ) Q1 ( x ) В частности, в качестве примеров дробно-рациональных функций можно привести следующие: 2 1) f1 ( x ) = (канонический вид); 1− x 2x − 6 2( x − 3) = 2) f 2 ( x ) = 2 ; 3x − 6 x − 9 3( x − 3)( x + 1) x2 − 2x + 3 ( ) (канонический вид). 3) f 3 x = x− 5 P( x ) Дробно-рациональная функция называется f (x ) = Q( x ) правильной дробно-рациональной функцией (примеры 1 и 2), если степень полинома Q ( x ) больше, чем степень полинома P ( x ) ; в противном случае f ( x ) называется неправильной дробнорациональной функцией (пример 3). Разделив числитель на знаменатель, последнюю можно представить в виде суммы,
105
состоящей из целой рациональной функции и правильной дробно3x 2 − 4 x + 3 2 = 3x − 1 + рациональной функции. Например, f ( x ) = . x −1 x −1 Действительное число x j называется нулём рациональной P( x ) , если P (x j ) = 0 , а Q (x j ) ≠ 0 . Таким образом, функции f ( x ) = Q( x ) нахождение корней рациональных функций сводится к нахождению корней целых рациональных функций. Действительное число x p называется полюсом дробноP( x ) , если Q ( x ) = 0 , а P ( x ) ≠ 0 . Если рациональной функции f ( x ) = Q( x ) при этом x p является корнем кратности r полинома Q ( x ) , то x p называется полюсом порядка r . Для интегрирования рациональных функций в общем случае необходимо разложить их на сумму простейших рациональных дробей. Если n
an − k x k ∑ P( x ) k =0 = f (x ) = , Q( x ) m j ∑ bm− j x j =0
где P ( x ) и Q ( x ) не имеют общих корней, n < m и b0 = 1 , то f ( x ) единственным образом представляется в виде:
106
f (x ) =
A1k1 A11 A12 Κ + + + + x − x1 ( x − x1 ) 2 (x − x1 ) k1
+
A2 k2 A21 A22 Κ + + + + x − x 2 ( x − x2 ) 2 ( x − x2 ) k 2
+
Ask s As1 As 2 Κ + + + + ks x − xs ( x − xs ) 2 ( x − xs )
+
B11 + C11 x B12 + C12 x + x 2 + p1 x + q1 x 2 + p1 x + q1
+
B21 + C21 x B22 + C22 x + x 2 + p2 x + q2 x 2 + p2 x + q2
(
)
(
B + C r1 x Br 2 + Cr 2 x + 2 r1 + x + pr x + qr x 2 + pr x + qr
(
где
k , l , r , s – натуральные
+Κ +
2
) )
2
2
(x
+Κ +
+Κ +
числа;
B1l1 + C1l1 x 2
+ p1 x + q1
(x (x
)
l1
+
B2l2 + C2l2 x 2
+ p2 x + q2
Brlr + Crlr x 2
+ pr x + qr
)
)
lr
(4.3)
,
A jk , B jk , C jk , q j , p j – действи-
тельные числа; x j – корни функции Q ( x ) ; кроме того,
( j = 1, 2, Κ , r ).
+
l2
p 2j
−qj < 0 4 называются
Слагаемые в выражении (4.3) элементарными (простейшими дробями). 3. Иррациональные алгебраические функции Простые иррациональные алгебраические функции, называемые также степенными функциями с дробными показателями степени 1 вида , где n – целое число, являются обратными к степенным n функциям с положительным целочисленным показателем степени. Напомним, что две функции y = f ( x ) и y = ϕ( x ) называются взаимно обратными, если для каждой пары значений a, b , удовлетворяющих условию b = f (a ) , удовлетворяется также условие a = ϕ(b ) , а для каждой пары, удовлетворяющей условию a = ϕ(b ) , удовлетворяется условие b = f (a ) . Одна из двух взаимно обратных функций может
107
быть названа прямой (безразлично какая); тогда другая функция называется обратной по отношению к первой. 4.1.2. Трансцендентные функции Неалгебраические функции называются трансцендентными. К наиболее важным трансцендентным функциям относятся тригонометрические функции, показательные функции, гиперболические функции, а также функции, обратные к ним. 4.2. Приближение функции полиномами В результате экспериментальных исследований или при аналитическом решении задач оптотехники нередко получаем функциональную зависимость, сложный вид которой не позволяет осуществить последующие операции численного анализа её. В этом случае может оказаться полезным заменить её в данном промежутке изменения (существования) аргумента другой функцией более простого вида. Если функция f ( x ) , непрерывная и имеющая все производные при x = a , задана аналитически, то во многих случаях вблизи x = a её можно представить в виде степенного ряда: ( x−a x − a) 2 f ( x ) = f (a ) + f ′(a ) + f ′′(a ) + Κ 1! 2! (4.4) ( x − a ) n (n ) Κ+ f (a ) + Rn , n! получившего название ряда Тейлора, где Rn – остаточный член ряда, при этом 1 n +1 Rn < x−a M ; (n + 1)! M – наибольшее значение, которое может принять абсолютное значение n + 1-ой производной функции f ( x ) в промежутке между x и a . При сравнительно больших отклонениях величины x от значения, равного a , формула (4.4) может оказаться недостаточно точной. В этом случае для аппроксимации функции f ( x ) необходимо применение других интерполяционных формул. Заметим, что аппроксимация (от лат. approximo – приближаюсь), смысл которой состоит в замене одной функции другой, аналитически более простой, определяемой из условия, чтобы максимальное
108
отклонение её значений от заменяемой было меньше некоторого предела, называется аппроксимацией в смысле Чебышева. Классический численно-аналитический подход заключается в том, чтобы использовать некоторые узлы функции для получения приближающей формулы и затем выполнить аналитическую операцию над ней. Этот процесс может быть назван "аналитической заменой", так как функция, которую невозможно обработать, заменяется другой функцией, над которой уже можно выполнить аналитическую операцию. Например, в способе Ньютона (в способе касательных) для нахождения нуля функции y = f ( x ) выбирается приближённое значение x1 и вместо кривой используется прямая y − y1 = y1′ ( x − x1 ) , которая касается графика функции в точке ( x1 , y1 ) . Подставляя y = 0 , получаем значение x , являющееся корнем этой y новой функции, т.е. x = x1 − 1 . Это новое значение x используется y1′ как следующее приближённое значение корня. Поскольку с полиномами легко обращаться, большая часть классического численного анализа основывается на приближении полиномами. Однако, для многих целей предполагаются другие классы функций: аппроксимация Фурье, экспоненциальная аппроксимация и другие. Выбрав узлы и класс приближающих функций, необходимо ещё выбрать одну определённую функцию из этого класса с помощью некоторого критерия – некоторой меры приближения или "согласия". Самый широко применяемый критерий требует того, чтобы приближающая функция совпадала с заданными (или выбранными) значениями в узловых точках. Другой более общий критерий требует, чтобы сумма квадратов отклонений между значениями приближаемой и приближающей функций в узловых точках была минимальной. Однако, иногда применяются и другие критерии. Пусть функция y = f ( x ) задана таблицей: y0 = f ( x0 ), y1 = f ( x1 ), Κ , y n = f ( xn ) . Данные таблицы могли быть получены экспериментально или в результате непосредственного вычисления функции y для ряда значений аргумента x . Задача интерполирования обычно определяется в следующей форме: найти полином P ( x ) = Pn ( x ) степени не выше n , значения которого в точках xi (i = 0, 1, 2, Κ , n ) совпадают со значениями данной функции, т.е. P ( xi ) = yi . Геометрически это означает, что 109
нужно найти алгебраическую кривую вида y = a0 x n + a1 x n −1 + Κ + a n , проходящую через заданную (или выбранную) систему точек M i ( xi , yi ) при i = 0, 1, Κ , n , как показано на рис.4.1. y y = P (x ) n
y = f (x )
M1 M0
x0
x1
xn
x
Рис.4.1. Интерполирование заданной функции полиномом
В такой постановке задача интерполирования называется параболической. Полином Pn ( x ) называется интерполяционным полиномом. Точки xi (i = 0, 1, Κ , n ) называются узлами интерполяции. В представленной постановке задача интерполирования всегда имеет единственное решение. Интерполяционные формулы обычно используются при нахождении неизвестных значений функции f ( x ) для промежуточных значений аргумента и выполнения таких операций численного анализа, как интегрирование, дифференцирование, нахождение нулей и т.д. При этом различают интерполирование в узком смысле, когда x принимает значения между x0 и xn , и экстраполирование, когда значения x лежат вне отрезка [x0 , xn ] . При оценке погрешности результатов численного анализа должны учитываться как погрешность метода интерполяции (остаточный член), так и погрешности округления при вычислениях. 4.2.1. Интерполяционные полиномы Полином степени n 2
y = a0 + a1 x + a 2 x + Κ + a n x = n
n
∑ ak x k
k =0
(4.5)
имеет n + 1 коэффициент. Вполне очевидно, что n + 1 условие, наложенное на полином в общем виде, позволит однозначно определить коэффициенты. В частности, можно потребовать, чтобы n + 1 сочетание переменных xi , yi (i = 1, 2, Κ , n + 1) при xi ≠ x j 110
обращало полином в тождество. То, что кривая, определяемая полиномом, проходит через точки ( xi , yi ) , означает выполнение условия:
yi =
n
∑ ak xik (i = 1, 2, Κ , n + 1) .
(4.6)
k =0
Систему линейных уравнений, определяемую выражением (4.6) можно записать в матричной форме: Y = XA , (4.7) ⎛1 x1 x12 Κ x1n ⎞ ⎛ a0 ⎞ ⎛ y1 ⎞ ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ n ⎟ 2 y ⎜ x2 x2 Κ x2 ⎜ a1 ⎟ ⎜ 2 ⎟ 1 k где Y = ⎜ ⎟, A = ⎜ ⎟. ⎟ , X = xi = ⎜ Λ Κ Κ Κ Κ Κ ⎟ ⎜ ⎜Κ ⎟ ⎜ ⎟ 2 n ⎜ y n +1 ⎟ ⎜ an ⎟ ⎜ 1 xn +1 xn +1 Κ xn +1 ⎟ ⎝ ⎠ ⎝ ⎠ ⎠ ⎝ Если матрица X неособенная, т.е. если определитель x1 x12 Κ x1n 1
( )
det X = 1 Κ
x2
x22
Κ
x2n
Κ xn +1
≠ 0,
Κ Κ Κ xn2+1 Κ xnn+1 1 то система уравнений (4.6) имеет единственное решение. В этом случае решение системы уравнений с теоретической точки зрения не представляет труда. Значения неизвестных коэффициентов ak (k = 0, 1, 2, Κ , n ) могут быть получены с помощью известных формул Крамера: det X i ak = ai −1 = , det X где det X i получается из det X заменой элементов её i -го столбца элементами матрицы Y . Заметим, что det X есть функция от x1 , x2 , Κ , xn +1 , т.е. det X = f ( x1 , x2 , Κ , xn +1 ) . Если сначала считать его функцией от xn +1 , то определитель матрицы X будет полиномом степени n и будет обращаться в нуль всякий раз, когда xn +1 = x j при j = 1, 2, Κ , n . Таким образом, f ( x1 , x2 , Κ , xn +1 ) будет содержать множители n
∏ (xn +1 − xi ) = (xn +1 − x1 )(xn +1 − x2 )Κ (xn +1 − xn ) . i =1
111
Рассматривая определитель как функцию от xn , точно так же будем иметь n −1
∏ (xn − xi ) = (xn − x1 )(xn − x2 )Κ (xn − xn −1 ). i =1
В результате получаем, что рассматриваемый определитель содержит все множители n +1
∏ (x j − xi ).
j >i =1
Произведение всех этих множителей определяет полином степени n(n + 1) n + (n − 1) + (n − 2 ) + Κ + 1 = . 2 Но det X также представляет собой полином той же самой степени. Следовательно, det X = C
∏ (x j − xi ), n
(4.8)
j >i +1
где C – некоторая константа. При умножении элементов главной 1 ⋅ x2 ⋅ x32 ⋅ Κ xnn+1 . Раскрывая диагонали определителя имеем произведение (4.8), находим точно такое же выражение. Следовательно, константа C = 1 . Таким образом, определитель матрицы X не равен нулю, если xi ≠ x j при i ≠ j , т.е. матрица X неособенная. А тогда по формулам Крамера или каким-либо другим способом можно найти коэффициенты ak полинома (4.5), определяющего кривую, проходящую через n + 1 точку ( xi , yi ) . Подставив эти значения коэффициентов в уравнение полинома (4.5), полученный результат можно представить в виде: y x x2 Κ xn 1 y1 x1 x12 Κ x1n 1 y2
1
x2
x22
Κ
x2n = 0 .
(4.9)
Λ Λ Λ Λ Λ Λ y n +1 1 xn +1 xn2+1 Κ xnn+1 Вместо требования к кривой, определяемой полиномом, чтобы она проходила через некоторые данные точки, можно потребовать, чтобы она в некоторых заданных точках имела требуемый наклон. Так, уравнение
112
y
1
x
x2
x3
y1 y2 y1′
1 x1 1 x2
x12 x22
x13 x23 = 0
0
2 x1
1
3 x12
y 2′ 0 1 2 x2 3 x22 определяет полином третьей степени по x , описывающий кривую, проходящую через точку ( x1 , y1 ) с наклоном, определяемым первой производной от y , т.е. y1′ , и через точку ( x2 , y 2 ) с наклоном, определяемым значением y 2′ (так как для дифференцирования этого определителя по x достаточно продифференцировать по x поэлементно его верхнюю строку). Если в некоторой точке дано значение y ′ , то вовсе не обязательно должно быть указано значение y ; то же относится и к производным более высокого порядка. Ограничением на выбор условий является требование к минору элемента y , чтобы он обязательно не был равен нулю. В противном случае полинома может не существовать. Это означает, что должно быть дано, по крайней мере, одно значение функции yi , по крайней мере, два условия на yi и yi′ , три на yi , yi′ , yi′′ и т.д. вплоть до производной самого высокого порядка. Итак, решение системы линейных уравнений может быть выполнено по формулам Крамера. Однако, матричные обозначения позволяют записать систему в сжатой форме и, таким образом, делают более удобным обращение с нею. В особенности матричные обозначения облегчают получение некоторых групп неизвестных, причём часто отпадает необходимость вычислять остальные неизвестные. Рассмотрим систему линейных уравнений y1 = α11 x1 + Κ + α1n xn , ⎫ ⎪ (4.10) Λ ⎬ y n = α n1 x1 + Κ + α nn xn . ⎪ ⎭ Эта система уравнений может быть записана в матричной форме: y = αx ,
113
⎛ α11 Κ α1n ⎞ ⎛y ⎞ ⎛ x1 ⎞ ⎟ ⎜ ⎜ 1⎟ ⎜ ⎟ где y = ⎜ Μ⎟ , α = ⎜ Μ Μ ⎟ , x = ⎜ Μ⎟ . ⎜⎜ α ⎜⎜ y ⎟⎟ ⎜⎜ x ⎟⎟ α nn ⎟⎟ n n1 Κ ⎝ ⎠ ⎝ n⎠ ⎠ ⎝ Пусть требуется решить эту систему относительно первых k неизвестных x1 , Κ , xk . Матрицу α можно написать в виде: α1, k +1 Κ α1n ⎞ ⎛ α11 Κ α1k ⎟ ⎜ ⎟ ⎜ Λ Λ ⎜ α Κα α k , k +1 Κ α kn ⎟ ⎛ A A ⎞ 1 k kk 2 ⎟ ⎜ 1 ⎜ ⎟. = α=⎜ α k +1, 1 Κ α k +1, k α k +1, k +1 Κ α k +1, n ⎟ ⎜ A3 A4 ⎟ ⎠ ⎟ ⎝ ⎜ ⎟ ⎜ Λ Λ ⎜⎜ α Κ α α n, k +1 Κ α nn ⎟⎟ n1 nk ⎠ ⎝ Эту матрицу можно рассматривать как составленную из четырёх матриц A1 , A2 , A3 , A4 . Подобным же разложением получаем ⎛ y1 ⎞ ⎛ x1 ⎞ ⎜ ⎜ ⎟ ⎟ ⎜ Μ⎟ ⎜ Μ⎟ ⎜ y ⎟ ⎛Y ⎞ ⎜ x ⎟ ⎛X ⎞ k 1 ⎟ = ⎜ ⎟ и x = ⎜ k ⎟ = ⎜ 1 ⎟. y=⎜ ⎜ y k +1 ⎟ ⎜⎝ Y2 ⎟⎠ ⎜ xk +1 ⎟ ⎜⎝ X 2 ⎟⎠ ⎜ ⎜ ⎟ ⎟ Μ Μ ⎜ ⎜ ⎟ ⎟ ⎜ yn ⎟ ⎜ xn ⎟ ⎝ ⎝ ⎠ ⎠ Следовательно, систему уравнений (4.10) можно представить в виде: ⎛ Y1 ⎞ ⎛ A1 A2 ⎞⎛ X 1 ⎞ ⎟⎜ ⎟ ⎜ ⎟=⎜ ⎜ Y2 ⎟ ⎜ A3 A4 ⎟⎜ X 2 ⎟ . ⎝ ⎠ ⎝ ⎠⎝ ⎠ Матрицы A1 , A2 , A3 , A4 , X 1 , X 2 , Y1 , Y2 можно считать составными элементами и, используя формулы умножения матриц, записать систему уравнений в виде: Y1 = A1 X 1 + A2 X 2 , Y2 = A3 X 1 + A4 X 2 . Исключим из этой системы X 2 . Напомним, что умножение матриц – операция некоммутативная. Поэтому последовательным вычислением получим
114
A4 X 2 = Y2 − A3 X 1 , X 2 = A4−1 (Y2 − A3 X 1 ), Y1 = A1 X 1 + A2 A4−1 (Y2 − A3 X 1 ) и окончательно Y1 − A2 A4−1Y2 = A1 − A2 A4−1 A3 X 1 .
(
)
(4.11)
Здесь A4−1 – матрица, обратная матрице A4 . На практике вычисление матрицы, обратной некоторой матрице α, осуществляется так: ~ , транспонированную по отношению к 1. Выписывают матрицу α α . Транспонированной называют матрицу, которую можно получить из матрицы α , заменив строки столбцами. ~ определителем, 2. Заменяют каждый элемент матрицы α полученным в результате вычёркивания строки и столбца, на которых расположен данный элемент. 3. Этот определитель сопровождают знаком плюс, если сумма индексов элемента чётная, и знаком минус – в противном случае. 4. Делят полученную матрицу на определитель матрицы α , т.е. на det α . Пусть, например, требуется вычислить матрицу, обратную матрице ⎛ 1 2 3⎞ ⎟ ⎜ α = ⎜ 4 5 6⎟ . ⎜ 2 8 9⎟ ⎠ ⎝ ⎛ 1 4 2⎞ ~ = ⎜2 5 8⎟. При этом матрица α ⎜ ⎟ ⎜3 6 9⎟ ⎝ ⎠ Заменим каждый элемент определителем, полученным при вычёркивании соответствующей строки и столбца: ⎛ − 3 − 6 − 3⎞ ⎜ ⎟ ⎜ 24 3 − 6 ⎟ . ⎜ 22 4 − 3 ⎟ ⎝ ⎠ Переменим знаки у элементов с нечётной суммой индексов. Тогда
115
⎛ − 3 + 6 − 3⎞ ⎜ ⎟ ⎜ − 24 + 3 + 6 ⎟ . ⎜ + 22 − 4 − 3 ⎟ ⎝ ⎠ Разделим полученную матрицу на det α = 15 . В результате получаем 2 1⎞ ⎛ 1 − ⎟ ⎜− 5 5⎟ ⎜ 5 8 1 2 ⎟. α −1 = ⎜ − ⎜ 5 5 5 ⎟ ⎜ 22 4 1⎟ − − ⎟ ⎜ 15 5⎠ ⎝ 15 Матрица, обратная матрице произведения двух матриц, равна произведению обратных матриц, взятых в обратном порядке, т.е. (αβ )−1 = β −1α −1 . Полученное выражение (4.11) представляет собой группу из k линейных уравнений вида Y = αX , которая уже не содержит величин xk +1 , Κ , xn . Для примера решим относительно x1 , x2 следующую систему линейных уравнений: x1 + x2 + x3 + x4 + x5 = 3, ⎫ ⎪ x1 + 2 x2 + 2 x3 + 3 x4 + 4 x5 = 9, ⎪⎪ 2 x1 + x2 − 2 x3 + 2 x4 − 3 x5 = −16, ⎬ ⎪ 3 x1 + 2 x2 + 3 x3 + 4 x4 + x5 = 2, ⎪ − x1 + x2 − 4 x3 + 4 x4 + 2 x5 = −12. ⎪⎭ Разложим матрицы x, y, α следующим образом: ⎛ x1 ⎞ ⎛ 3 ⎞ ⎛1 1 1 1 1 ⎞ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ x 3 9 1 2 2 4 ⎜ 2⎟ ⎟ ⎜ ⎟ ⎜ ⎜ ⎟ α = ⎜ 2 1 − 2 2 − 3 ⎟ , x = ⎜ x3 ⎟ , y = ⎜ − 16 ⎟ . ⎟ ⎜ ⎟ ⎜ x ⎜ ⎟ ⎜ 2 ⎟ ⎜3 2 3 4 1 ⎟ 4 ⎜ ⎟ ⎜ − 12 ⎟ ⎜ −1 1 − 4 4 2 ⎟ x ⎠ ⎝ ⎠ ⎝ ⎝ 5⎠ Последовательно вычисляя, имеем ⎛ 4 − 16 14 ⎞ ⎟ 1 ⎛ 22 − 32 − 7 ⎞ 1 ⎜ −1 ⎟⎟ , ⎜⎜ = − A4−1 = − , A A 10 16 7 − − − ⎟ ⎜ 2 4 112 90 80 49 − − 112 ⎜ ⎝ ⎠ 0 − 14 ⎟⎠ ⎝ 28 116
1 ⎛ 3 32 ⎞ 1 ⎛ 4 ⎞ ⎟⎟ , Y1 − A2 A4−1Y2 = + ⎜⎜ ⎜ ⎟, 112 ⎝10 12 ⎠ 112 ⎝⎜ − 4 ⎟⎠ 1 ⎛ 45 49 ⎞ 1 ⎛ 67 63 ⎞ ⎟⎟ , A1 − A2 A4−1 A3 = + ⎟. ⎜⎜ ⎜ A2 A4−1 A3 = + 112 ⎝ 11 119 ⎠ 112 ⎜⎝101 105 ⎟⎠ Получаем систему уравнений, содержащих только x1 и x2 : ⎛ 4 ⎞ ⎛ 67 63 ⎞⎛ x1 ⎞ ⎟⎟⎜⎜ ⎟⎟ , ⎜⎜ ⎟⎟ = ⎜⎜ ⎝ − 4 ⎠ ⎝101 105 ⎠⎝ x2 ⎠ которая может быть записана в виде: 4 = 67 x1 + 63 x2 ,
A2 A4−1Y2 = +
− 4 = 101x1 + 105 x2 . В заключение отметим, что теоретически систему линейных уравнений (4.10) можно полностью решить очень быстро. В матричных обозначениях имеем y = αx , откуда x = α −1 y .
Практически расчёт сводится к вычислению α −1 . Это совпадает с вычислением по формулам Крамера. 4.2.2. Интерполяционный полином Лагранжа Пусть x0 , x1 , Κ , xn – значения аргумента, а y0 , y1 , Κ , y n – соответствующие им значения функции f ( x ) . Пусть P( x ) – искомый полином n -й степени, принимающий те же значения при тех же P(x ) значениях аргумента. Разложим на простые дроби отношение , D( x ) обозначив через D( x ) полином степени n + 1: D( x ) = ( x − x0 )( x − x1 )( x − x2 )Κ ( x − xn ) . В результате получаем P( x ) n Ak , =∑ D( x ) k = 0 x − xk откуда P( x ) =
n
n
k =0
s =0 s≠k
∑ Ak ∏ (x − xs ) .
(4.12)
117
При x = xi полином P( x ) принимает значение yi , при этом все члены суммы равны нулю, кроме произведения, для которого k = i . Отсюда следует, что n
yi = Ai ∏ ( xi − xs ) . s =0 s ≠i
Это соотношение позволяет выражение (4.12), определяющее искомый полином P( x ) , представить в виде: n
∏ ( x − xs )
n
P( x ) = ∑
i =0
s =0 s ≠i yi n
∏ (xi − xs )
.
(4.13)
s =0 s ≠i
Полученное выражение определяет интерполяционную формулу Лагранжа. Важно отметить, что она мало удобна для быстрых вычислений, но имеет большое теоретическое значение. Выражение (4.13) можно представить в развёрнутом виде: (x − x1 )(x − x2 )Κ (x − xn ) + P( x ) = y0 (x0 − x1 )(x0 − x2 )Κ (x0 − xn )
(x − x0 )(x − x2 )Κ (x − xn ) + Κ (x1 − x0 )(x1 − x2 )Κ (x1 − xn ) (x − x0 )(x − x1 )Κ (x − xn −1 ) . + yn (xn − x0 )(xn − x1 )Κ (xn − xn −1 )
+ y1 Κ
(4.14)
Подставив в это выражение известные значения аргумента и функции, в результате достаточно трудоёмких преобразований можем найти выражение приближающего полинома P( x ) . Однако, существует более простой путь отыскания полинома. Для этого полином P( x ) удобно записать в виде: P( x ) = B0 + B1 ( x − x0 ) + B2 ( x − x0 )( x − x1 ) + Κ (4.15) Κ + Bn ( x − x0 )( x − x1 )Κ ( x − an −1 ). Положив в выражениях (4.14) и (4.15) величину x = x0 , получаем P( x0 ) = y0 = B0 . Используя полученный результат, образуем полином P( x ) − y 0 Q( x ) = = B1 + B2 ( x − x1 ) + Κ + Bn ( x − x1 )Κ ( x − xn −1 ) . x − x0
118
Положив x = x1 , получаем y − y0 Q( x ) = 1 = B1 . x1 − x0 Затем рассмотрим полином Q( x ) − Q( x1 ) R( x ) = = B2 + B3 ( x − x2 ) + Κ + Bn ( x − x2 )Κ ( x − xn −1 ) . x − x1 При x = x2 имеем Q( x2 ) − Q( x1 ) R ( x2 ) = = B2 . x2 − x1 Продолжая подобным образом, шаг за шагом, определяем все коэффициенты B , что и даёт искомый полином P( x ) . Практически вычисления выполняют в соответствии с табл.4.1. Таблица 4.1. Вычисление полинома
x x0
P( x ) y0 = B0
x1
y1
x2
y2
x3
y3
…… ………… xn
yn
P( x )
Q( x )
R( x )
S (x )
y1 − y0 = q1 = B1 x1 − x0 y 2 − y0 = q2 x2 − x0 y3 − y 0 = q3 x3 − x0 ……………… y n − y0 = qn xn − x0
q2 − q1 = r2 = B2 x2 − x1 q3 − q1 = r3 x3 − x1 ………………… qn − q1 = rn xn − x1
r3 − r2 = s3 = B3 x3 − x2 ………………… rn − r2 = sn xn − x2
Найдём предел отклонения полинома P( x ) от функции f ( x ) . Для этого рассмотрим функцию: (u − x0 )(u − x1 )Κ (u − xn ) F (u ) = f (u ) − P(u ) − [ f ( x ) − P( x )] ( x − x0 )(x − x1 )Κ (x − xn ) и предположим, что функция f (u ) дифференцируема n + 1 раз. При этом имеем: (n + 1)! . F (n +1) (u ) = f (n +1) (u ) − [ f ( x ) − P( x )] (x − x0 )(x − x1 )Κ (x − xn )
119
Заметим, что P(u ) – полином n -й степени, а поэтому P (n +1) (u ) = 0 . Вполне очевидно, что функция F (u ) обращается в нуль при значениях, u = x0 , x1 , Κ , xn и u = x . Напомним, что если некоторая функция f (µ ) в замкнутом интервале [a, b] непрерывна, имеет непрерывную производную в этом интервале и обращается в нуль на его концах: f (a ) = 0 , f (b ) = 0 (a < b ) , то в соответствии с теоремой Ролля существует, по меньшей мере, одно такое число c между a и b , что f ′(c ) = 0 (a < c < b ) . Повторное применение теоремы Ролля в рассматриваемом случае позволяет показать, что производная F (n +1) (u ) обращается в нуль при некотором значении u = ν , заключённом между самым большим и самым малым из приведённых значений переменной u . Следовательно, f (n +1) (ν ) . f ( x ) − P( x ) = R( x ) = ( x − x0 )( x − x1 )Κ ( x − xn ) (n + 1)!
Если M n +1 – верхний предел f (n +1) ( x ) в интервале, содержащем все точки x0 , x1 , Κ , xn и x = u , то M n +1 . (4.16) (n + 1)! Из этого выражения следует, что абсолютная величина отклонения полинома P( x ) от функции f ( x ) будет тем меньше, чем ближе значение x будет к одной из точек xi , и что интерполяция будет точнее, чем экстраполяция. Для примера предположим, что экспериментально была получена таблица значений, определяющих некую эмпирическую функцию: x0 = 23,30, x1 = 24,25, x2 = 25,25, x3 = 26,10; y0 = 299, y1 = 328, y2 = 373, y3 = 415. Этот пример отображает действительное сопротивление антенны l как функцию отношения её длины l к длине волны λ : x = 100 . λ Найдём полином третьей степени, проходящий через четыре данные точки. 1. Способ Лагранжа состоит в замене букв их значениями в выражении Rn ( x ) < ( x − x0 )( x − x1 )Κ ( x − xn )
120
(x − x1 )(x − x2 )(x − x3 ) + y (x − x0 )(x − x2 )(x − x3 ) + (x0 − x1 )(x0 − x2 )(x0 − x3 ) 1 (x1 − x0 )(x1 − x2 )(x1 − x3 ) (x − x0 )(x − x1 )(x − x3 ) + y ( x − x0 )(x − x1 )(x − x2 ) . + y2 (x2 − x0 )(x2 − x1 )(x2 − x3 ) 3 (x3 − x0 )(x3 − x1 )(x3 − x2 ) P( x ) = y0
После подстановки числовых значений и довольно громоздких преобразований получаем P( x ) = −1,7992 x 3 + 138,40 x 2 − 3497,8 x + 29444 . 2. Решение задачи вторым способом удобно представить в виде таблице (см. табл.4.2). Таблица 4.2. Вычисление полинома
x 23,30 24,25 25,25 26,10
P(x )
y q s r 299 = y0 = B0 328 = y1 30,5263 = q1 = B1 373 = y 2 37,9487 = q2 7,4224 = r2 = B2 415 = y3 41,4286 = q3 5,8931 = r3 − 1,7992 = s3 = B3
Отсюда находим полином P( x ) = 299 + 30,5263( x − 23,30 ) + 7,4224( x − 23,30)( x − 24,25) − − 1,7992( x − 23,30 )( x − 24,25)( x − 25,25) = = −1,7992 x 3 + 138,40 x 2 − 3499 x + 29450, который совпадает с уже найденным полиномом с точностью до погрешностей вычислений. Пусть дана функция f ( x ) , принимающая значения y0 , y1 , Κ , yn при значениях переменной x , образующих арифметическую прогрессию: x0 , x0 + h, x0 + 2h, Κ , x0 + nh . Выражение ∆y0 = y1 − y0 = f ( x0 + h ) − f ( x0 ) называют первой разностью для значения x0 аргумента. Первая разность для значения x0 + ph равна ∆y p = y p +1 − y p = f [x0 + ( p + 1) h] − f ( x0 + ph ) . Вторую разность, третью, …, разность k -го порядка определяют, применяя предыдущее вычисление к первой разности, второй, …, разности порядка k − 1:
121
∆y p +1 − ∆y p = ∆2 y p , ∆2 y p +1 − ∆2 y p = ∆3 y p , ∆k −1 y p +1 − ∆k −1 y p = ∆k y p . Легко заметить, что в частном случае, когда f ( x ) представляет собой полином k -й степени, разности k -го порядка равны между собой, а разности выше k -го порядка равны нулю. Действительно, первые разности для значения переменной x – это полиномы степени k − 1 и т.д. до разностей k -го порядка, которые сводятся к постоянному члену. На практике, если известны данные, определяющие эмпирическую функцию, то разности разных порядков располагаются в виде таблицы, при этом значение x0 не обязательно должно быть начальным. Если известны значения функции при x = x0 − h, x0 − 2h, x0 − 3h, Κ , то, пользуясь отрицательными индексами, можно продолжить таблицу вверх для y и ∆y, ∆2 y,Κ , как показано в табл.4.3. Таблица 4.3. Разности значений эмпирической функции
y
x x0 − 4 h
y−4
x0 − 3h
y −3
∆y
∆2 y
∆2 y − 4 ∆3 y − 4 ∆2 y −3
y−2 ∆y − 2
x0 − h
∆2 y − 2
y −1
∆2 y −1
y0
∆4 y − 2 ∆3 y −1
∆2 y0
y1 ∆y1
x0 + 2 h
∆4 y −3 ∆3 y − 2
∆y0 x0 + h
∆4 y − 4 ∆3 y −3
∆y −1 x0
∆4 y
∆y − 4 ∆y −3
x0 − 2 h
∆3 y
∆4 y −1 ∆3 y0
∆2 y1
y2
122
∆4 y0
Продолжение таблицы 4.3. Разности значений эмпирической функции
x x0 + 3h x0 + 4 h
y
∆y ∆y2
∆2 y
∆3 y
∆4 y
∆3 y1 ∆2 y 2
y3 ∆y3 y4
Найдём полином P( x ) n -го порядка, принимающий точно n + 1 значение y0 , y1 , Κ , y n для значений аргумента, равных x0 , x0 + h, Κ , x0 + nh . Напишем его в нескольких видах, которые дадут нам основные классические интерполяционные полиномы. 4.2.3. Интерполяционный полином Ньютона Напишем полином P( x ) в виде: P( x ) = A0 + A1 ( x − x0 ) + A2 ( x − x0 )( x − x0 − h ) + Κ
Κ + An ( x − x0 )( x − x0 − h )Κ [x − x0 − (n − 1)h]. Пусть величина x последовательно принимает x0 , x0 + h, Κ , x0 + nh . Тогда y0 = A0 , y1 = A0 + hA1 ,
(4.17) значения
y 2 = A0 + 2hA1 + 2!h 2 A2 ,
y n −1 = A0 + (n − 1) hA1 + Κ + (n + 1)!h n −1 An −1 , y n = A0 + nhA1 + Κ + n ! h n An . Отсюда A0 = y0 , y − y0 ∆y0 , A1 = 1 = h h y 2 − y1 − ( y1 − y0 ) ∆2 y0 , A2 = = 2!h 2 2!h 2 ∆k y0 , Ak = k! h k ∆n y0 . An = n n!h x − x0 Обозначим = u . При этом полином (4.17) принимает вид: h 123
1 1 u (u − 1)∆2 y0 + Κ + u (u − 1)Κ n! 2! Κ [u − (n − 1)]∆n y0 . Напишем полином P(x ) в виде: P( x ) = B0 + B1 ( x − x0 ) + B2 ( x − x0 )( x − x0 + h ) + Κ y = y0 + u∆y0 +
(4.18)
(4.19) Κ + Bn ( x − x0 )( x − x0 + h )Κ [x − x0 + (n − 1)h]. Определим коэффициенты B из этого условия, что полином P( x ) принимает значения y0 , y −1 , Κ , y − n для значений аргумента x0 , x0 − h, Κ , x0 − nh . В результате вычислений, подобных предыдущим, последовательно получаем y0 = B0 , y −1 = B0 − hB1 , y − 2 = B0 − 2hB1 + 2! h 2 B2 ,
y − n = B0 − nhB1 + Κ + (− 1)n n!h n Bn .
Отсюда B0 = y 0 , y − y −1 ∆y −1 = B1 = 0 , h h ∆k y − k Bk = , k! h k ∆n y − n . Bn = n!h n x − x0 = u . При этом полином (4.19) принимает вид: h 1 1 y = y0 + u∆y−1 + u (u + 1)∆2 y− 2 + Κ + u (u + 1)Κ 2! n! (4.20) Κ (u + n − 1)∆n y− n .
Обозначим
Заметим, что разности y0 , ∆y0 , ∆2 y0 , Κ , ∆n y0 расположены в табл.4.3 разностей на нисходящей косой строке, а разности y0 , ∆y −1 , ∆2 y − 2 , Κ , ∆n y − n – на восходящей косой строке. Поэтому полином (4.18) называется интерполяционным полиномом Ньютона по нисходящим разностям, а полином (4.20) – интерполяционным 124
полиномом Ньютона по восходящим разностям. Рассмотрим пример применения обоих интерполяционных полиномов Ньютона. Обратимся к табл.4.4, где представлены значения y = 10 4 J1 ( x ) для 1 ≤ x ≤ 2 при h = 0,1 . Таблица 4.4. Разности значений интерполяционного полинома Ньютона
x
y
1,0
4401
∆y
∆2 y
∆3 y
∆4 y
308 1,1
4709
–34 274
1,2
–3
4983
–37 237
1,3
–1
5220
–38 199
1,4
5419
–39
5579
–40
5699
–41
5778
–42
3 2
5815
–40 –3
1,9
0 –1
37 1,8
0 –1
79 1,7
0 –1
120 1,6
0 –1
160 1,5
2
–4 –2
5812
–42 –45
2,0
5767
Вычислим, например J1 (1,049) , заменив J1 ( x ) полиномом третьей степени, проходящим через четыре последовательно расположенные точки. При этом, естественно, будем считать, что приведённые в таблице данные являются единственными данными, находящимися в нашем распоряжении. Так как аргумент вычисляемой функции близок к началу таблицы, то выгодно взять интерполяционный полином Ньютона по нисходящим разностям (4.18) при x0 = 1 . При этом y0 = 4401, ∆y0 = 308, ∆2 y0 = −34, ∆3 y0 = −3 . Вводимые значения функции равны y0 , y1 , y2 , y3 с преобладающим влиянием
125
y0 . Это логично, поскольку x = 1,049 находится наиболее близко к x0 = 1 . И было бы очень невыгодно взять полином (4.20) при x0 = 1,3 .
Действительно, в этом случае
y0 = 5220, ∆y −1 = 237, ∆2 y − 2 = −37 ,
∆3 y −3 = −3 при преобладающем влиянии y0 , которое соответствует аргументу, равному 1,3, находящемуся далеко от 1,049. В рассматриваемом случае при x0 = 1 полином Ньютона (4.18) принимает вид: 1 y = 4401 + 308u − 17u (u − 1) − u (u − 1)(u − 2 ) . 2 1,049 − 1 При u = = 0,49 получаем J 1 (1,049 ) = 0,4556 . Посмотрев 0,1 более подробные таблицы, находим значение J 1 (1,049 ) = 0,45558 . Следовательно, несмотря на то, что погрешность задания чисел y в
исходной таблице может достигать 5 ⋅ 10 −5 , применение формулы (4.18) позволило получить прекрасное приближение. Если же пользоваться формулой полинома Ньютона по восходящим разностям (4.20) при x0 = 1,3 , то 1 y = 5220 + 237u − 18,5u (u + 1) − u (u + 1)(u + 2 ) . 2 1,049 − 1,3 При u= = −2,51 получаем J 1 (1,049 ) = 0,4557 , т.е. 0,1 полученное приближение хуже приближения при применении формулы (4.18). Вычислим теперь J1 (1,941) . Так как аргумент находится в конце таблицы, следует пользоваться полиномом Ньютона по восходящим разностям в форме (4.20). При x0 = 2 формула (4.20) принимает вид: 1 y = 5767 − 45u − 21u (u + 1) − u (u + 1)(u + 2 ) . 3 1,941 − 2 При u = = −0,59 получаем J1 (1,941) = 0,5799 . Более 0,1 подробная таблица даёт J1 (1,941) = 0,57982 . Применение в рассматриваемом случае формулы (4.18) полинома Ньютона не даёт столь хорошего приближения, в чём легко убедиться.
126
4.2.4. Интерполяционный полином Стирлинга Представим полином P( x ) в виде: P( x ) = C0 + C1 ( x − x0 ) + C 2 ( x − x0 + h )( x − x0 ) +
+ C3 ( x − x0 + h )( x − x0 )( x − x0 − h ) + Κ + C 2 k ( x − x0 + kh )Κ
(4.21)
Κ [x − x0 − (k − 1)h] + C 2 k +1 ( x − x0 + kh )Κ ( x − x0 − kh ) + Κ . Придавая x последовательно значения x0 , x0 − h, x0 + h, x0 − 2h , x0 + 2h, Κ , получаем y0 = C0 , y −1 = C0 − hC1 , y1 = C0 + hC1 + 2h 2 C 2 , y − 2 = C0 − 2hC1 + 2h 2 C 2 − 6h 3C3 , y 2 = C0 + 2hC1 + 6h 2 C 2 + 6h 3C3 + 24h 4 C 4 . Отсюда аналогично предыдущим вычислениям находим C0 = y 0 , y − y −1 ∆y −1 C1 = 0 , = h h y1 − 2 y0 + y −1 y1 − y0 − ( y0 − y −1 ) ∆2 y −1 C2 = , = = 2h 2 2!h 2 2!h 2 y − 3 y0 + 3 y −1 − y − 2 C3 = 1 = 6h 3 y1 − y0 − ( y0 − y −1 ) − ( y0 − y −1 ) + y −1 − y − 2 ∆3 y − 2 , = = 3!h 3 3!h 3 y − 4 y1 + 6 y0 − 4 y −1 + y − 2 y 2 − y1 − ( y1 − y0 ) − C4 = 2 = − 24h 4 4!h 4 − [ y1 − y0 − ( y0 − y −1 )] + y0 − y1 − ( y −1 − y − 2 ) ∆4 y − 2 , − = 4!h 4 4!h 4 1 ∆2 k y − k C2 k = , (2k )! h 2 k ∆2 k +1 y − k −1 1 C2 k +1 = . (2k + 1)! h 2 k +1 x − x0 Обозначим = u . При этом полином (4.21) принимает вид: h
127
(
)
1 1 u (u + 1)∆2 y −1 + u u 2 − 1 ∆3 y − 2 + 2! 3! 1 1 + u u 2 − 1 (u + 2 )∆4 y − 2 + u u 2 − 1 u 2 − 4 ∆5 y −3 + Κ . 4! 5! Представим интерполяционный полином P( x ) в виде: P( x ) = D0 + D1 ( x − x0 ) + D2 ( x − x0 )( x − x0 − h ) + y = y 0 + u∆y −1 +
(
)
(
)(
)
+ D3 ( x − x0 + h )( x − x0 )( x − x0 − h ) + Κ +
(4.22)
(4.23)
+ D2 k [x − x0 + (k − 1)h]Κ ( x − x0 − kh ) +
+ D2 k +1 ( x − x0 + kh )Κ ( x − x0 − kh ) + Κ . В этом случае коэффициенты полинома равны D0 = y 0 ,
D2 k
1 ∆2 k y − k = , (2k )! h 2k ∆2 k +1 y − k 1 = . (2k + 1)! h 2k +1
D2 k +1
При той же замене переменных полином (4.23) принимает вид: 1 1 y = y0 + u∆y0 + u (u − 1)∆2 y −1 + u u 2 − 1 ∆3 y −1 + 3! 2! (4.24) 1 1 2 4 2 2 5 + u u − 1 (u − 2 )∆ y − 2 + u u − 1 u − 4 ∆ y − 2 + Κ . 4! 5! Полиномы в форме (4.22) и (4.24) называют интерполяционными полиномами Гаусса для интерполирования назад и вперёд соответственно. Сложив равенства (4.22) и (4.24) и разделив сумму на два, получаем ∆y + ∆y −1 1 2 2 y = y0 + u 0 + u ∆ y −1 + 2 2! ∆3 y −1 + ∆3 y − 2 1 2 2 1 2 (4.25) + u u −1 + u u − 1 ∆4 y − 2 + 3! 2 4! ∆5 y − 2 + ∆5 y −3 1 2 2 + u u −1 u − 4 +Κ . 5! 2
(
)
(
)
(
)(
(
(
)
128
(
)
)(
)
)
Этот полином называется интерполяционным полиномом Стирлинга. Применение его даёт особую точность для значений x , близких к x0 . Замечание. Вычисление полинома Стирлинга следует оборвать на члене, содержащем разность ∆2 k y − k , а не на предыдущем, 1 2 k −1 ∆ y − k +1 + ∆2 k −1 y − k , содержащем полусумму разностей 2 так как знание двух последних разностей даёт разность ∆2 k y − k без вычисления функции в новых точках. Следовательно, полином Стирлинга – полином чётной степени (2k ) и, чтобы построить его, требуется знать функцию в нечётном количестве точек (2k + 1) .
(
)
4.2.5. Интерполяционный полином Бесселя Заменим в формуле (4.22) величины x0 + h и y1 на x0 и y0 соответственно, что эквивалентно замене u на u − 1 , а y0 , y −1 , y − 2 , Κ на y1 , y0 , y −1 , Κ . В результате получаем 1 1 y = y1 + (u − 1)∆y0 + (u − 1) u∆2 y 0 + (u − 1) u (u − 2)∆3 y −1 + 2! 3! (4.26) 1 2 + u − 1 u (u − 2 )∆4 y −1 + Κ . 4! Сложив равенства (4.26) и (4.24) и разделив сумму на два, получаем y0 + y1 ⎛ ∆2 y0 + ∆2 y −1 1⎞ 1 y= + ⎜ u − ⎟∆y0 + u (u − 1) + 2 2 2 ! 2 ⎝ ⎠ 1 1⎞ ⎛ + u (u − 1)⎜ u − ⎟∆3 y −1 + (4.27) 3! 2 ⎝ ⎠
(
)
(
)
∆4 y −1 + ∆4 y − 2 1 2 + u u − 1 (u − 2 ) +Κ . 4! 2 Полученный полином называется интерполяционным полиномом Бесселя. Применение его даёт особую точность для значений x , 1 близких к середине интервала, т.е. к x0 + h . 2 Замечание. Легко заметить, что так же, как и для полинома Стирлинга, следует прервать вычисление полинома Бесселя на члене, содержащем разность ∆2 k +1 y − k . Степень полинома 129
Бесселя должна быть нечётной (2k + 1) , а для построения его требуется знать функцию в чётном числе точек (2k + 2 ) . Обратимся вновь к таблице, содержащей значения 10 4 J1 ( x ) при 1 ≤ x ≤ 2 (табл.4.4). Пользуясь полиномом Стирлинга, ограниченным членом второй степени, т.е. требующим знания трёх точек, вычислим J 1 (1,511) . При x0 = 1,5 имеем: y0 = 5579, ∆y0 = 120, ∆y −1 = 160 , ∆2 y −1 = −40 . При этом полином Стирлинга имеет вид: y = 5579 + 140u − 20u 2 , 1,511 − 1,5 = 0,11 получаем J 1 (1,511) = 0,5594 . Более откуда при u = 0,1 точные таблицы дают J 1 (1,511) = 0,55945Κ . J 1 (1,541) , Вычислим пользуясь полиномом Бесселя, ограниченным членом третьей степени, т.е. требующим знания четырёх точек. В этом случае имеем x0 = 1,5, y0 = 5579, y1 = 5699,
∆y0 = 120, ∆2 y0 = −41, ∆2 y −1 = −40, ∆3 y −1 = −1. При этом получаем полином вида: 81 1 y = 5639 + 120(u − 0,5) − u (u − 1) − u (u − 1)(u − 0,5) , 4 6 откуда при u = 0,41 получаем J 1 (1,541) = 0,5633 . Более точные таблицы дают J1 (1,541) = 0,56333Κ . 4.2.6. Условия применения интерполяционных полиномов Ньютона, Стирлинга, Бесселя Значение x0 должно быть выбрано в непосредственной близости к значению, для которого требуется вычислить приближение функции. Можно пользоваться любой из интерполяционных формул (4.18), (4.20), (4.25) и (4.27) при соблюдении единственного условия: таблица должна содержать разности, необходимые для вычисления. Поэтому при не очень подробных таблицах формулы Ньютона должны применяться для значений аргумента, лежащих у краёв таблицы, а формулы Стирлинга и Бесселя – для значений аргумента, лежащих в середине таблицы. Достаточно наглядное представление о положении в таблицах разностей, необходимых для вычислений, в зависимости от применяемых формул даёт схема, представленная в виде табл.4.5.
130
Таблица 4.5. Условия применения интерполяционных полиномов Ньютона, Стирлинга, Бесселя
x0 X
y
∆y ∆2 y ∆3 y ∆4 y Применяемые формулы
X X
x0 ⎯ ⎯→
X
H
X H
X
X
X H
Х X
X
Н Х
Х
h X
X
X
Х
C
С
X
X
Б
Б
Б
Х
Х
Х
Х Х
Х Х
X
Б
Х
Бесселя ←⎯ ⎯ ⎯ ⎯⎯
Х
Х X
Б Б
Х X
Х Х
Б X
Х
Х
Б
Стирлинга
←⎯ ⎯ ⎯ ⎯ ⎯⎯
Х
Х x0 ⎯ ⎯→
С
Х
X
разностям
С
Х X
Ньютона ←⎯ ⎯ ⎯⎯⎯ по нисходящим
Х С
С X
Н Х
С x0 ⎯ ⎯→
Х
Н Н
Н
Ньютона ←⎯ ⎯ ⎯⎯⎯ по восходящим разностям
Н x0 ⎯ ⎯→
Х
Н
Если можно вычислить последовательные производные функции f ( x ) , то применение формул, дающих верхний предел погрешности приближения, допущенной при использовании полинома Лагранжа, позволяет легко получить следующие результаты: 1. Формула Ньютона по нисходящим разностям Если M n +1 – верхний предел f (n +1) ( x ) в интервале x0 , x0 + nh , то при n + 1 точке имеем 131
h n +1 M . Rn < u (u − 1)Κ (u − n ) (n + 1)! n +1 2. Формула Ньютона по восходящим разностям Если M n +1 – тот же предел, но в интервале x0 , x0 − nh , то при n + 1 точке имеем h n +1 Rn < u (u + 1)Κ (u + n ) M . (n + 1)! n +1 3. Формула Стирлинга Если M 2 n +1 – верхний предел f (2 n +1) ( x ) в интервале x0 − nh, x0 + (n + 1)h , то при 2n + 1 точке имеем
h 2 n +1 R2 n +1 < u u − 1 Κ u − n M . (2n + 1)! 2n +1 Формула Стирлинга применяется для интерполирования в середине таблицы при значениях u , близких к нулю. Практически её применяют при u ≤ 0,25 . 4. Формула Бесселя в интервале Если M 2 n + 2 – верхний предел f (2 n + 2 ) ( x )
(
2
) (
2
2
)
x0 − nh, x0 + (n + 1)h , то при 2n + 2 точках имеем
h 2n+ 2 R2 n + 2 < u u − 1 Κ u − n (u − n − 1) M . (2n + 2)! 2 n + 2 Формула Бесселя применяется для интерполирования в середине таблице при значениях u , близких к 0,5 . Практически она применяется при 0,25 ≤ u ≤ 0,75 . Наиболее простой вид формула имеет при u = 0,5, так как при этом все члены, содержащие разности нечётного порядка, пропадают (обращаются в нуль). В этом случае формула Бесселя называется формулой интерполирования на середину. Её применяют для уплотнения таблиц, т.е. для составления таблиц с более мелким шагом. Для остаточного члена при u = 0,5 имеем h 2 n + 2 [1 ⋅ 3 ⋅ 5Κ (2n + 1)] 2 R2 n + 2 < M 2n+ 2 . (2n + 2)! 2 2n+ 2
(
2
) (
2
2
)
132
4.2.7. Приближение функции линейной комбинацией функций, определённой с помощью критерия наименьших квадратов а) Эмпирическая функция f ( x ) – заданная функция, принимающая при Пусть x = x0 , x1 , Κ , xn значения y = y0 , y1 , Κ , y n . Пусть ϕ 0 , ϕ1 , Κ , ϕ p – выбранные заранее функции, число которых p < n . Требуется определить коэффициенты A в выражении Φ( x ) = A0 ϕ 0 ( x ) + A1ϕ1 ( x ) + Κ + Ap ϕ p ( x ) таким образом, чтобы сумма E квадратов отклонений функции Φ( x ) от f ( x ) в рассматриваемых точках была наименьшей. Итак, n
E = ∑ ε i2 при ε i = yi − A0 ϕ0 ( xi ) − A1ϕ1 ( xi ) − Κ − Ap ϕ p ( xi ) . i =0
Требуемый минимум получим, если положим n n n 1 ∂E = A0 ∑ ϕ k ( xi ) ϕ 0 ( xi ) + Κ + A p ∑ ϕ k ( xi ) ϕ p ( xi ) − ∑ ϕ k ( xi )yi = 0 2 ∂Ak i =0 i =0 i =0 (k = 0, 1, 2, Κ , p ) , откуда находим коэффициенты Ak . При этом средняя величина погрешности приближения будет равна 1 n E M = = yi − A0 ϕ 0 ( xi ) − A1ϕ1 ( xi ) − Κ − A p ϕ p ( xi ) 2 . ∑ n + 1 n + 1 i =0 б) Функция определена аналитически При тех же обозначениях требуется определить коэффициенты A таким образом, чтобы интеграл квадрата погрешности приближения при замене f ( x ) на Φ( x ) в интервале a, b был наименьшим. Этот интеграл равен
[
]
b
E = ∫ ε 2 ( x ) dx при ε( x ) = f ( x ) − A0 ϕ 0 ( x ) − Κ − A p ϕ p ( x ) . a
Коэффициенты Ak определяются путём решения системы линейных уравнений, полученных из условия минимума: b b 1 ∂E = A0 ∫ ϕ k ( x )ϕ0 ( x )dx + Κ + Ap ∫ ϕ k ( x )ϕ p ( x )dx − 2 ∂Ak a a b
− ∫ ϕ k ( x ) f ( x )dx = 0. a
133
4.2.8. Приближение функции полиномом, определённым с помощью критерия наименьших квадратов а) Эмпирическая функция В рассматриваемом случае выбранные функции имеют вид: ϕ 0 = x p , ϕ1 = x p −1 , Κ , ϕ p −1 = x, ϕ p = 1 , а приближающая функция определяется полиномом A0 x p + A1 x p −1 + Κ + A p −1 x + A p . Следовательно, вместо того, чтобы заменить эмпирическую функцию, заданную n + 1 точкой, полиномом n -й степени, проходящим как раз через эти точки, можно выбрать полином степени p < n . Такой полином, естественно, не сможет содержать эти n + 1 точки и в действительности, как правило, не пройдёт ни через одну из них, но будет определён из условия пройти возможно ближе к ним. Математически это условие определит требование сделать наименьшей сумму квадратов погрешностей приближения. В точках x0 , y0 ; x1 , y1 ; Κ ; xn , y n погрешности приближения равны
( ) = y − (A x + Κ + A ), = y − (A x + Κ + A ).
ε 0 = y0 − A0 x0p + Κ + A p , ε1 εn
p 1 1
1
p n n
n
Сумма
p
p
квадратов
погрешностей
равна
n
E = ∑ ε i2 .
Условия
i =0
минимума E определяются уравнениями: ∂E ∂E ∂E = 0, = 0, Κ , = 0. ∂A0 ∂A1 ∂Ap Отсюда получаем следующую систему линейных уравнений для определения коэффициентов A0 , A1 , Κ , A p : n
n
n
n
i =0
i =0
i =0
i =0
A0 ∑ xi2 p + A1 ∑ xi2 p −1 + Κ + A p ∑ xip = ∑ yi xip , n
A0 ∑
i =0
xi2 p −1
n
+ A1 ∑
i =0
xi2 p − 2
n
+ Κ + Ap ∑
i =0
xip −1
n
n
n
n
i =0
i =0
i =0
i =0
= ∑ yi xip −1 ,
A0 ∑ xip + A1 ∑ xip −1 + Κ + A p ∑ ⋅1 = ∑ yi .
134
n
i =0
Если значения аргумента образуют арифметическую прогрессию (являются равноотстоящими) или, в более общем случае, симметрично расположены относительно центра тяжести, то полезно принять этот центр тяжести за новое начало координат. При этом n
∑ xi2k +1
суммы
обратятся в нуль. Средняя величина квадрата
i =0
погрешностей приближения M равна 2 1 n E M = = yi − A0 xip + A1 xip −1 + Κ + A p . ∑ n + 1 n + 1 i =0 Для примера обратимся вновь к табл.4.4, содержащей значения 10 4 J1 ( x ) при 1 ≤ x ≤ 2 . В качестве эмпирической примем функцию, определённую четырьмя первыми строками таблицы. Представим эту функцию полиномом второй степени. Поместим начало координат в точку x = 1,15 . При этом выбранная в качестве эмпирической функция определится следующими данными: x1 = −0,15, x2 = −0,05, x3 = 0,05, x4 = 0,15; y1 = 4401, y 2 = 4709, y3 = 4983, y 4 = 5220. При этих данных коэффициенты A0 , A1 , A2 определяются следующей системой линейных уравнений:
[ (
4
A0 ∑
i =1
)]
4
+ A2 ∑
xi4
i =1
4
4
= ∑ xi2 yi ,
xi2
i =1 4
A1 ∑ xi2 4
A0 ∑ xi4 i =1
= ∑ xi yi ,
i =1
i =1 4
4
+ A2 ∑ 1
= ∑ yi
i =1
или
i =1
+ 0,05 A2
0,001025 A0 0,05 A1
= 240,70, = 136,55,
0,05 A0 + 4 A2 = 19313. Отсюда находим, что A0 = −1781,2, A1 = 2731, A2 = 4850,5 . При этом полином, который представляет собой приближение принятой в качестве эмпирической функции в промежутке между 1 и 1,3, определяется уравнением y = −1781,2( x − 1,15)2 + 2731( x − 1,15) + 4850,5 . 135
Средняя величина квадрата погрешностей приближения равна 1 M = 0,2 2 + 0,5 2 + 0,4 2 + 0,12 = 0,11 . 4 б) Функция определена аналитически Если функция f ( x ) определена аналитически и, кроме того, легко
[
]
b
вычислить интегралы ∫ x k f ( x ) dx , где k – целое положительное число a
или нуль, то полином A0 x p + Κ + Ap , который может заменить функцию f ( x ) в интервале a, b с наименьшим значением интеграла от квадрата погрешностей приближения, можно определить следующим образом. Погрешность приближения в точке x равна ε( x ) = f ( x ) − A0 x p + Κ + A p , (4.28) при этом интеграл от квадрата погрешностей равен
(
)
b
E = ∫ ε 2 ( x )dx .
(4.29)
a
Коэффициенты A0 , A1 , Κ , Ap определяем из условия минимума величины E , т.е. из условия 1 ∂E b p = ∫ x A0 x p + A1 x p −1 + Κ + A p − f ( x ) dx = 0, 2 ∂A0 a
[
]
[
]
1 ∂E b = ∫ A0 x p + A1 x p −1 + Κ + A p − f ( x ) dx = 0. 2 ∂A p a Отсюда получаем систему линейных уравнений: b
b
A0 ∫ x dx + A1 ∫ x 2p
2 p −1
dx + Κ + A p ∫ x dx = ∫ x p f ( x )dx, p
a
a
b
b
a
a
b
b
b
b
a
a
a
a
A0 ∫ x p dx + A1 ∫ x p −1dx + Κ + A p ∫ dx = ∫ f ( x )dx.
⎫ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎭
(4.30)
Вычисления значительно упрощаются, если промежуток интегрирования равен − 1, + 1. Прейдём к этому промежутку с помощью замены переменной
136
x=
a+b b−a + X. 2 2
⎛a+b b−a⎞ + При этом обозначим f ( x ) = f ⎜ ⎟ X = ϕ( X ) . 2 2 ⎝ ⎠ Итак, нам нужно найти полином B0 X p + Κ + B p , который наилучшим образом приближается к функции ϕ( X ) в промежутке от − 1 до + 1. В этом случае условие минимума погрешности приближения принимает вид: 1 ∂E 1 p = ∫ X B0 X p + B1 X p −1 + Κ + B p − ϕ( X ) dX = 0 2 ∂B0 −1
[
]
При этом получаем систему линейных уравнений: 1
B0 ∫ X
2p
−1
1
dX +B1 ∫ X −1
1
1
B0 ∫ X dX +B1 ∫ X p
−1
2 p −1
−1
p −1
1
1
dX + Κ +B p ∫ X dX = ∫ X p ϕ( X ) dX , p
−1
−1
1
1
−1
−1
dX + Κ +B p ∫ dX = ∫ ϕ( X ) dX .
Обозначим 11 k X ϕ( X )dX = I k . 2 −∫1 Так как 1 1 2 2k 2 k +1 ∫ X dX = 2k + 1 , а ∫ X dX = 0 , −1 −1 то система уравнений (4.31) принимает вид:
137
⎫ ⎪ ⎪ ⎪ ⎬ (4.31) ⎪ ⎪ ⎪ ⎭
(4.32)
+
Bp
1 Bp 3 1 Bp 5
1 B p −1 3 + 1 B p −1 5 +
1 B p −2 3 + 1 B p −2 5 + 1 B p −2 7
+ 1 B p −3 5 + 1 B p −3 7 +
1 B p −4 5 + 1 B p −4 7 + 1 B p −4 9
+ 1 B p −5 7
Κ = I0 , + Κ = I1 ,
+ 1 B p −5 9
Κ = I2 , + Κ = I3 ,
+
Κ = I4 ,
1 1 1 B p −1 + B p −3 + B p −5 + Κ = I 5 . 7 9 11 Средняя величина квадрата погрешностей приближения равна E 1 M = = E . Учитывая формулы (4.28), (4.29) и систему 1 − (− 1) 2 уравнений (4.31), можно показать, что p 11 2 M = ∫ ϕ ( X )dX − ∑ B p −i I i . 2 −1 i =0 Результаты вычислений коэффициентов B p и величин p
α p = ∑ B p −i I i как функций интегралов I для различных значений p i =0
приведены в табл.4.6. Таблица 4.6. Коэффициенты интерполяционных полиномов, определённых с помощью критерия наименьших квадратов
p 1
2
B0 = 3I1
α
B α1 = I 02 + 3I12
B1 = I 0 15 B0 = (− I 0 + 3I 2 ) 4 B1 = 3I1
B2 =
α 2 = I 02 + 3I12 +
3 (3I 0 − 5I 2 ) 4
138
5 (3I 2 − I 0 )2 4
Продолжение таблицы 4.6. Коэффициенты интерполяционных полиномов, определённых с помощью критерия наименьших квадратов
35 (− 3I1 + 5I 3 ) 4 15 B1 = (− I 0 + 3I 2 ) 4 15 B2 = (5 I1 − 7 I 3 ) 4 3 B3 = (3I 0 − 5 I 2 ) 4 315 (3I 0 − 30 I 2 + 35I 4 ) B0 = 64 35 B1 = (− 3I1 + 5I 3 ) 4 105 (− 5I 0 + 42 I 2 − 45I 4 ) B2 = 32 15 B3 = (5I1 − 7 I 3 ) 4 15 B4 = (15I 0 − 70 I 2 + 63I 4 ) 64 693 (15I1 − 70 I 3 + 63I 5 ) B0 = 64 315 (3I 0 − 30 I 2 + 35I 4 ) B1 = 64 315 (− 21I1 + 90 I 3 − 77 I 5 ) B2 = 32 105 (− 5I 0 + 42 I 2 − 45I 4 ) B3 = 32 105 (35I1 − 126 I 3 + 99 I 5 ) B4 = 64 15 B5 = (15I 0 − 70 I 2 + 63I 4 ) 64 B0 =
3
4
5
α 3 = I 02 + 3I12 + +
5 (3I 2 − I 0 )2 + 4
7 (5I 3 − 3I1 )2 4
α 4 = I 02 + 3I12 +
5 (3I 2 − I 0 )2 + 4
7 (5I 3 − 3I1 )2 + 4 9 + (35 I 4 − 30 I 2 + 3I 0 )2 64
+
α 5 = I 02 + 3I12 +
5 (3I 2 − I 0 )2 + 4
7 (5I 3 − 3I1 )2 + 4 9 2 + (35I 4 − 30 I 2 + 3I 0 ) + 64 11 + (63I 5 − 70 I 3 + 15 I1 )2 64 +
Для примера применения полученных результатов определим полином третьей степени, который в промежутке от 1 до 2 наиболее
139
близок к функции f ( x ) = ln x . Решение этой задачи можно свести к определению полинома B0 X 3 + B1 X 2 + B2 X + B3 , наиболее близкого к функции ϕ( X ) = ln (1,5 + 0,5 X ) в промежутке от – 1 до +1. В соответствии с формулой (4.32) имеем 2 11 2 I 0 = ∫ ln (1,5 + 0,5 X ) dX = ∫ ln xdx = ( x ln x − x ) 1 = 2 ln 2 − 1, 2 −1 1 2 11 3 I1 = ∫ X ln (1,5 + 0,5 X ) dX = ∫ (2 x − 3) ln xdx = −2 ln 2 + , 2 −1 2 1 2 11 2 14 28 I 2 = ∫ X ln (1,5 + 0,5 X ) dX = ∫ (2 x − 3)2 ln xdx = ln 2 − , 2 −1 3 9 1 2 11 3 3 I 3 = ∫ X ln (1,5 + 0,5 X ) dX = ∫ (2 x − 3) ln xdx = −10 ln 2 + 7. 2 −1 1 Пользуясь при этом формулами табл.4.6 и учитывая, что с погрешностью, не превышающей 2 ⋅ 10 −8 , значение ln 2 = 0,6931472 , получаем B0 = 0,0133, B1 = −0,0583, B2 = 0,3331, B3 = 0,4057 . Кроме того, 2
∫ (ln x )
2
dx = 2(ln 2 )2 − 4 ln 2 + 2 = 0,18831736, α 3 = 0,18831731.
1
Следовательно, средняя квадратичная погрешность приближения (т.е. корень квадратный из средней величины квадрата погрешностей) равен M ≈ 2 ⋅ 10 −4 . В результате получаем, что в промежутке от 1 до 2 функцию ln x приближённо можно заменить полиномом 3 2 0,0133(2 x − 3) − 0,0583(2 x − 3) + 0,3331(2 x − 3) + 0,4057 . 4.2.9. Приближение функции по Чебышеву Пусть дана непрерывная функция f ( x ) вместе со своими производными в интервале a, b . Общая задача приближения функции заключается в том, чтобы найти функцию g ( x ) , которая наилучшим образом приближается к функции f ( x ) в этом интервале. Выражение "наилучшим образом" можно определить критерием наименьших 140
квадратов, что приведёт к уже рассмотренным способам приближения. Это же выражение можно определить условием наименьшей величины наибольшего отклонения функции g ( x ) от функции f ( x ) . Такое приближение называется приближением функции по Чебышеву. Функция g ( x ) должна быть удобнее в применении, чем функция f ( x ) . В рассматриваемом случае ограничимся представлением функции g ( x ) полиномом P( x ) . Будем считать, что интервал определения функции f ( x ) равен − 1, + 1, так как перенос начала a+b и изменение масштаба переменной в координат (отсчёта) на 2 b−a сразу же приведут от интервала a, b к этому отношение 2 интервалу. Было показано, что полином P( x ) n -й степени, совпадающий с функцией f ( x ) в n + 1 точке интервала определения при значениях аргумента, равных xi , представляет собой интерполяционный полином Лагранжа, при этом погрешность приближения в произвольной точке x в пределах интервала − 1, + 1 при замене функции f ( x ) полиномом P( x ) равна Rn ( x ) = f ( x ) − P( x ) = ( x − x0 )( x − x1 )Κ ( x − xn )
f (n +1) (ν ) , при этом (n + 1)!
ν < 1. Определим последовательность переменной xi таким образом, чтобы абсолютное значение максимума Rn ( x ) было возможно меньшим, когда x пробегает интервал от –1 до +1. (x − x0 )(x − x1 )Κ (x − xn ) = 2 − n Tn +1 (x ). Здесь Tn +1 ( x ) – Пусть полином Чебышева (n + 1) -й степени, а поэтому величины xi будут корнями этого полинома. В соответствии с фундаментальным свойством полиномов Чебышева полином 2 − n Tn +1 ( x ) принимает попеременно n + 2 раза значения ± 2 − n , когда x возрастает от –1 до +1, и что это единственный полином вида x n +1 + Κ , наибольшие абсолютные значения амплитуд которого (все равные 2 − n ) – самые малые из всех возможных. При этом последовательность значений xi определяется выражением
141
⎛ 2i + 1 π ⎞ (4.33) xi = cos⎜ ⎟, ⎝ n +1 2 ⎠ где i = 0, 1, 2, Κ , n . Тогда искомый полином P( x ) может быть представлен интерполяционным полиномом Лагранжа со значениями xi , определёнными выражением (4.33). Однако, предпочтительнее решить эту задачу иначе. Любой одночлен вида x q может быть представлен линейной комбинацией полиномов Чебышева степеней ≤ q . Например, 1 x 6 = (10T0 + 15T2 + 6T4 + T6 ) . Поэтому искомый полином P( x ) 32 может быть записан в виде: n
f (x ) =
∑ bk Tk (x ).
k =0
При этом для нахождения полинома P( x ) достаточно определить коэффициенты bk . Функцию f ( x ) можно представить в виде: n 1 f ( x ) = ∑ bk Tk ( x ) + n Tn +1 ( x ) f (n +1) (ν ) . 2 (n + 1)! k =0 Положив x = cos θ , имеем f (cos θ) = ϕ(θ) =
n
∑ bk cos kθ + Rn (x ) .
k =0
⎛ 2i + 1 π ⎞ При этом для значений xi = cos⎜ ⎟ получаем ⎝ n +1 2 ⎠
f ( xi ) =
n
∑ bk Tk (xi ) .
k =0
Следовательно, для значений θi = ϕ(θi ) =
2i + 1 π имеем n +1 2
n
∑ bk cos kθi .
k =0
Таким образом, коэффициенты bk представляют собой коэффициенты разложения в ряд Фурье, ограниченный n -м членом, чётной функции f (cos θ) . При этом 2 n 1 n b0 = ∑ ϕ(θi ) , bk = n + 1 ∑ ϕ(θi )cos kθi , n + 1 i =0 i =0 или, соответственно, 142
1 n 2 n ( ) f x b , = ∑ i ∑ f (xi )Tk (xi ) . k n + 1 i =0 n + 1 i =0 Для примера найдём полином третьей степени, приближающийся (по Чебышеву) к функции f ( x ) = ln (1,5 + 0,5 x ) в интервале от –1 до +1. Полином, приближающий эту функцию, уже был определён в результате применения критерия наименьших квадратов. В рассматриваемом случае для решения задачи имеем: ⎛ 2i + 1 π ⎞ n = 3, xi = ⎜ ⎟ . При этом ⎝ 4 2⎠ π 1 x0 = cos = 0,923879, θ 0 = π; 8 8 3π 3 x1 = cos = 0,382683, θ1 = π; 8 8 5π 5 x2 = cos = −0,382683, θ 2 = π; 8 8 7π 7 x3 = cos = −0,923879, θ 3 = π; 8 8 f ( x0 ) = ln 1,96194 = 0,673941; b0 =
f ( x1 ) = ln 1,69134 = 0,525519 ; f ( x2 ) = ln 1,30866 = 0,269011;
f ( x3 ) = ln 1,03806 = 0,037357; 1 3 b0 = ∑ f ( xi ) = 0,376457; 4 i =0
b1 =
1 3 ∑ f (xi ) cos θi = 0,343144; 2 i =0
b2 =
1 3 ∑ f (xi ) cos 2θi = −0,029427; 2 i =0
1 3 ∑ f (xi ) cos 3θi = 0,003313. 2 i =0 При этом для полинома, представленного в виде: P( x ) = b0 + b1T1 ( x ) + b2T2 ( x ) + b3T3 ( x ) , получаем P( x ) = 0,40588 + 0,33320 x − 0,05885 x 2 + 0,01325 x 3 . b3 =
143
Если заменить величину ν числом 0 , которое является серединой рассматриваемого интервала, то погрешность приближения будет величиной порядка 1 6 0,5 4 4 < . 2 3 4! 1,5 4 10 000
144
5. Наименьшие величины при приближённом представлении функций Выступая с докладом "Теория и практика в исследованиях Чебышева" в 1921 году на торжествах по случаю столетия со дня рождения П.Л.Чебышева, академик В.А.Стеклов, именем которого назван Математический институт РАН, отметил особую практическую направленность научного творчества великого математика: "Гений Чебышева … представлял собой исключительный образец соединения практики в высшем смысле этого слова с творческой, обобщающей силой отвлечённого мыслителя-математика. Практические вопросы превращались им в соответствующую математическую теорию, представляющую новое открытие в области чистой науки; эта же последняя не оставалась в области чистой мысли, а воплощалась в реальную действительность: в различного рода машины и механизмы, которые служили как бы вещественным осуществлением его теоретических достижений". Перечень почётных титулов и званий П.Л.Чебышева обширен и внушителен: доктор математики и астрономии (1849г.), ординарный академик Санкт-Петербургской академии наук (1859г.), ординарный (с 1872г. заслуженный) профессор Петербургского университета (1860г.), член-корреспондент Учёного комитета министерства государственных имуществ (1854г.), Льежского королевского общества (1856г.), филоматического общества в Париже (1856г.), Парижской академии наук (1860г.), Шербурского общества естественных наук (1866г.), член-учредитель Московского математического общества (1867г.), член Берлинской (1871г.), Болонской (1873г.), Итальянской королевской (1880г.) академий наук, Лондонского королевского общества (1877г.), Французского математического общества (1882г.), иностранный сочлен Парижской академии наук (1874г.), иностранный член Шведской академии наук (1893г.), почётный член Московского (1858г.), Киевского (1869г.), Новороссийского (1878г.), Петербургского (1882г.) и Казанского (1893г.) университетов, Артиллерийской академии (1870г.), Учёного комитета министерства народного просвещения (1873г.), Московского общества естествоиспытателей (1889г.), Петербургского минералогического общества (1890г.), Петербургского математического общества (1893г.). Основатель петербургской математической школы, снискавший мировую известность своими работами по теории вероятностей, 145
интегрированию алгебраических функций, теории чисел и других разделов чистой математики (называемой так в противоположность прикладной математике), воспитатель блестящей плеяды математиков, чьи имена составляют гордость нашей науки, – Г.Ф.Вороного, Д.А.Граве, Е.И.Золотарева, А.Н.Коркина, А.М.Ляпунова и др. – П.Л.Чебышев живо интересовался и чисто практическими вопросами: рациональным конструированием механизмов, черчением географических карт, оптимальным раскроем одежды и тому подобными проблемами. Едва ли не самой блестящей главой научного творчества П.Л.Чебышева является создание им основ теории наилучшего приближения функций. 5.1. Общие положения теории приближённого представления функций Вопросы о наименьших величинах, связанные с приближённым представлением функций, весьма обстоятельно исследованы П.Л.Чебышевым. Рассмотрим лишь некоторые из результатов этих исследований, имеющие важное прикладное значение, например, при оптимизации параметров схем оптических систем переменного увеличения. Вблизи значения x = a функцию f ( x ) приближённо можно представить рядом Тейлора в виде: ( ( x−a x − a )2 x − a )n (n ) f ( x ) = f (a ) + f ′(a ) + f ′′(a ) + Κ + f (a ) . 1! 2! n! Эту же функцию приближённо можно представить другой функцией в некоторой форме ψ ( x ) , приравнивая нулю при x = a разность f ( x ) − ψ ( x ) и её первые производные. Для значений величины x , близких к a , эти выражения f ( x ) представляют её в наибольшей точностью, какую только допускают их формы. Однако, если функция f ( x ) определена в более или менее широком интервале изменения переменной x , то поиск приближённых выражений для f ( x ) требует других методов. Так как степень точности приближённых выражений функций определяется пределом их отклонений от приближаемой функции, то для представления f ( x ) следует взять то из выражений, которое среди других того же вида наименее уклоняется от f ( x ) в промежутке, для которого ищется её приближённое выражение. Но
146
приближённые выражения функций, находимые по правилам дифференциального исчисления, никогда не удовлетворяют этому условию: они дают величину f ( x ) с наибольшей точностью только вблизи значения x или, что то же самое, в бесконечно малом промежутке. Следовательно, когда величина x изменяется в пределах более или менее широких, как это бывает на практике, решаемую задачу можно сформулировать следующим образом: "Для некоторой функции F ( x ) данного вида с n произвольными параметрами p1 , p 2 , Κ , p n надо найти такие значения параметров, при которых предел её отклонений от нуля между x = −h и x = + h будет наименьшим". Некоторая функция F ( x ) в промежутке от x = −h до x = + h отклоняется от нуля не более, чем на величину L , если все её значения в этом промежутке лежат между − L и + L или, по крайней мере, одно из них равно + L или − L . Пусть этому значению F ( x ) соответствует x = x1 . Вполне очевидно, что величина x = x1 , при которой F ( x1 ) = ± L , должна быть или одной из величин, при которой F ( x ) достигает экстремального значения (либо максимума, либо минимума), или одной из предельных величин x , т.е. или x = h , или x = −h . Отсюда следует, что величина x1 должна удовлетворять одному из уравнений: ( x − h )( x + h ) = 0 , F ′( x ) = 0 , а, следовательно, уравнению ( x − h )( x + h )F ′( x ) = 0 или (x 2 − h 2 )F ′(x ) = 0 . То же самое справедливо для всех значений x из промежутка [− h, + h], которые приводят F ( x ) либо к + L , либо к − L , или, что то же самое, которые удовлетворяют уравнению F 2 ( x ) = L2 . Таким образом, уравнения F 2 ( x ) = L2 , (5.1) 2 2 (5.2) x − h F ′( x ) = 0 будут иметь некоторое число µ общих решений: x = x1 , x2 , Κ , xµ , где x1 , x2 , Κ , xµ – вещественные величины, различные между собой и лежащие в промежутке [− h, + h]. Используя уравнения (5.1) и (5.2), можно найти значения параметров p1 , p 2 , Κ , p n функции F ( x ) , при которых величина L принимает из возможных наименьшее значение. Упростить решение этой задачи позволяет следующая теорема, которая справедлива в том случае, когда функция F ( x ) и её
(
)
147
производные относительно x, p1 , p 2 , Κ , p n конечны и непрерывны при значениях x из промежутка [− h, + h ] . Теорема 1 Величина L , определяющая то, насколько функция F ( x ) отклоняется от нуля при значениях x из промежутка [− h, + h], не приведена к своей наименьшей величине, если система уравнений ⎫ ( ) dF x ⎪ dF ( x1 ) dF ( x2 ) µ λ1 + λ2 +Κ + λ µ = 0, ⎪ dp1 dp1 dp1 ⎪ ⎪ ( ) dF x dF ( x1 ) dF ( x2 ) ⎪ µ λ1 + λ2 +Κ + λ µ = 0, (5.3) ⎬ dp 2 dp 2 dp 2 ⎪ ⎪ ( ) dF x ⎪ dF ( x1 ) dF ( x2 ) µ λ1 + λ2 +Κ + λµ = 0 ⎪ dp n dpn dpn ⎪ ⎭ не имеет других решений, кроме λ1 = 0, λ 2 = 0, Κ , λ µ = 0 ; величины x1 , x2 , Κ , xµ представляют собой те значения x из промежутка [− h, + h], для которых функция F ( x ) достигает своих предельных значений ± L ; p1 , p 2 , Κ , p n – произвольные параметры F (x ) . Эта теорема, сформулированная и доказанная П.Л.Чебышевым, позволяет найти уравнения, определяющие значения параметров p1 , p 2 , Κ , p n , при которых функция F ( x ) наименее отклоняется от нуля при x ∈ [− h, + h ]. Не было бы проблем найти эти уравнения, если бы наперёд было известно число µ , которое означает сколько раз при x ∈ [− h, + h ] функция F ( x ) при искомых величинах параметров достигает своих предельных значений ± L . Именно незнание величины µ обычно, прежде всего, определяет основную сложность рассматриваемых вопросов о наименьших величинах. Относительно числа µ можно сделать следующие два предположения: 1) число µ превосходит число n , т.е. число произвольных параметров функции F ( x ) ; 2) число µ ≤ n .
148
Пусть µ > n . При этом ряд x1 , x2 , Κ , xµ содержит, по крайней мере, n + 1 различную величину, а тогда уравнения (5.1) и (5.2) должны иметь, по меньшей мере, n + 1 общее решение, что влечёт за собой n + 1 уравнение с n + 1 неизвестной величиной: n искомых параметров функции F ( x ) и величина L , которая означает насколько F ( x ) уклоняется от нуля при x ∈ [− h, + h ]. В результате решения этих уравнений получим все неизвестные, если только не встретим тождественных уравнений, что может представиться только в исключительных случаях. Заметим, что при µ > n нет необходимости обращаться к системе уравнений (5.3), тем более, что эту систему образуют n уравнений с µ неизвестными λ1 , λ 2 , Κ , λ µ , т.е. число уравнений при этом меньше числа неизвестных. Пусть µ ≤ n . В этом случае после исключения µ неизвестных λ1 , λ 2 , Κ , λ µ система (5.3) из n уравнений преобразуется в систему из n − µ + 1 уравнений, содержащих n + µ величин: p1 , p2 , Κ , pn ,
x1 , x2 , Κ , xµ . С другой стороны, положив в выражениях (5.1) и (5.2) величину x = x1 , x2 , Κ , xµ , получаем ещё 2µ уравнений, определяющих взаимосвязь величин p1 , p2 , Κ , pn , x1 , x2 , Κ , xµ и L . В результате будем иметь n + µ + 1 уравнение с таким же числом неизвестных: p1 , p2 , Κ , pn , x1 , x2 , Κ , xµ , L . Решая эти уравнения, определим и величину L , и искомые параметры функции F ( x ) . Однако, поскольку ничего не известно наперёд о числе µ , можно определить искомые параметры функции F ( x ) , при которых она наименее уклоняется от нуля при x ∈ [− h, + h ], только сравнивая между собой значения L , получаемые при различных значениях числа µ : µ > n и 0 < µ ≤ n , т.е. при µ = 1, 2, Κ , n . Заметим, что важность исследования различных систем параметров функции F ( x ) и выбора той из них, при которой получаем искомое решение, обуславливается смыслом решаемой задачи, в которой ищется minimum minimorum величины L , для чего необходимо знать все возможные минимумы. Нередки случаи, когда уравнения системы (5.3) при λ1 , λ 2 , Κ , λ µ , отличных от нуля, невозможны для некоторых значений µ ; тогда 149
число возможных предположений о величине числа µ уменьшается, при этом решение рассматриваемой задачи значительно упрощается. Одним из таких случаев, наиболее интересным и вместе с тем наиболее часто встречающимся, является случай, когда функция F ( x ) такова, что система уравнений (5.3) не имеет других решений, кроме λ1 = 0, λ 2 = 0, Κ , λ µ = 0 , пока µ не превысит n . Тогда в соответствии со сформулированной теоремой 1 при µ ≤ n нельзя привести величину L к её наименьшей величине, а при µ > n величину L и искомые параметры функции F ( x ) находим, решая уравнения: F 2 ( x ) − L2 = 0 , x 2 − h 2 F ′( x ) = 0 , которые имеют, по крайней мере, n + 1 общих решений: x = x1 , x = x2 , x = x3 , Κ , x = xn +1 при x ∈ [− h, + h ]. В случае приближённого представления функций или в виде полинома, или в виде дроби с данным знаменателем, представляет интерес решение рассматриваемой задачи для двух выражений F ( x ) следующего вида: (5.4) F ( x ) = p1 x n −1 + p2 x n− 2 + Κ + pn−1 x + pn − Y , p1 x n−1 + p2 x n− 2 + Κ + pn−1 x + pn −Y , (5.5) F (x ) = A0 x m + A1 x m−1 + Κ + Am−1 x + Am где Y – функция от x , остающаяся конечной и непрерывной, так же как и её производные, при x ∈ [− h, + h ].
(
)
5.2. Приближённое представление функций полиномом Пусть F ( x ) = p1 x n −1 + p2 x n− 2 + Κ + pn−1 x + pn − Y . Дифференцируя это выражение по p1 , p2 , Κ , pn , получаем dF ( x ) dF ( x ) dF ( x ) dF ( x ) = x n −1 , = x n−2 , Κ , = x, = 1. dp1 dp2 dpn −1 dpn При этом уравнения системы (5.3) принимают вид: λ1 x1n −1 + λ 2 x2n −1 + Κ + λ µ xµn −1 = 0, λ1 x1n −2 + λ 2 x2n −2 + Κ + λ µ xµn − 2 = 0, λ1 x1 + λ 2 x2
+ Κ + λ µ xµ
= 0,
λ1
+ Κ + λµ
= 0.
+ λ2
Умножив эти уравнения на какие-либо числа K n −1 , K n − 2 , Κ , K 0 соответственно и сложив их, получаем 150
λ1Φ ( x1 ) + λ 2 Φ ( x2 ) + Κ + λ µ Φ (xµ ) = 0 ,
(5.6)
где Φ ( x ) = K n−1 x n−1 + K n −2 x n −2 + Κ + K1 x + K 0 . А так как Φ ( x ) может представлять все целые функции степени ниже n , можем положить Φ( x ) = ( x − x2 )( x − x3 )Κ (x − xµ ) = x µ−1 − (x2 + x3 + Κ + xµ ) x µ−2 +
+ (x2 x3 + Κ + xµ−1 xµ )x µ −3 − Κ , если µ не превосходит n . При этом Φ( x1 ) = ( x1 − x2 )( x1 − x3 )Κ (x1 − xµ ), Φ( x2 ) = 0, Φ (xµ ) = 0,
т.е. в этом случае уравнение (5.6) принимает вид: λ1 ( x1 − x2 )( x1 − x3 )Κ (x1 − xµ ) = 0 . Отсюда следует, что λ1 = 0 , так как значения x1 , x2 , Κ , xµ различны между собой. Аналогично, принимая Φ( x ) = ( x − x1 )( x − x3 )Κ (x − xµ ),
Φ( x ) = ( x − x1 )( x − x2 )Κ (x − xµ−1 ),
находим, что λ 2 = 0, Κ , λ µ = 0 . Полученные результаты исследования системы уравнений (5.3) в случае F ( x ) = p1 x n −1 + p2 x n− 2 + Κ + pn−1 x + pn − Y определяют доказательство следующей теоремы. Теорема 2 Если значения параметров p1 , p2 , Κ , pn выбраны так, что функция F ( x ) = p1 x n −1 + p2 x n− 2 + Κ + pn−1 x + pn − Y наименее уклоняется от нуля между x = −h и x = + h , то уравнения F 2 ( x ) − L2 = 0 , x 2 − h 2 F ′( x ) = 0 имеют, по крайней мере, n + 1 общее решение, которые отличны друг от друга и заключены между x = −h и x = + h . Число L означает предел уклонения F ( x ) от нуля между x = −h и x = + h .
(
)
151
5.3. Приближённое представление функций дробью с данным знаменателем Пусть p1 x n−1 + p2 x n− 2 + Κ + pn−1 x + pn (5.7) F (x ) = −Y . A0 x m + A1 x m−1 + Κ + Am−1 x + Am Будем считать, что знаменатель дроби p1 x n−1 + p2 x n−2 + Κ + pn−1 x + pn A0 x m + A1 x m−1 + Κ + Am−1 x + Am не обращается в нуль при x ∈ [− h, + h ]. Действительно, по свойству решаемой задачи искомая дробь должна быть необходимо из числа тех, которые не перестают оставаться конечными от x = −h и x = + h . Следовательно, если бы её знаменатель A0 x m + A1 x m −1 + Κ + Am −1 x + Am содержал множители, обращающиеся в нуль между x = −h и x = + h , то её числитель p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn должен был бы делиться на все эти множители. В результате искомая дробь приводилась бы к более простому виду, в котором знаменателем была бы функция A0 x m + A1 x m −1 + Κ + Am −1 x + Am , лишённая всех множителей, способных обращаться в нуль при x ∈ [− h, + h ], а числителем была бы функция того же вида, как p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn , но степени ниже n − 1 на столько единиц, сколько функция A0 x m + A1 x m −1 + Κ + Am −1 x + Am содержит линейных множителей, которые обращаются в нуль при x ∈ [− h, + h ]. Именно этот случай и будем рассматривать. Так как Y , по предположению, представляет функцию, которая в промежутке от x = −h и x = + h остаётся конечной и непрерывной вместе со своими производными, и так как знаменатель дроби p1 x n−1 + p2 x n−2 + Κ + pn−1 x + pn A0 x m + A1 x m−1 + Κ + Am−1 x + Am не обращается в нуль в этих пределах, то ясно, что в этом промежутке ни функция p1 x n−1 + p2 x n− 2 + Κ + pn−1 x + pn F (x ) = −Y , A0 x m + A1 x m−1 + Κ + Am−1 x + Am
152
ни её производные относительно x, p1 , p2 , Κ , pn не перестанут оставаться конечными и непрерывными. Поэтому для этого выражения функции F ( x ) справедлива теорема 1. С другой стороны, для такого вида функции F ( x ) при µ ≤ n система уравнений (5.3) не имеет других решений, кроме λ1 = 0, λ 2 = 0, Κ , λ µ = 0 . В самом деле, полагая для сокращения записи A0 x m + A1 x m −1 + Κ + Am −1 x + Am = ϕ( x ) , в результате дифференцирования выражения (5.7) по параметрам p1 , p2 , Κ , pn получаем
dF ( x ) x n −1 dF ( x ) x n − 2 dF ( x ) x dF ( x ) 1 = = = = , ,Κ , , . dp1 ϕ( x ) dp2 ϕ( x ) dpn −1 ϕ( x ) dpn ϕ( x ) При этом система уравнений (5.3) принимает вид: λ µ xµn −1 λ1 x1n −1 λ 2 x2n −1 + +Κ + = 0, ϕ( x1 ) ϕ( x2 ) ϕ(xµ ) λ µ xµn − 2 λ1 x1n − 2 λ 2 x2n − 2 = 0, + +Κ + ϕ(xµ ) ϕ( x1 ) ϕ( x2 ) λ µ xµ λ1 x1 λ x = 0, + 2 2 +Κ + ϕ(xµ ) ϕ( x1 ) ϕ( x2 ) λµ λ1 λ + 2 +Κ + = 0, ϕ( x1 ) ϕ( x2 ) ϕ(xµ )
где ϕ( x1 ), ϕ( x2 ), Κ , ϕ(xµ ) отличны от нуля. Умножив эти уравнения соответственно, K n −1 , K n − 2 , Κ , K1 , K 0 и взяв их сумму, имеем λ µ Φ (xµ ) λ1Φ ( x1 ) λ 2 Φ( x2 ) +Κ + = 0, + ϕ( x2 ) ϕ(xµ ) ϕ( x1 )
на
числа
где Φ ( x ) = K n −1 x n −1 + K n − 2 x n −2 + Κ + K1 x + K 0 . Повторяя рассуждения, применённые в предыдущем случае, приходим к выводу, что и это уравнение, в котором отличны от нуля, требует ϕ( x1 ), ϕ( x2 ), Κ , ϕ(xµ )
153
λ1 = 0, λ 2 = 0, Κ , λ µ = 0 , пока µ не превышает n . Полученные результаты позволяют сформулировать следующую теорему. Теорема 3 Если значения параметров p1 , p2 , Κ , pn выбраны таким образом, что функция p1 x n−1 + p2 x n− 2 + Κ + pn−1 x + pn F (x ) = −Y A0 x m + A1 x m−1 + Κ + Am−1 x + Am при x ∈ [− h, + h ] наименее уклоняется от нуля, то уравнения F 2 ( x ) − L2 = 0 , x 2 − h 2 F ′( x ) = 0 имеют, по крайней мере, n + 1 общее решение, которые различны между собой и заключены между x = −h и x = + h . Величина L определяет предел значений F ( x ) при x ∈ [− h, + h ]. Чтобы показать приложение доказанных теорем, относящихся к частным видам F ( x ) , представленным в виде полинома или в виде дроби с данным знаменателем, рассмотрим решение следующих задач: 1) Какая из всех целых функций вида x n + p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn уклоняется, возможно, менее от нуля между пределами x = −h до x = +h ? 2) Какая из дробей вида x n + p′x n −1 + p′′x n−2 + Κ + p (n −1) x + p (n ) , n −l −1 n −l − 2 A0 x + A1 x + Κ + An−l −2 x + An−l −1 имеющих один и тот же знаменатель A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l − 2 x + An −l −1 , уклоняется, возможно, менее от нуля между пределами x = −h до x = +h ?
(
)
5.4. О функции вида x n + p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn Рассмотрим функцию вида x n + p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn , которая наименее уклоняется от нуля между пределами x = −h до x = + h . Так как эта функция представляет собой выражение p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn − Y при Y = − x n , то в силу теоремы 2 при таком выборе коэффициентов p1 , p2 , Κ , pn , при котором выражение 154
F ( x ) = x n + p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn уклоняется, возможно, менее от нуля при x ∈ [− h, + h ], уравнения (5.8) F 2 ( x ) − L2 = 0 , x 2 − h 2 F ′( x ) = 0 имеют, по крайней мере, n + 1 общее решение, которые различны между собой. Пусть x = x0 будет одним из этих решений. Нетрудно показать,
(
)
)[
(
]
что тогда выражение x 2 − h 2 F 2 ( x ) − L2 будет делиться на ( x − x0 )2 . Действительно, на основании первого из уравнений (5.8) выражение x 2 − h 2 F 2 ( x ) − L2 обращается в нуль при x = x0 . Кроме того, первая производная этого выражения, равная 2 x 2 − h 2 F ( x )F ′( x ) + 2 x F 2 ( x ) − L2 , в силу уравнений (5.8) также приводится к нулю при x = x0 . Это доказывает, что выражение x 2 − h 2 F 2 ( x ) − L2
)[
(
(
]
[
)
(
)[
]
(
)[
]
]
делится на ( x − x0 )2 . То же самое справедливо относительно других общих решений уравнений (5.8). Так как число этих решений, различных между собой, не меньше n + 1 , то из этого следует, что выражение x 2 − h 2 F 2 ( x ) − L2 делится на n + 1 различный множитель (x − x0 )2 , (x − x1 )2 , (x − x2 )2 , Κ , (x − xn )2 и, следовательно, на их произведение (x − x0 )2 (x − x1 )2 (x − x2 )2 Κ (x − xn )2 .
(
)[
]
Но степень выражения x 2 − h 2 F 2 ( x ) − L2 , в котором
F ( x ) = x n + p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn , равна 2n + 2 , а поэтому частное от деления этого выражения на произведение (x − x0 )2 (x − x1 )2 (x − x2 )2 Κ (x − xn )2 может быть только постоянным. Поэтому x 2 − h 2 F 2 ( x ) − L2 = C ( x − x0 )2 ( x − x1 )2 ( x − x2 )2 Κ ( x − xn )2 . Это уравнение будет иметь место только тогда, когда x + h и x − h будут в числе множителей x − x0 , x − x1 , x − x2 , Κ , x − xn . А если предположить, что x − x0 = x + h , а x − x1 = x − h , то
(
)[
]
разделив это уравнение на ( x + h )( x − h ) = x 2 − h 2 , получаем 155
(
)
F 2 ( x ) − L2 = C x 2 − h 2 ( x − x2 )2 Κ ( x − xn )2
или
(
)
(5.9) F 2 ( x ) − L2 = x 2 − h 2 Φ 2 ( x ) , где через Φ ( x ) обозначена целая функция: Φ ( x ) = C ( x − x2 )Κ ( x − xn ) . Именно из этого уравнения найдём искомую функцию F ( x ) , т.е. ту из функций вида x n + p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn , которая возможно менее уклоняется от нуля. Уравнение (5.9) можно представить в виде или
[F (x) − Φ(x)
][
]
x 2 − h 2 F ( x ) + Φ ( x ) x 2 − h 2 = L2
F (x ) − Φ( x ) x − h = 2
L2
2
F ( x ) + Φ(x ) x − h 2
2
.
Отсюда находим, что F (x ) L2 2 2 = x −h + , Φ( x ) Φ( x ) F ( x ) + Φ( x ) x 2 − h 2 F (x ) а это доказывает, что дробь представляет величину x 2 − h 2 с Φ(x ) 1 включительно. Но это возможно точностью до членов порядка 2 Φ (x ) F (x ) только тогда, когда будет одной из подходящих дробей Φ(x )
[
]
x 2 − h 2 , которые находятся разложением этого радикала в непрерывную дробь. Кроме того, так как функции F ( x ) и Φ ( x ) в соответствии с уравнением (5.9) необходимо взаимно простые и так как F ( x ) = x n + p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn , F (x ) то ясно, что отношение будет той из подходящих дробей Φ(x ) x 2 − h 2 , числитель которой степени n , а её части могут отличаться от F ( x ) и Φ ( x ) только постоянным множителем. Следовательно,
156
Pn ту из подходящих дробей радикала x 2 − h 2 , Qn числитель которой степени n , будем иметь F ( x ) = C0 Pn , Φ ( x ) = C0Qn . Значение постоянной C0 можно найти из того условия, что в
обозначая через
выражении функции F ( x ) коэффициент при x n должен быть равным единице. Теория непрерывных дробей исторически возникла из потребности приближённо представить рациональную дробь, числитель и знаменатель которой очень велики, другой рациональной дробью, у которой они значительно меньше, а также оценить погрешность этого приближения. Пусть a0 , a1 , a2 , Κ , an , Κ , b1 , b2 , Κ , bn , Κ – две последовательности. Выражение вида ⎡ ⎤ b1 b b b a0 + = ⎢a0 ; 1 , 2 , 3 , Κ ⎥ b2 ⎣ a1 a2 a3 ⎦ a1 + b3 a2 + a3 + Ο называется непрерывной или цепной дробью, отвечающей заданным последовательностям {ak }∞k =0 , {bk }∞k =1 . В общем случае элементы или непрерывной дроби a0 , ak , bk (k = 1, 2, Κ ) – вещественные комплексные числа или функции одной или нескольких переменных. Выражения b1 b1 b b1 , a0 + , Κ , a0 + a0 + 1 , a0 + b2 b2 b a1 a1 + a1 + a1 + 2 b a2 + Ο a2 a2 + 3 a3 b an−1 + n an называются соответственно первой, второй, третьей, …, n -й подходящей дробью для данной бесконечной дроби и обычно P P1 P2 обозначаются , , Κ , n . Для числителей и знаменателей Q1 Q2 Qn подходящих дробей имеют место следующие рекуррентные формулы: Pn = an Pn −1 + bn Pn − 2 , Qn = an Qn −1 + bnQn − 2 (n = 1, 2, Κ ) , где P−1 = 1, Q−1 = 0 , P0 = a0 , Q0 = 1 . 157
Разложив выражение x 2 − h 2 в непрерывную дробь, можно найти ряд подходящих дробей, а, следовательно, и обозначенную P через n , которой определяются F ( x ) и Φ ( x ) . Однако, можно найти Qn выражение функций Pn и Qn , применив следующий приём. Из тождества x − x2 − h2 x + x2 − h2 = h2 , которое легко проверить, имеем h2 h2 2 2 . x −h −x = − =− 2 2 2 2 x+ x −h 2x + x − h − x
)(
(
)
x2 − h2
Отсюда следует, что выражение непрерывную дробь h2 2 2 x −h = x− h2 2x − 2x −Ο
развёртывается в
h2
− 2x − 2x −
h2 h2 2
2
.
x+ x −h Итак, обозначая ряд подходящих дробей для этой непрерывной P P P1 P2 , , Κ , m −1 , m , Κ и используя рекуррентное дроби через Q1 Q2 Qm−1 Qm соотношение, имеем 2
x −h
2
(x = Q ( x Pm
2 2
−h Отсюда находим, что m
2
2
Pm − Qm x − h = Но
(x +
h2 x
2
2
2
.
m −1
(
h 2 Pm−1 − Qm−1 x 2 − h 2
( −h ) 2
) + x )− h Q
− h 2 + x − h 2 Pm−1
x + x2 − h2
)
).
= x − x 2 − h 2 . При этом
Pm − Qm x 2 − h 2 Pm−1 − Qm−1 x 2 − h 2
= x − x2 − h2 .
158
Полагая в этой формуле последовательно m = n, m = n − 1, Κ , m = 3, m = 2 , получаем ряд следующих уравнений:
Pn − Qn x 2 − h 2 Pn−1 − Qn −1 x 2 − h 2 Pn−1 − Qn−1 x 2 − h 2 2
Pn−2 − Qn−2 x − h
2
P3 − Q3 x 2 − h 2 P2 − Q2 x 2 − h 2 P2 − Q2 x 2 − h 2 2
P1 − Q1 x − h
2
= x − x2 − h2 ,
= x − x2 − h2 ,
= x − x2 − h2 ,
= x − x2 − h2 .
Перемножив, левые и правые части этих уравнений, получаем
Pn − Qn x 2 − h 2 2
2
2
2
(
2
(
2
= x− x −h
2
)
n −1
.
P1 − Q1 x − h Заметим, что первая подходящая дробь в разложении радикала x равна , т.е. P1 = x , Q1 = 1 . При этом P1 − Q1 x 2 − h 2 = x − x 2 − h 2 . 1 Тогда предыдущее выражение принимает вид: Pn − Qn x − h = x − x − h
2
При перемене знака радикала 2
(
2
2
2
)
)
n
. x 2 − h 2 имеем n
Pn + Qn x − h = x + x − h Сложив эти два уравнения, получаем
Pn =
(x +
2
x −h
2
) + (x − n
2
x −h
2
)
n
. 2 При этом искомая функция F ( x ) = C0 Pn определится выражением:
F ( x ) = C0
(x +
2
x −h
2
) + (x − n
2
x −h
2
159
2
)
n
.
Это выражение F ( x ) , разложенное по возрастающим степеням x , имеет первым членом 2 n −1 C0 x n . Но F ( x ) должна быть функцией вида x n + p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn . 1 Следовательно, C0 = n −1 . Подставив эту величину в предыдущее 2 выражение функции F ( x ) , окончательно получаем
F (x ) =
(x +
2
x −h
2
) + (x − n
2
x −h
2
)
n
. (5.10) 2n Таким образом, та из функций вида x n + p1 x n −1 + p2 x n − 2 + Κ + pn −1 x + pn , которая возможно менее уклоняется от нуля в интервале от x = −h до x = + h , определяется выражением (5.10). Полученное выражение позволяет легко найти предел уклонения функции F ( x ) от нуля в промежутке между x = −h и x = + h , т.е. позволяет найти величину L . Для этого заметим, что при x = h уравнение (5.9) принимает вид: F 2 (h ) − L2 = 0 , а поэтому L = ± F (h ) . Положив в выражении (5.10) величину x = h , получаем hn F (h ) = n −1 . 2 hn Следовательно, L = n −1 . 2 Полученные результаты позволяют сформулировать следующую теорему. Теорема 4 Числовая величина функции x n + p1 x n −1 + Κ + pn −1 x + pn между x = −h и x = + h не может n
⎛h⎞ оставаться ниже 2⎜ ⎟ . ⎝2⎠ Коэффициенты p1 , p2 , Κ , pn функции
F ( x ) = x n + p1 x n −1 + Κ + pn −1 x + pn можно найти, приравняв F ( x ) = 0 при x = x1 , x2 , Κ , xn . Зная коэффициенты, функцию F ( x ) можно записать в виде: (5.11) F ( x ) = ( x − x1 )( x − x2 )Κ ( x − xn ) . 160
Но функция F ( x ) , наименее уклоняющаяся от нуля при x ∈ [− h, + h ], определяется формулой (5.10). Поэтому, приравняв правые части выражений (5.10) и (5.11), видим, что в качестве величин x1 , x2 , Κ , xn следует взять n корней уравнения
(x +
2
x −h
2
) + (x − n
2
x −h
2
)
n
= 0. (5.12) 2n При x = h cos ϕ это уравнение принимает вид cos nϕ = 0 . 2k + 1 π , где k – какое-нибудь целое Отсюда следует, что ϕ = 2n число. Следовательно, n корней уравнения (5.12), а, соответственно, и величины x1 , x2 , Κ , xn , определяются следующими соотношениями: (2n − 1)π . 3π π h cos , h cos , Κ , h cos 2n 2n 2n x n + p′x n−1 + Κ + p (n −1) x + p (n ) 5.5. О дроби вида A0 x n−l −1 + A1 x n−l −2 + Κ + An−l −2 x + An−l −1 Рассмотрим дробь, которая из числа всех дробей вида x n + p′x n−1 + Κ + p (n −1) x + p (n ) , A0 x n−l −1 + A1 x n−l −2 + Κ + An−l −2 x + An−l −1 имеющих тот же знаменатель A0 x n −l −1 + A1 x n −l −2 + Κ + An −l −1 , возможно, менее уклоняется от нуля между пределами x = −h и x = + h . Эту дробь можно представить в виде: p′x n−1 + p′′x n−2 + Κ + p (n ) − xn . − A0 x n−l −1 + A1 x n−l −2 + Κ + An−l −1 A0 x n−l −1 + A1 x n−l −2 + Κ + An −l −1 Это выражение, в свою очередь, представляет собой частный случай выражения p1 x n−1 + p2 x n−2 + Κ + pn −Y , A0 x m + A1 x m−1 + Κ + Am вид, которого в соответствии с теоремой 3 позволяет сделать заключение о том, что искомая дробь x n + p′x n −1 + Κ + p (n−1) x + p (n ) , A0 x n −l −1 + A1 x n−l −2 + Κ + An−l −1
161
которую будем обозначать через F ( x ) , должна обладать тем же свойством, что уравнения F 2 ( x ) − L2 = 0 , x 2 − h 2 F ′( x ) = 0 имеют, по меньшей мере, n + 1 общее решение, различных между собой и заключённых в пределах x = −h и x = + h . Изложенные ранее соображения позволяют предположить, что знаменатель A0 x n−l −1 + A1 x n−l −2 + Κ + An−l −1 не обращается в нуль при x ∈ [− h, + h ]. Полагая для сокращения записи x n + p′x n −1 + Κ + p (n −1) x + p (n ) = U ,
(
)
A0 x n −l −1 + A1 x n −l −2 + Κ + An −l −1 = v , имеем x n + p′x n−1 + Κ + p (n −1) x + p (n ) U F (x ) = = . A0 x n−l −1 + A1 x n−l −2 + Κ + An−l −1 v При этом уравнения (5.13) F 2 ( x ) − L2 = 0 , x 2 − h 2 F ′( x ) = 0 можно привести к виду: du dv v −U (5.14) U 2 − L2 v 2 = 0 , x 2 − h 2 dx 2 dx = 0 . v Если x = x0 будет общим решением уравнений (5.13), то это значение x удовлетворит и уравнению x 2 − h 2 U 2 − L2 v 2 = 0 . Его первая производная определится выражением d 2 dv ⎞ ⎛ du x − h 2 U 2 − L2 v 2 = 2 x U 2 − L2 v 2 + 2 x 2 − h 2 ⎜U − L2 v ⎟ . dx dx ⎠ ⎝ dx Поскольку U 2 − L2 v 2 = 0 , при x = x0 первый член исчезает, а
(
(
)
(
)
)(
)
[(
)]
)(
(
) (
)
U2 принимает вид второй при замене L v = v x 2 − h 2 U ⎛ dU dv ⎞ 2 −U ⎟ , ⎜v v dx ⎠ ⎝ dx т.е. в соответствии со вторым из уравнений (5.14) тоже обращается в нуль. Но коль скоро x = x0 удовлетворяет двум уравнениям d 2 x − h 2 U 2 − L2 v 2 = 0 , x 2 − h 2 U 2 − L2 v 2 = 0 и dx 2
(
(
)
)(
)
[(
)(
162
)]
(
)(
)
функция x 2 − h 2 U 2 − L2 v 2 необходимо имеет множителем ( x − x0 )2 . То же самое имеет место относительно других общих решений уравнений (5.13). Из того, что в соответствии с теоремой 3 если U , наименее уклоняется от нуля при функция F ( x ) , равная дроби v x ∈ [− h, + h ], то число этих решений, различных между собой, по крайней мере, не менее n + 1 , следует делимость функции x 2 − h 2 U 2 − L2 v 2
(
)(
)
на множители ( x − x0 )2 , ( x − x1 )2 , Κ , ( x − xn )2 , где x0 , x1 , Κ , xn – величины неравные и заключённые между x = −h и x = + h . Отсюда следует, что эта функция делится на произведение ( x − x0 )2 (x − x1 )2 Κ (x − xn )2 и что этот делитель не имеет с v общих множителей, ибо функция v , по предположению, не обращается в нуль между x = −h и x = + h , а x0 , x1 , Κ , xn заключены в этих пределах. Но так как степени функций U и v равны соответственно n и n − l − 1 , то степень функции не может x 2 − h 2 U 2 − L2 v 2 превосходить степени произведения ( x − x0 )2 (x − x1 )2 Κ (x − xn )2 ,
(
)(
(
)
)(
)
а поэтому частные от деления функции x 2 − h 2 U 2 − L2 v 2 на это произведение могут быть только постоянной величиной. При этом имеем (5.15) x 2 − h 2 U 2 − L2 v 2 = C0 ( x − x0 )2 ( x − x1 )2 Κ ( x − xn )2 . Это уравнение предполагает, что два из множителей x − x0 , x − x1 , Κ , x − xn соответственно равны x + h, x − h . Если положить x − x0 = x + h, x − x1 = x − h , то уравнение (5.15) примет вид U 2 − L2 v 2 = C0 ( x + h )( x − h )( x − x2 )2 Κ ( x − xn )2 . Обозначив C0 ( x − x2 )Κ ( x − xn ) = W , получаем U 2 − L2 v 2 = x 2 − h 2 W 2 или (5.16) U 2 − W 2 x 2 − h 2 = L2 v 2 .
(
)(
)
(
(
)
)
163
Используя это уравнение, и будем искать функцию U , определяющую числитель дроби U x n + p′x n −1 + Κ + p (n−1) x + p (n ) = , v A0 x n−l −1 + A1 x n−l −2 + Κ + An−l −1 которая из всех дробей того же вида уклоняется наименее от нуля в пределах от x = −h до x = + h . Разложив функцию v = A0 x n −l −1 + A1 x n −l −2 + Κ + An −l −1 на линейные множители, находим v = A0 ( x − α1 )l1 ( x − α 2 )l2 Κ , где α1 , α 2 , Κ различные между собой величины. При этом, так как степень функции v равна n − l − 1 , имеем (5.17) l1 + l2 + Κ = n − l − 1 . Так как функция v , по предположению, не обращается в нуль в интервале от x = −h до x = + h , то величины α1 , α 2 , Κ , если они вещественны, лежат вне пределов x = −h , x = + h . Наконец, так как x 2 − h 2 W = C0 ( x − x0 )( x − x1 )( x − x2 )Κ ( x − xn ) и значения x0 , x1 , x2 , Κ , xn заключены между x = −h и x = + h ,
(
)
(
)
функция x 2 − h 2 W не может обращаться в нуль при x = α1 , α 2 , Κ . Прежде, чем определять функцию U , используя уравнение (5.16), найдём все решения уравнения X 2 − Y 2 x 2 − h 2 = C (0 ) v 2 ,
(
(
)
)
где выражение Y 2 x 2 − h 2 не обращается в нуль при x = α1 , α 2 , Κ , а функция v разлагается на линейные множители следующим образом: v = A0 ( x − α1 )l1 ( x − α 2 )l2 Κ . Обозначим через ε1 , ε 2 , Κ единицу, взятую с одним из двух знаков: ± , а через P – рациональную часть выражения 2l
1 ⎛ x−h x+h ⎞ ⎛ x−h x+h ⎞ ⎜ ⎜ ⎟ ⎟ + ε + ε 2 ⎜ α −h 1 α +h ⎟ ⎜ α −h ⎟ α + h 1 2 2 ⎝ 1 ⎠ ⎝ ⎠ которое можно представить в виде
⎛ x−h x+h x2 − h2 ⎜ + + 2ε1 ⎜ α1 − h α1 + h α12 − h 2 ⎝
l
2 l2
Κ,
⎞ 1⎛ x − h x+h x2 − h2 ⎟ ⎜ + + 2ε 2 ⎟ ⎜ α2 − h α2 + h α 22 − h 2 ⎠ ⎝
164
l
⎞2 ⎟ Κ, ⎟ ⎠
и через Q x 2 − h 2 – другую его часть, содержащую иррациональный x 2 − h 2 . При этом
множитель
⎫ ⎪ ⎪ ⎪ 2 l2 ⎪ x+h ⎞ ⎟ Κ + ε2 ⎪ α 2 + h ⎟⎠ ⎪ ⎬ (5.18) 2l1 ⎪ ⎛ x−h x+h ⎞ ⎛ x−h ⎟ ⎜ − ε1 P − Q x 2 − h 2 = ⎜⎜ − ⎪ α1 + h ⎟⎠ ⎜⎝ α 2 − h ⎝ α1 − h ⎪ ⎪ 2 l2 x+h ⎞ ⎪ ⎟ Κ. − ε2 ⎟ ⎪ α2 + h ⎠ ⎭ Перемножив левые и правые части этих выражений, получаем ⎛ x−h x+h ⎞ ⎟ + ε1 P + Q x 2 − h 2 = ⎜⎜ ⎟ α − α + h h 1 ⎝ 1 ⎠
(
)
⎛ x−h x+h ⎞ ⎟⎟ P − Q x − h = ⎜⎜ − h h α − α + ⎠ ⎝ 1 1 2
2
2
2
2l
2l1
2l1
⎛ x−h ⎜ ⎜ α −h + 2 ⎝
⎛ x−h x+h ⎞ ⎟⎟ ⎜⎜ − h h α − α + ⎠ ⎝ 2 2
2 l2
Κ =
2l
⎛ 2h ⎞ 1 ⎛ 2h ⎞ 2 ⎟ Κ ( x − α1 )2l1 ( x − α 2 )2l2 Κ . ⎟ ⎜ = ⎜⎜ 2 2⎟ ⎜ 2 2⎟ ⎝ α1 − h ⎠ ⎝ α 2 − h ⎠ Отсюда, замечая, что произведение (x − α1 )2l1 (x − α 2 )2l2 Κ
отличается от v 2 только постоянным множителем, заключаем, что определённые таким образом функции P и Q x 2 − h 2 удовлетворяют уравнению (5.19) P 2 − Q 2 x 2 − h 2 = C (1)v 2 .
(
)
Кроме того, легко убедиться, что функции P и Q x 2 − h 2 не P обращаются в нуль при x = α1 , α 2 , Κ и что их отношение Q x2 − h2 для этих значений x приводится соответственно к ε1 , ε 2 , Κ . Чтобы обнаружить это, заметим, что при x = α1 обращается в нуль или выражение x−h x+h − ε1 , α1 − h α1 + h 165
x−h x+h + ε1 , α1 − h α1 + h смотря по тому, будет ли ε1 = +1 или ε1 = −1 , и что для этого значения x ни одно из выражений x−h x+h x−h x+h , ,Κ , + ε2 + ε3 α2 − h α2 + h α3 − h α3 + h или выражение
x−h x+h x−h x+h , ,Κ − ε2 − ε3 α2 − h α2 + h α3 − h α3 + h не может обращаться в нуль, так как величины α1 , α 2 , Κ не равны между собой. Поэтому формулы (5.18) при x = α1 дают или P − Q x 2 − h 2 = 0 , P + Q x 2 − h 2 = конечной величине,
или P + Q x 2 − h 2 = 0 , P − Q x 2 − h 2 = конечной величине, смотря по тому, будет ли ε1 = +1 или ε1 = −1 . Итак, всегда P − ε1Q x 2 − h 2 = 0 , P + ε1Q x 2 − h 2 = конечной величине. Вполне очевидно, что эти уравнения определяют конечные P и Q x 2 − h 2 , при этом первое из них даёт величины для P = ε1 , что и требовалось доказать. 2 2 Q x −h Полученные соотношения позволяют достаточно легко найти все возможные решения уравнения X 2 − Y 2 x 2 − h 2 = C (0 ) v 2 ,
(
)
где Y x 2 − h 2 не обращается в нуль при x = α1 , α 2 , Κ . Во-первых, замечаем, что уравнение, где v = A0 ( x − α1 )l1 ( x − α 2 )l2 Κ , при x = α1 , α 2 , Κ даёт
(
)
X 2 − Y 2 x2 − h2 = 0 ,
а поэтому X = ±Y x 2 − h 2 . Так как функция Y x 2 − h 2 не обращается X в нуль при x = α1 , α 2 , Κ , то, предполагая, что отношение Y x2 − h2 при этих значениях X приводится соответственно к ε1 , ε 2 , Κ , 166
которые обозначают единицу, взятую с одним из двух знаков ± , получим все искомые решения. Установив это, покажем, что искомые решения уравнения (5.20) X 2 − Y 2 x 2 − h 2 = C (0 ) v 2 и функции P и Q , определённые формулами (5.18), связаны между собой соотношениями: 1. Выражения PX − QY x 2 − h 2 , PY − QX делятся на v 2 .
(
)
(
(
)
)
PY − QX PX − QY x 2 − h 2 Y 2. Функции X 0 = , = удовлетворяют 0 2 2 v v уравнению X 02 − Y02 x 2 − h 2 = постоянной. Из уравнений (5.19) и (5.20) находим P 2 = Q 2 x 2 − h 2 + C (1)v 2 , X 2 = Y 2 x 2 − h 2 + C (0 )v 2 . При этом произведение
(
)
(
)
[PX − QY (x
(
)][
)]
(
(
− h 2 PX + QY x 2 − h 2 = P 2 X 2 − Q 2Y 2 x 2 − h 2 приводится к виду:
[Y (x 2
2
2
)
)
][ (
)
]
(
− h 2 + C (0 )v 2 Q 2 x 2 − h 2 + C (1)v 2 − Q 2Y 2 x 2 − h 2
(
)
(
)
)
2
)
2
=
= C (0 )Q 2 x 2 − h 2 v 2 + C (1)Y 2 x 2 − h 2 v 2 + C (0 )C (1)v 4 . Отсюда следует, что произведение (5.21) PX − QY x 2 − h 2 PX + QY x 2 − h 2 делится на v 2 . С другой стороны, легко показать, что множитель PX + QY x 2 − h 2 не обращается в нуль при x = α1 , α 2 , Κ . Чтобы
[
)][
(
(
)]
(
)
убедиться в этом, заметим, что функции Q x 2 − h 2 и Y x 2 − h 2 не обращаются в нуль для этих величин x , а поэтому они остаются не может отличными от нуля, выражение PX + QY x 2 − h 2 обращаться в нуль, если только не имеем PX +1 = 0 QY x 2 − h 2 или, что то же самое, P X = −1 . 2 2 2 2 Q x −h Y x −h А этого не может быть при x = α1 , α 2 , Κ , так, как было показано, P X , приводятся к для этих величин x отношения 2 2 2 2 Q x −h Y x −h
(
(
)
167
)
ε1 , ε 2 , Κ , а поэтому их произведение становится равным ε12 , ε 22 , Κ , т.е. равным единице. Итак, выражение PX + QY x 2 − h 2 не обращается в нуль при x = α1 , α 2 , Κ , а, следовательно, оно не имеет общего множителя с
(
)
функцией v = A0 ( x − α1 )l1 ( x − α 2 )l2 Κ . Поскольку, как было показано, произведение (5.21) делится на v 2 , то из этого следует, что на v 2 делится выражение PX − QY x 2 − v 2 . Теперь покажем, что функции ⎫ PX − QY x 2 − h 2 X0 = , ⎪⎪ v2 (5.22) ⎬ PY − QX ⎪ Y0 = 2 ⎪⎭ v удовлетворяют уравнению X 02 − Y02 x 2 − h 2 = постоянной. Это легко сделать, замечая, что произведение уравнений (5.19) и (5.20) может быть представлено в виде: PX − QY x 2 − h 2 − (PY − QX )2 x 2 − h 2 = C (0 ) C (1)v 4 ,
(
(
[
)
)
)]
(
(
)
(
)
откуда разделив на v 4 , получаем
(
)
2
⎡ PX − QY x 2 − h 2 ⎤ ⎛ PY − QX ⎞ 2 2 (0 ) (1) 2 ⎟ x − h =C C , ⎢ ⎥ −⎜ 2 2 v v ⎠ ⎣ ⎦ ⎝
т.е.
(
(
)
)
X 02 − Y02 x 2 − h 2 = C (0 )C (1) , где X 0 , Y0 обозначают частные от деления функций
(
)
PX − QY x 2 − h 2 и PY − QX на v 2 . Из установленной связи между функциями P и Q , определёнными формулами (5.18), и искомыми решениями уравнения X 2 − Y 2 x 2 − h 2 = C (0 ) v 2 следует, что все эти решения можно найти из формул (5.22), принимая за X 0 и Y0 все целые функции, удовлетворяющие уравнению X 02 − Y02 x 2 − h 2 = постоянной. Учитывая то, что было показано относительно уравнения 2 F ( X ) − Φ 2 ( X ) x 2 − h 2 = L2 , применительно к рассматриваемому
(
)
(
)
(
)
168
(
)
случаю можно удовлетворить уравнению X 02 − Y02 x 2 − h 2 = постоянной при X 0 степени n только величинами X 0 , Y0 , равными: X 0 = C0 Pn , Y0 = C0Qn ,
( = (x −
2
2
2
2
2
2
2
2
2
2
2
2
2
) −h )
Pn + Qn x − h = x + x − h Pn − Qn x − h или, что то же самое,
x
( = C (x −
2
2
2
n
2
, n
) −h )
X 0 + Y0 x − h = C0 x + x − h 2
. n
2
, n
2
X 0 − Y0 x − h x . 0 Отсюда следует, что все возможные решения этого уравнения определяются формулами:
( = C (x −
2
) −h )
X 0 + Y0 x − h = C0 x + x − h 2
ν
2
2
, ν
X 0 − Y0 x − h x , 0 если показателем ν принять какое-нибудь число. Полученные результаты позволяют сделать вывод о том, что все искомые решения уравнения X 2 − Y 2 x 2 − h 2 = C (0 ) v 2 определяются следующей системой уравнений: PX − QY x 2 − h 2 PY − QX X0 = Y , = , 0 v2 v2
(
)
(
)
( = C (x −
) −h ) ,
(P − Q = (P + Q =
)( )(
ν
X 0 + Y0 x 2 − h 2 = C0 x + x 2 − h 2 , ν
2 X 0 − Y0 x 2 − h 2 x2 0 где P и Q – целые функции, определяемые формулами (5.18). Переходя, к определению величин X и Y заметим, что два первых равенства дают
) )
x2 − h2 X + Y x2 − h2 X 0 + Y0 x − h , v2 x2 − h2 X − Y x2 − h2 2 2 X 0 − Y0 x − h . v2 Последние два равенства позволяют эти формулы представить в виде: 2
2
169
( (
)( )(
(P − Q −h ) = (P + Q −h ) =
) )
x2 − h2 X + Y x2 − h2 C0 x + x , 2 v 2 2 ν x − h X − Y x2 − h2 2 2 C0 x − x . v2 Из выражения (5.19) следует, что P2 − Q2 x2 − h2 2 v = . C (1) Выполнив в предыдущих выражениях соответствующую подстановку, получаем 2
2
ν
(
(
2
(
2
C0 x + x − h C0 x − x − h
)
2
2
) =C
(1) X + Y
) =C
(1) X − Y
ν
ν
Отсюда находим
x2 − h2
P + Q x2 − h2 x2 − h2 2
P −Q x −h
( (
C X + Y x − h = (01) x + x 2 − h 2 C C X − Y x 2 − h 2 = (01) x − x 2 − h 2 C 2
2
2
, .
) (P + Q ) (P − Q ν
ν
) − h ).
x2 − h2 ,
x2
2
C0 = C1 и выполнив C (1) соответствующую выражениям (5.19) подстановку, имеем ν x−h 2 2 2 2 ⎛ + X + Y x − h = C1 x + x − h ⎜⎜ α − h 1 ⎝
Обозначив в полученных уравнениях
(
)
2l1
2l
2 ⎛ x−h x+h ⎞ ⎜ ⎟ + ε1 ⎜ α − h + ε2 α + h ⎟ Κ , 2 2 ⎝ ⎠ ν⎛ x−h X − Y x 2 − h 2 = C1 x − x 2 − h 2 ⎜⎜ − h α − ⎝ 1
x+h ⎞ ⎟ α1 + h ⎟⎠
(
)
2l
2l
1 2 x+h ⎞ ⎛ x−h x+h ⎞ ⎟ Κ. ⎟ ⎜ − ε2 − ε1 α 2 + h ⎟⎠ α1 + h ⎟⎠ ⎜⎝ α 2 − h Полученные уравнения определяют все решения уравнения X 2 − Y 2 x 2 − h 2 = C (0 ) v 2 ,
(
)
170
где Y x 2 − h 2 не обращается в нуль при x = α1 , α 2 , Κ . Величина C1 и число v – произвольные постоянные; ε1 , ε 2 , Κ обозначают единицу, взятую с одним из двух знаков: ± . Из найденных решений этого уравнения следует, что решения уравнения U 2 − W 2 x 2 − h 2 = L2 v 2 , где искомой функцией является функция U , определяются уравнениями вида: ν⎛ x−h + U + W x 2 − h 2 = C1 x + x 2 − h 2 ⎜⎜ α − h ⎝ 1
(
)
)
(
x+h ⎞ ⎟ α1 + h ⎟⎠
2l1
x+h ⎞ ⎟ − ε1 α1 + h ⎟⎠ а поэтому 1 U = C1 x + 2
2l1
x+h ⎞ ⎟ α1 + h ⎟⎠
2l1
2l
2 ⎛ x−h x+h ⎞ ⎜ ⎟ + ε1 ⎜ α − h + ε2 α + h ⎟ Κ , 2 2 ⎝ ⎠ ν x−h 2 2 2 2 ⎛ − U − W x − h = C1 x − x − h ⎜⎜ α − h ⎝ 1
(
+ ε1
⎛ x−h x+h ⎞ ⎜ ⎟ − ε ⎜ α −h 2 α +h ⎟ 2 2 ⎝ ⎠
Κ,
)
(
− ε1
2 l2
ν⎛ x−h + x 2 − h 2 ⎜⎜ − α h ⎝ 1
⎛ x−h x+h ⎞ ⎜ ⎟ + ε 2 ⎜ α −h α 2 + h ⎟⎠ 2 ⎝
1 + C1 x − x 2 − h 2 2 x+h ⎞ ⎟ α1 + h ⎟⎠
)
(
2l1
2 l2
Κ+
) ⎛⎜⎜ ν
x−h − α − h ⎝ 1
⎛ x−h x+h ⎞ ⎜ ⎟ − ε ⎜ α −h 2 α +h ⎟ 2 2 ⎝ ⎠
171
2 l2
Κ,
(
1 x + x2 − h2 W = C1 2 x2 − h2 + ε1
x+h ⎞ ⎟ α1 + h ⎟⎠
2l1
(
) ⎛⎜ ν
x−h ⎜ α −h + ⎝ 1
⎛ x−h x+h ⎞ ⎜ ⎟ + ε 2 ⎜ α −h α 2 + h ⎟⎠ 2 ⎝
1 x − x2 − h2 − C1 2 x2 − h2
2 l2
Κ−
) ⎛⎜ ν
x−h ⎜ α −h − ⎝ 1
2l1
2l
2 ⎛ x−h x+h ⎞ ⎜ ⎟ − ε1 ⎜ α − h − ε2 α + h ⎟ Κ . 2 2 ⎝ ⎠ Чтобы определить величины v и C1 , заметим, что найденное выражение U , будучи разложено по убывающим степеням x , даёт для первого члена
x+h ⎞ ⎟ α1 + h ⎟⎠
2l
1 ⎛ 1 ε2 ⎞ ε1 ⎞ ⎛ 1 v −1 ⎟ ⎟ ⎜ + + 2 C1 ⎜⎜ ⎟ ⎟ ⎜ α −h α + α − α + h h h 1 2 2 ⎠ ⎠ ⎝ ⎝ 1 а так как искомая функция U имеет вид: x n + p′x n −1 + Κ + p (n −1) x + p (n ) , то отсюда следует, что v + l1 + l2 Κ = n ,
2l
2l2
Κ x v +l1 +l2 +Κ ,
2l
⎞ 2 ⎞ 1⎛ ⎛ ε ε 1 1 v −1 1 2 ⎟ Κ = 1. ⎟ ⎜ + + 2 C1 ⎜⎜ ⎜ ⎟ α 2 + h ⎟⎠ α1 + h ⎠ ⎝ α 2 − h ⎝ α1 − h Подставив в первое из этих уравнений равенство (5.17), получаем v = n − n + l + 1 = l + 1. При этом из второго уравнения находим 1 1 . C1 = l 2l1 2l2 2 ⎛ ε1 ⎞⎟ ⎛⎜ ε 2 ⎞⎟ 1 1 ⎜ + + ⎜ α −h ⎟ ⎜ α −h ⎟ Κ α + α + h h 1 2 2 ⎝ 1 ⎠ ⎝ ⎠ Полученные соотношения позволяют выражения U и W представить в виде:
172
⎛ x−h x+h ⎞ l +1 ⎜ ⎟ + ε 1 ⎛ x + x 2 − h 2 ⎞ ⎜ α1 − h α + h ⎟ 1 ⎟ U =⎜ ⎟ ⎜ ⎟ ⎜ ε1 1 2 ⎝ ⎠ ⎜ + ⎟⎟ ⎜ α1 − h α + h 1 ⎝ ⎠ ⎛ x−h x+h ⎞ ⎜ ⎟ + ε2 α2 + h ⎟ ⎜ α2 − h ×⎜ ⎟ ε2 1 + ⎜⎜ ⎟ ⎟ α − α + h h 2 2 ⎝ ⎠ ⎛ x−h x+h ⎞ ⎜ ⎟ − ε1 α1 + h ⎟ ⎜ α1 − h ×⎜ ⎟ ε1 1 + ⎜⎜ ⎟⎟ α − α + h h 1 1 ⎝ ⎠
2l1
2l2
⎛ x − x2 − h2 Κ +⎜ ⎜ 2 ⎝
2l1
)
⎛ x−h x+h ⎞ ⎟ ⎜ + ε2 α2 + h ⎟ ⎜ α2 − h ×⎜ ⎟ ε2 1 + ⎟⎟ ⎜⎜ α − α + h h 2 2 ⎠ ⎝
⎞ ⎟ ⎟ ⎠
l +1
×
⎛ x−h x+h ⎞ ⎜ ⎟ − ε2 α2 + h ⎟ ⎜ α2 − h ⎜ ⎟ ε2 1 + ⎜⎜ ⎟⎟ α − α + h h 2 2 ⎝ ⎠
⎛ x−h x+h ⎞ l +1 ⎜ ⎟ + ε 1 α1 + h ⎟ x + x2 − h2 ⎜ α1 − h W= ⎜ ⎟ ε1 1 2l +1 x 2 − h 2 ⎜ + ⎟⎟ ⎜ α1 − h α + h 1 ⎝ ⎠
(
×
2l2
Κ −
(x −
2l
2
l +1
2
x −h 2
2l2
Κ,
2l1
2
×
)
x −h
2
l +1
×
2l
1 2 ⎛ x−h x+h ⎞ ⎛ x−h x+h ⎞ ⎜ ⎟ ⎜ ⎟ − ε1 − ε2 α1 + h ⎟ ⎜ α 2 − h α2 + h ⎟ ⎜ α1 − h ×⎜ ⎟ ⎜ ⎟ Κ. ε1 ε2 1 1 + + ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ α − α + h h α − h α + h 1 1 2 2 ⎝ ⎠ ⎝ ⎠ Чтобы найти величину L , заметим, что при x = h уравнение U 2 − W 2 x 2 − h 2 = L2 v 2 принимает вид U 2 = L2 v 2 , откуда U = ± Lv . Это U доказывает, что величина L равна значению отношения при x = h . v Но предыдущее выражение U и выражение v при x = h принимают вид:
(
)
173
⎛ ⎞ 2h ⎜ ⎟ ε 1 l +1 α1 + h ⎟ ⎛h⎞ ⎜ U = 2⎜ ⎟ ⎜ ε1 ⎟ 1 ⎝2⎠ + ⎜⎜ ⎟⎟ α − α + h h 1 1 ⎝ ⎠ =
(
2l1
⎛ ⎞ 2h ⎜ ⎟ ε2 α2 + h ⎜ ⎟ ⎜ ⎟ ε2 1 + ⎜⎜ ⎟⎟ α − α + h h 2 2 ⎝ ⎠
(α1 − h )l1 (α 2 − h )l2 Κ h l +l1 +l2 +Κ +1
2l α1 + ε1 α12 − h 2
) (α l1
2 l2
+ ε 2 α 22 − h 2
)
l2
2l2
Κ =
, Κ
v = ± A0 (α1 − h ) l1 (α 2 − h ) Κ . Учитывая при этом равенство (5.17): l1 + l 2 + Κ = n − l − 1 , получаем U hn L=± =± l1 l2 v 2 2 2 2 l 2 A0 α1 + ε1 α1 − h α2 + ε2 α2 − h Κ или, что то же самое, hn L=± . l1 l2 2 2 ⎛ h ⎞ ⎛ h ⎞ 2l A0 α1l1 α l22 Κ ⎜1 + ε1 1 − 2 ⎟ ⎜1 + ε 2 1 − 2 ⎟ Κ ⎜ α 2 ⎟⎠ α1 ⎟⎠ ⎜⎝ ⎝
(
) (
)
Но v = A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l − 2 x + An −l −1 = = A0 ( x − α1 )l1 ( x − α 2 )l2 Κ . An −l −1 . A0 При этом найденное выражение L принимает вид: hn L=± . l1 l2 2 2 ⎛ h ⎞ ⎛ h ⎞ 2l An −l −1 ⎜1 + ε1 1 − 2 ⎟ ⎜1 + ε 2 1 − 2 ⎟ Κ ⎜ α 2 ⎟⎠ α1 ⎟⎠ ⎜⎝ ⎝ Отсюда следует, что α1l1 α l22 Κ = ±
(5.23)
В выражениях искомой функции U и величины L остаются неизвестными только знаки коэффициентов ε1 , ε 2 , Κ . Покажем, что следует взять ε1 = +1, ε 2 = +1, Κ , если под радикалами
h2 h2 1− 2 , 1− 2 ,Κ α1 α2 подразумевать те из корней уравнений
174
h2 h2 2 x = 1− 2 , x = 1− 2 , Κ , α1 α2 вещественная часть, которых положительна. Из выражения, определяющего величину L , видно, что его модуль при всех возможных предположениях о знаках ε1 , ε 2 , Κ получает наименьшее значение, когда ε i = +1 (i = 1, 2, Κ ) , поскольку модули выражений 2
h2 h2 1+ 1− 2 , 1+ 1− 2 ,Κ α1 α2 соответственно выше модулей выражений h2 h2 1− 1− 2 , 1− 1− 2 ,Κ , α1 α2 так как вещественные части величин h2 h2 1− 2 , 1− 2 ,Κ α1 α2 положительны. С другой стороны, легко убедиться, что значение L , которое находим, принимая ε1 = +1, ε 2 = +1, Κ , вещественно. Действительно, как было показано, величины α1 , α 2 , Κ , если они вещественны, лежат вне пределов x = −h , x = + h . Следовательно, выражения h2 h2 1− 2 , 1− 2 ,Κ α1 α2 могут быть мнимыми только в том случае, когда α1 , α 2 , Κ мнимы. Но мнимые множители вещественной функции v = A0 ( x − α1 ) l1 ( x − α 2 ) l2Κ попарно сопряжены. Следовательно, то же самое будет и с мнимыми множителями произведения l
l
2 ⎞ 1⎛ 2 ⎞2 ⎛ h h ⎜1 + 1 − ⎟ ⎜1 + 1 − ⎟ Κ, 2 ⎟ ⎜ 2 ⎟ ⎜ α1 ⎠ ⎝ α2 ⎠ ⎝ при этом формула, определяющая L , даёт величину вещественную. Итак, показано, что при ε1 = +1, ε 2 = +1, Κ величина L будет наименьшей среди всех вещественных величин L , которые можно найти из полученной формулы. Но так как величина L означает
175
U между x = −h и x = + h и так v как, согласно решаемой задаче, требуется сделать этот предел по возможности близким нулю, то отсюда следует, что предположение ε i = +1 даёт искомое решение, если только, принимая эти значения U в промежутке ε1 , ε 2 , Κ в полученных формулах, найдём, что дробь v от x = −h до x = + h остаётся действительно заключённой между − L и + L . В этом можно легко убедиться. При ε1 = +1, ε 2 = +1, Κ найденные выражения U и W можно преобразовать к виду: предел значений искомой функции
⎛ x + x2 − h2 U =⎜ ⎜ 2 ⎝
⎞ ⎟ ⎟ ⎠
l +1
×
⎛ α x − h2 h2 ⎜ 1 + 1 − 2 x2 − h2 ⎜ α1 α1 ×⎜ h2 ⎜ 1+ 1− 2 ⎜ α1 ⎝ ⎛ x − x2 − h2 +⎜ ⎜ 2 ⎝
⎞ ⎟ ⎟ ⎠
l
⎞ 1 ⎛ α x − h2 h2 ⎟ ⎜ 2 + 1 − 2 x2 − h2 ⎟ ⎜ α2 α2 ⎟ ⎜ h2 ⎟ ⎜ 1+ 1− 2 ⎟ ⎜ α2 ⎠ ⎝
l
⎞2 ⎟ ⎟ ⎟ Κ + ⎟ ⎟ ⎠
l +1
(5.24)
×
2 ⎛ α x − h2 h 1 ⎜ − 1 − 2 x2 − h2 ⎜ α1 α1 ×⎜ h2 ⎜ 1+ 1− 2 ⎜ α1 ⎝
l
2 ⎞ 1 ⎛ α x − h2 h 2 ⎟ ⎜ − 1 − 2 x2 − h2 ⎟ ⎜ α2 α2 ⎟ ⎜ h2 ⎟ ⎜ 1+ 1− 2 ⎟ ⎜ α2 ⎠ ⎝
176
l
⎞2 ⎟ ⎟ ⎟ Κ, ⎟ ⎟ ⎠
W=
(x + 2
2
x −h
l +1
2
2
)
x −h
l +1
×
2
⎛ α x − h2 h2 ⎜ 1 + 1 − 2 x2 − h2 ⎜ α1 α1 ×⎜ h2 ⎜ 1+ 1− 2 ⎜ α1 ⎝
(x − − 2
x2 − h2
)
2
2
l +1
x −h
l
⎞ 1 ⎛ α x − h2 h2 ⎟ ⎜ 2 + 1 − 2 x2 − h2 ⎟ ⎜ α2 α2 ⎟ ⎜ h2 ⎟ ⎜ 1+ 1− 2 ⎟ ⎜ α2 ⎠ ⎝
l
⎞2 ⎟ ⎟ ⎟ Κ − ⎟ ⎟ ⎠
l +1
(5.25)
× l
l
2 2 ⎛ α x − h2 ⎞ 1 ⎛ α x − h2 ⎞2 h h 2 2 2 2 ⎜ 1 − 1− 2 x − h ⎟ ⎜ 2 − 1− 2 x − h ⎟ ⎜ α1 ⎟ ⎜ α2 ⎟ α1 α2 ×⎜ ⎟ ⎜ ⎟ Κ. 2 2 h h ⎜ ⎟ ⎜ ⎟ + − + − 1 1 1 1 2 2 ⎜ ⎟ ⎜ ⎟ α1 α2 ⎝ ⎠ ⎝ ⎠ Аналогично тому, что было показано относительно
h2 1− 2 , α1
h2 1 − 2 , Κ , множители произведений α2 l
l
2 ⎞1⎛ 2 ⎞ 2 ⎛ h h ⎟ Κ, ⎜1 + 1 − ⎟ ⎜1 + 1 − 2 ⎟ ⎜ 2 ⎟ ⎜ α1 ⎠ ⎝ α2 ⎠ ⎝ l
l
2 2 ⎛ α x − h2 ⎞ 1 ⎛ α x − h2 ⎞2 h h 2 2 2 2 2 1 ⎜ + 1− 2 x − h ⎟ ⎜ + 1− 2 x − h ⎟ Κ , ⎜ α1 ⎟ ⎜ ⎟ α1 α2 ⎝ ⎠ ⎝ α2 ⎠ l
l
1 2 2 2 2 ⎛ α x − h2 ⎞ ⎛ ⎞ x h α − h h ⎜ 1 − 1− 2 x2 − h2 ⎟ ⎜ 2 − 1− 2 x2 − h2 ⎟ Κ ⎜ α1 ⎟ ⎜ α2 ⎟ α1 α2 ⎝ ⎠ ⎝ ⎠ или вещественные, или мнимые, сопряжённые по два, при этом значения U и W необходимо вещественны. Но пока функции U , W и величина L вещественны, уравнение U 2 − W 2 x 2 − h 2 = L2 v 2
(
)
предполагает, что в промежутке от x = −h до x = + h функция U 2 не U превосходит L2 v 2 , а, следовательно, дробь остаётся заключённой v между − L и + L , что и требовалось доказать. 177
Итак, при функции U , определённой формулой (5.24), дробь
U v
будет такой, которая из всех дробей вида x n + p′x n −1 + Κ + p (n −1) x + p (n ) A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l −1 с одинаковым знаменателем A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l −1 наименее уклоняется от нуля между x = −h и x = + h . Для определения предела значений этой дроби в промежутке между x = −h и x = + h примем в формуле (5.23) ε1 = 1, ε 2 = 1, Κ . При этом получаем hn L=± . (5.26) l l 2 ⎞1⎛ 2 ⎞2 ⎛ h h 2l An −l −1 ⎜1 + 1 − 2 ⎟ ⎜1 + 1 − 2 ⎟ Κ ⎜ α 2 ⎟⎠ α1 ⎟⎠ ⎜⎝ ⎝
Так как все другие дроби такого вида в промежутке между x = −h и x = + h будут уклоняться от нуля более чем рассматриваемая, то их величина при изменении x в промежутке [− h, + h] не может оставаться ниже найденной величины L . Рассмотрим теперь ту выгоду, какую можно извлечь для алгебры из полученных результатов исследования дробей вида: x n + p′x n −1 + Κ + p (n −1) x + p (n ) . A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l −1 вещественны, то величины, равные Если α1 , α 2 , Κ
h2 h2 1 + 1 − 2 , 1 + 1 − 2 , Κ , как было показано, также вещественны и α1 α2 их значения, очевидно, ниже 2. С другой стороны, если α1 , α 2 , Κ величины мнимые, а ρ – низший предел их модулей, то, очевидно, что модули величин, равных h2 h2 1+ 1− 2 , 1+ 1− 2 ,Κ , α1 α2
178
h2 1 + 1 + 2 , и, следовательно, ρ
не превосходят величины, равной
h2 h h остаются ниже 2 + , поскольку 1 + 2 < 1 + . Поэтому, ρ ρ ρ предполагая, что уравнение A0 x n −l −1 + A1 x n −l −2 + Κ + An −l −1 = A0 ( x − α1 )l1 ( x − α 2 )l2 Κ = 0 , имеет µ мнимых корней и n − l − µ − 1 вещественных корней, находим, что произведение l
l
2 ⎞ 1⎛ 2 ⎞2 ⎛ h h ⎜1 + 1 − ⎟ ⎜1 + 1 − ⎟ Κ 2 ⎟ ⎜ 2 ⎟ ⎜ α1 ⎠ ⎝ α2 ⎠ ⎝
менее 2
µ
n −l −µ −1 ⎛
µ
⎛ 2ρ + h ⎞ h⎞ ⎜ 2 + ⎟ = 2 n−l −1 ⎜ ⎟ . ρ⎠ ⎝ ⎝ 2ρ ⎠
При этом n
hn l
µ
⎛ h ⎞ ⎛ 2ρ ⎞ > 2⎜ ⎟ ⎜ ⎟ . ⎝ 2 ⎠ ⎝ 2ρ + h ⎠
l
1 2 ⎛ h 2 ⎞⎟ ⎛⎜ h 2 ⎞⎟ l⎜ 2 1+ 1− 2 1+ 1− 2 Κ ⎜ ⎟ ⎜ α α 2 ⎟⎠ 1 ⎠ ⎝ ⎝ Откуда, в силу того, что hn L=± l 2 ⎞ 1⎛ ⎛ h h2 l ⎜ ⎟ ⎜ 2 An −l −1 1 + 1 − 2 1+ 1− 2 ⎜ ⎟ ⎜ α α2 1 ⎠ ⎝ ⎝
, l ⎞2 ⎟ Κ ⎟ ⎠ приходим, в случае An −l −1 = 1 , к следующей теореме. Теорема 5 Если знаменатель дроби x n + p′x n −1 + Κ + p (n −1) x + p (n ) A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l − 2 x + 1 не обращается в нуль между x = −h и x = + h , то числовая величина этой дроби от x = −h до x = + h не может оставаться ниже n
µ
⎛ h ⎞ ⎛ 2ρ ⎞ 2⎜ ⎟ ⎜ ⎟ , где µ – число мнимых корней уравнения ⎝ 2 ⎠ ⎝ 2ρ + h ⎠ A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l − 2 x + 1 = 0 и ρ – низший предел их модулей. 179
Если функция A0 x n −l −1 + A1 x n −l − 2 + Κ + 1 обращается в нуль между x = −h и x = + h , то в этих пределах дробь x n + p′x n−1 + Κ + p (n −1) x + p (n ) A0 x n−l −1 + A1 x n−l −2 + Κ + An−l −2 x + 1 не может оставаться конечной, если только её числитель не обращается в нуль одновременно со знаменателем. Поэтому только что доказанная теорема влечёт за собой следующую теорему. Теорема 6 В пределах x = −h и x = + h , где дробь x n + p′x n−1 + Κ + p (n −1) x + p (n ) A0 x n−l −1 + A1 x n−l −2 + Κ + An−l −2 x + 1 0 не обращается в отношение , её численное значение не может 0 µ n ⎛ h ⎞ ⎛ 2ρ ⎞ оставаться ниже 2⎜ ⎟ ⎜ ⎟ , где µ – число мнимых корней ⎝ 2 ⎠ ⎝ 2ρ + h ⎠ уравнения A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l − 2 x + 1 = 0 , а ρ – низший предел их модулей. В случае, когда знаменатель A0 x n −l −1 + A1 x n −l − 2 + Κ + An −l − 2 x + 1 содержит только вещественные множители, число µ равно нулю и предыдущая теорема преобразуется в следующую теорему. Теорема 7 Если дробь x n + p′x n−1 + Κ + p (n −1) x + p (n ) , A0 x n−l −1 + A1 x n−l −2 + Κ + An−l −2 x + 1 знаменатель, которой составлен из вещественных линейных 0 множителей, не обращается в между x = −h и x = + h , её численное 0 n ⎛h⎞ значение в этих пределах не может оставаться ниже 2⎜ ⎟ . ⎝2⎠ На основании этих теорем можно доказать много очень простых предложений относительно решения уравнений. Рассмотрим применение дробей Чебышева для расчёта параметров однокомпонентной оптической системы переменного
180
увеличения с дискретной компенсацией расфокусировки изображения. Любую оптическую систему, оптическая сила которой ϕ ≠ 0 , будем называть однокомпонентной, если при всех возможных подвижках она перемещается как единое целое. В этом случае при равном нулю расстоянии между главными плоскостями расстояние между осевой точкой в плоскости предмета и её изображением равно ( ( 1 − V )2 f ′ − z )2 ( f ′ + z ′)2 =− = L=−f′ , V z z′ где f ′ – фокусное расстояние оптической системы ( f ′ = const ) ; z ( z ′) – расстояние от переднего (заднего) фокуса оптической системы до осевой точки предмета (изображения); V – поперечное увеличение изображения, образованного оптической системой. Отсюда следует, что при постоянном фокусном расстоянии оптической системы величины поперечного увеличения изображения V определяются величинами взаимосвязанных расстояний L, z и z′ . При продольном смещении оптического компонента, плоскости предмета и плоскости изображения на расстояния ∆ 0 = k0 m , ∆ z = k z m и ∆′z = k z′ m соответственно, где m – величина алгебраическая, изменяется величина поперечного увеличения изображения, при этом расфокусировка изображения определяется выражением вида: m 2 + am δL = , b0 m + b1 k z′ − k0 − V02 (k z − k0 ) где a = , V0 (k z′ − k0 )(k z − k0 ) 1 b0 = − , k z′ − k0 1 . b1 = − V0 (k z′ − k0 )(k z − k 0 ) Здесь V0 – значение поперечного увеличения изображения при исходном (начальном) положении оптической системы. Для некоторого выбранного положения плоскости изображения, смещённой относительно номинального положения на расстояние ∆′ , имеем m 2 + am + a2 ′ ′ δS = δL − ∆ = , (5.27) b0 m + b1 181
где a1 = a − b0 ∆′ , a2 = −b1∆′ . Из сопоставления полученного соотношения с выражением (5.13) следует, что для расчёта параметров однокомпонентной оптической системы переменного увеличения при линейной взаимосвязи перемещений названных элементов схемы удобно воспользоваться дробями Чебышева вида (5.13). Сопоставляя выражения (5.27) и (5.13), находим, что для однокомпонентной схемы n = 2 , l = 0 , так как m n −l −1 = m 2 −l −1 = m1−l = m . При этом выражение (5.24) принимает вид: h2 1− 2 2 α1 α1m h . − h2 U = m2 − 2 2 2 α1 h h 1+ 1− 2 1+ 1− 2 α1 α1 Выражение (5.13) в рассматриваемом случае принимает вид: m 2 + a1m + a2 δS ′ = , (5.28) b0 (m − α1 )l1 h2 где a1 = − 2 α1
α1
, a2 = − h 2
h2 1− 2 α1
, l1 = 1 . h2 h2 1+ 1− 2 1+ 1− 2 α1 α1 Из сопоставления выражений (5.27) и (5.28) находим, что h2 α1 a1 = a − b0 ∆′ = − 2 , (5.29) 2 α1 h 1+ 1− 2 α1 a2 = −b0 ∆′ = −h 2
h2 1− 2 α1 1+ 1−
2
h α12
,
(5.30)
b1 . (5.31) b0 Кроме того, выражение (5.26) в рассматриваемом случае можно написать в виде: α1 = −
182
δL0 = ±
h2
. (5.32) 2 ⎞ ⎛ h b1 ⎜1 + 1 − 2 ⎟ ⎜ α1 ⎟⎠ ⎝ Будем считать, что переменный параметр m изменяется в интервале mн = − h ≤ m ≤ mк = h . При этом перепад значений увеличения определяется отношением V (mк ) µ= . (5.33) V (mн ) Отсюда находим h = h(µ ) . При заданных величинах µ и δL0 соотношения (5.31)–(5.32) и позволяют определить параметры однокомпонентной схемы k k′ оптической системы переменного увеличения: V0 , q = z , q′ = z , h и k0 k0 ∆′ .
183
6. Введение в теорию поля Говорят, что в пространстве задано поле некоторой величины, если в каждой точке пространства (или в некоторой его части) определено значение этой величины. Поле может быть скалярным или векторным в зависимости от характера исследуемой величины. Например, плотность заряда в различных точках изолированного наэлектризованного тела представляет собой скалярную функцию точки. Электрические заряды создают скалярное поле плотности и векторное поле электрических сил. В математической физике часто рассматриваются величины, которые зависят не только от положения точки, но и ещё от какойлибо другой переменной, в большинстве случаев от времени. Отсюда следует, что поле может быть стационарным (установившимся), если оно не меняется с течением времени в каждой точке пространства, или нестационарным (неустановившимся), если такое изменение имеет место. Итак, поле скалярной величины f можно, например, записать в виде f = f ( x, y, z, t ) , где t – время. Однако, время, как правило, рассматривают не как равноправную четвёртую координату, а скорее как некоторый дополнительный параметр в трёхмерном пространстве, при этом поле рассматривается в любой, но фиксированный момент времени. Таким образом, с формальной точки зрения стационарное поле – это просто функция трёх переменных x, y, z . Однако, надо иметь в виду, что координаты в пространстве можно ввести по-разному. При этом выражение f(x, y, z) будет изменяться, но в любой данной точке M значение f , конечно, не зависит от выбора системы координат. Поэтому часто говорят, что f представляет собой "функцию точки" f = (M ) , так как задание точки M полностью определяет соответствующее значение f , т.е. значение величины f в точке M . Функция точки при рассмотрении поля является первичной по отношению к функции координат, так как поле имеет смысл и может быть исследовано без всяких систем координат. Пусть S – замкнутая поверхность, ограничивающая объём V ; M – переменная точка в объёме V (или на поверхности S ); d S – вектор, длина которого равна площади элемента поверхности d S , 184
окружающей точку M , а направление совпадает с внешней нормалью к поверхности S . Пусть, далее, f – скалярная, а А – векторная функция точки M . Предполагается, что они непрерывны вместе со своими первыми производными в любой точке объёма V и его ограничивающей поверхности S . Наиболее важные поля характеризуют следующие три функции: 1. Градиент – векторная функция, аргументом которой является скалярная функция f точки: ∂f ∂f ∂f . (6.1) gradf = i + j +k ∂x ∂y ∂z Выберем в пространстве некоторую точку M . Рассмотрим изменение стационарного скалярного поля f = f(x, y, z) при перемещении из точки M в направлении, определяемом вектором r , на величину d r . Используя правило скалярного умножения двух векторов, получаем ∂f ∂f ∂f gradfd r = dx + dy + dz = df . ∂y dz ∂x Поверхности уровня определяются равенством f ( x, y, z ) = const . Уравнение поверхности уровня, проходящей через точку ( x0 , y0 , z0 ) , имеет вид f ( x, y, z ) = f ( x0 , y0 , z0 ) . Оно геометрически определяет одну поверхность, если функция f ( x,y,z ) однозначна, что почти всегда и встречается в физике. Так как при любом перемещении d r точки M по этой поверхности df = 0 , то d r и gradf перпендикулярны друг другу, а, следовательно, вектор gradf в каждой точке нормален к рассматриваемой поверхности уровня, проходящей через эту точку. Вектор gradf полностью описывает поведение функции f в окрестности рассматриваемой точки M . В частности, самое быстрое изменение f происходит при перемещении по нормали к поверхности уровня, величина и направление которого определяются вектором gradf . 2. Дивергенция – скалярная функция, аргументом которой является векторная функция A точки: ∂A ∂Ay ∂Az div A = x + + . (6.2) ∂x ∂y ∂z Поток вектора A через площадку dS равен 185
dQ = A ⋅ n dS , где n – единичный вектор внешней нормали к площадке dS . При этом поток Q вектора A через конечную поверхность S равен Q = ∫ A ⋅ n dS . S
Величину Q можно истолковать как количество векторных линий, начинающихся внутри объёма V , ограниченного поверхностью S . Если Q > 0 , то говорят, что в V имеется источник векторных линий, а Q называется обильностью этого источника. Пусть векторные линии возникают по всему пространству. При этом объёмная плотность источника в любой точке M пространства равна A ⋅ dS ∫ ∆Q = lim ∆S lim . (6.3) ∆V → М ∆V ∆V ← М ∆V Объёмная плотность источника называется также дивергенцией (по-русски, расходимостью) векторного поля A и обозначается через div A . Таким образом, можно сказать, что дивергенция векторного поля – это количество векторных линий, начинающихся в бесконечно малом объёме (или, что то же самое, поток поля A через поверхность этого объёма), в расчёте на единицу этого объёма. Предел, определяемый формулой (6.3), представляет собой объёмную производную векторного поля. Поэтому формулу (6.3) можно переписать в виде dQ div A = , dV т.е. (6.4) dQ = div A dV . Но dQ = A ⋅ d S . Производя суммирование, получаем формулу Остроградского-Гаусса ∫ A ⋅ dS = ∫ div A dV , (S )
(V )
где V – конечный объём; S – его поверхность.
186
z
nI
dz
(dV )
dx dy
O
y
nII
x
Рис.6.1. Определение дивергенции поля в декартовой системе координат
Определение дивергенции (6.3) было дано в инвариантной форме, не зависящей от выбора системы координат. Представляет интерес также вывести формулу для вычисления дивергенции с помощью декартовой системы координат x, y, z . Для этого воспользуемся тем, что в формуле (6.4) форма элементарного объёма dV несущественна, и выберем в качестве этого объёма бесконечно малый прямоугольный параллелепипед с рёбрами, параллельными осям координат, как показано на рис.6.1. Тогда поток dQ вектора A через поверхность параллелепипеда (т.е. числитель дроби, стоящей в первой формуле (6.4)) можно представить в виде суммы шести слагаемых, соответствующих шести граням параллелепипеда. Рассмотрим сумму двух из этих слагаемых, отвечающих задней и передней граням, которые мы обозначим соответственно цифрами I и II . Тогда ( An )II = ( Ax )II , ( An )I = −( Ax )I , а указанную сумму можно записать в виде ∫ An dσ I + ∫ An dσ II = − ∫ ( Ax )I dσ + ∫ ( Ax )II dσ = ∫ [( Ax )II − ( Ax )I ]dσ .
(
) (
)
Подинтегральная функция с точностью до малых высшего ∂A порядка равна ∂ x Ax = x dx ; это "частный дифференциал" от Ax по ∂x x , получающийся из-за того, что точки передней грани отличаются от соответствующих точек задней грани значением координаты x . Поэтому весь интеграл, с точностью до членов высшего порядка малости, равен ∂A ∂Ax dx ∫ dσ = x dxdydz . ∂x ∂x 187
Проводя аналогичные вычисления для двух других пар граней, получим весь элементарный поток ⎛ ∂A ∂Ay ∂Az ⎞ ⎟⎟dxdydz . + dθ = ⎜⎜ x + ∂y ∂z ⎠ ⎝ ∂x Но так как dV = dxdydz , то в силу первой формулы (6.4) окончательно получаем формулу (6.2): ∂A ∂Ay ∂Az . div A = x + + ∂x ∂y ∂z 3. Вихрь – векторная функция, аргументом которой является векторная функция A точки ⎛ ∂A ∂Ay ⎞ ⎛ ∂Ax ∂Az ⎞ ⎛ ∂Ay ∂Ax ⎞ ⎟⎟ + j ⎜⎜ ⎟⎟ . ⎟⎟ + k ⎜⎜ (6.5) − rot A = i ⎜⎜ z − − ∂ ∂ ∂ ∂ y z z x x y ∂ ∂ ⎠ ⎝ ⎝ ⎠ ⎝ ⎠ Пусть в пространстве, в котором задано поле вектора A , выбрана ориентированная линия (L ) , т.е. линия, для которой указано направление её обхода. Криволинейным называется интеграл векторной функции A по линии (L ) : ∫ А ⋅ d r , где вектор d r (L)
совпадает с касательной в рассматриваемой точке в направлении обхода. Если линия (L ) замкнутая, то линейный интеграл Г = ∫ A ⋅ d r = ∫ (Ax d x + Ay d y + Az d z ) (6.6) (L)
(L)
называется циркуляцией вектора A по линии (L ) . Циркуляция обладает следующим важным свойством аддитивности (сложения). Допустим, что некоторая ориентированная незамкнутая поверхность (S ) разбита на несколько частей, например, на три части: ( S1 ) , ( S 2 ) и ( S3 ) , как показано на рис.6.2. Внешняя сторона
(S2) (S) (S3)
(S1) Рис.6.2. Свойство аддитивности циркуляции вектора
Обозначив контуры (S ) этих частей в соответствии с ориентацией (S ) (по правилу правого винта) через (L) , ( L1 ) , ( L2 ) и 188
( L3 ) , а соответствующие циркуляции – через Г , Г1 , Г 2 и Г 3 , получаем Г = Г1 + Г 2 + Г 3 . Свойство аддитивности даёт возможность говорить о том, что циркуляция (6.6) "порождается" на поверхности (S ) , а тем самым и о "плотности порождения циркуляции", т.е. о циркуляции, порождаемой бесконечно малым куском поверхности в расчёте на единицу площади этого куска. При этом общая циркуляция равна Г = ∫ dГ . (S )
Опишем из некоторой точки векторного поля A , как из центра, окружность С малого радиуса r , лежащую в плоскости, перпендикулярной любому фиксированному направлению n . При этом поверхностная плотность порождения циркуляции равна ∫ A ⋅dr dГ (C ) = lim = n ⋅ rot A . (6.7) dS r →0 πr 2 y
(3) (4)
(dS )
y O
(2)
(1) x
x
Рис.6.3. Определение плотности порождения циркуляции
Отсюда следует, что направление вектора rotA в пространстве определяется как направление нормали к такой площадке, для которой поверхностная плотность порождения циркуляции максимальна. Чтобы подсчитать указанную плотность порождения циркуляции, вычислим циркуляцию вектора A по бесконечно малому контуру. Сначала допустим, что этот контур лежит в плоскости z = const . Кроме того, так как при подсчёте плотности форма контура несущественна, то возьмём за этот контур прямоугольник со сторонами, параллельными осям координат, как показано на рис.6.3, 189
где размер этого прямоугольника преувеличен. По формуле (6.6) соответствующая циркуляция равна dГ = ∫ Ax d x + ∫ Ay d y + ∫ Ax d x + ∫ Ay d y (6.8) (1)
(2 )
(3 )
(4 )
(цифрами обозначены последовательные стороны прямоугольника, как показано на рис.6.3), так как на каждой стороне изменяется только одна переменная, а остальные дифференциалы равны нулю. Учитывая направление обхода указанных сторон, из (6.8) получаем dГ = ( Ax )1 d x + (Ay )2 d y − ( Ax )3 d x − (Ay )4 d y = (6.9) = (Ay )2 − (Ay )4 d y − [( Ax )3 − ( Ax )1 ]d x ,
[
]
где цифровой индекс указывает, на какой стороне берётся соответствующая проекция. Однако, с точностью до малых высшего порядка (Ay )2 − (Ay )4 = ∂∂Axy d x, ( Ax )3 − ( Ax )1 = ∂ Ax d y, ∂y а потому формула (6.9) даёт ∂ Ay ⎛ ∂ Ay ∂ Ax ⎞ ∂A ⎟⎟dS . dГ = d xd y − x d yd x = ⎜⎜ − x y ∂x ∂y ∂ ∂ ⎠ ⎝ Итак, для бесконечно малого замкнутого контура dГ xy ∂ Ay ∂ Ax − (6.10) = ∂x dS xy ∂y (индексы в левой части указывают на то, что контур параллелен плоскости xy ). При этом имеется в виду, что контур обходится в положительном направлении; в противном случае надо поменять знак или, что то же, считать dS xy < 0 . Декартовы координаты в пространстве полностью равноправны, а поэтому из любой формулы, содержащей эти координаты, можно получить другую верную формулу, заменив x, y, z соответственно на y, z , x или на z , x, y (такая перестановка называется "циклической" или "круговой"; при ней правая система координат остаётся правой). Поэтому из (6.10) вытекает
190
dГ yz dS yz
=
∂ Az ∂ Ay − ; ∂z dy
(6.11)
dГ zx ∂ Ax ∂ Az = − . ∂z ∂x dS zx Рассмотрим теперь бесконечно малую ориентированную площадку (dS ) , произвольно наклонённую относительно осей координат. Поверхность, замкнутая или незамкнутая, называется ориентированной, если указано, какая её сторона считается наружной, а какая – внутренней. Для подсчёта циркуляции эту площадку удобнее всего взять в форме треугольника, как показано на рис.6.4. (dS ) z 3 n 4 2
1
O
y
x
Рис.6.4. Определение ротора поля в декартовой системе координат
Построим на этом треугольнике тетраэдр с гранями, параллельными координатным плоскостям, и обозначим вершины этого тетраэдра цифрами, как показано на рис.6.4. Легко убедиться, что dГ = dГ123 = dГ124 + dГ 234 + dГ 431 , так как в правой части интегралы по отрезкам 41, 42 и 43 взаимно уничтожаются. Но правую часть можно подсчитать по формулам (6.10) и (6.11): ⎛ ∂ Ay ∂ Ax ⎞ ⎛ ∂A ∂A ⎞ ⎟⎟dS124 + ⎜⎜ z − y ⎟⎟dS 234 + dГ = ⎜⎜ − ∂y ⎠ ∂z ⎠ ⎝ ∂x ⎝ ∂y (6.12) ⎛ ∂A ∂A ⎞ + ⎜⎜ x − z ⎟⎟dS 431 , ∂x ⎠ ⎝ ∂z где цифровые индексы показывают, о каких площадях идёт речь. Пусть n123 = n – орт нормали к поверхности dS123 = dS ; n234 = i – орт нормали к грани dS 234 ; n431 = j – орт нормали к грани dS 431 ; n124 = k – орт нормали к грани dS124 . 191
Из рис.6.4 следует, что сумма проекций граней на плоскость, перпендикулярную нормали к поверхности (dS ) , равна поверхности (dS ) , т.е. dS = n ⋅ n123 dS123 = n (i dS 234 + jdS 431 + k dS124 ) . Отсюда dS = n dS = dS 234 + dS 431 + dS124 . Удобно ввести вектор, называемый ротором (вихрем или вихревым вектором) поля A и обозначаемый rotA , определяемый формулой ⎛ ∂ A ∂ Ay ⎞ ⎛ ∂ Ax ∂ Az ⎞ ⎛ ∂ Ay ∂ Ax ⎞ ⎟⎟ i + ⎜⎜ ⎟⎟k . ⎟⎟ j + ⎜⎜ (6.13) − − rotA = ⎜⎜ z − ∂ ∂ ∂ ∂ ∂ ∂ y z z x x y ⎠ ⎝ ⎝ ⎠ ⎝ ⎠ При этом, в соответствии с формулой (6.12) dГ = (rotA ) ⋅ n dS . Тогда dГ = (rotA ) ⋅ n = rotn A . (6.14) dS В этом выражении индекс n указывает на то, что берётся проекция ротора на нормаль n . Эта формула даёт циркуляцию по бесконечно малому контуру, отнесённую к единице площади, охватываемой этим контуром. Отсюда следует, что направление вектора rotA в пространстве определяется как направление нормали к dГ максимально. Это определение такой площадке, для которой dS сходно с определением направления градиента скаляра f как df направления линии (l ) , в котором достигает максимума . dl Из выражения (6.7) следует dГ = n ⋅ rotA dS = rotA ⋅ dS . Учитывая (6.6), получаем (6.15) ∫ A ⋅ dr = ∫ rotA ⋅ d S . (L )
(S )
Эта важная формула называется формулой Стокса. Пусть внешнее воздействие на какой-либо объект описывается функцией f , а результат этого воздействия – функцией F , т.е. получается, что каждая функция f по какому-то определённому закону преобразуется в новую функцию F . Такой закон преобразования функций-прообразов в функции-образы в математике 192
называется оператором. Обозначим, оператор перехода от функции внешнего воздействия f к функции – "отклику" F через L , так что F = Lf . Предположим, что действует закон линейности или, как говорят, принцип суперпозиции: при сложении внешних воздействий их результаты также складываются. Этот закон часто применятся, когда внешние воздействия не слишком велики. Его можно записать в форме F = L( f1 + f 2 ) = Lf1 + Lf 2 = F1 + F2 . Оператор, обладающий таким свойством, называется линейным. Из свойства линейности следует L(cf ) = cLf , где c = const . Английский математик У.Гамильтон заметил, что рассмотренные нами три операции можно более просто записать, если ввести символ ∂ ∂ ∂ +k ∇=i +j , ∂y ∂z ∂x называемый "набла" (это слово по-гречески означает "арфа", т.е. музыкальный инструмент, вид которого напоминает значок ∇ ). Отдельно взятый, этот символ представляет собой знак действия, т.е. "оператор", причём векторно-дифференциальный, сохраняющий при своём применении, как черты вектора, так и черты оператора дифференцирования. "Умножение" (т.е. действие) оператора Гамильтона на скаляр (точнее, на скалярное поле) f и на вектор A производится по следующим естественным правилам ⎛ ∂ ∂f ∂f ∂f ∂ ∂ ⎞ +j +k = gradf , ∇f = ⎜⎜ i +j + k ⎟⎟ f = i ∂x ∂y ∂z ∂y ∂z ⎠ ⎝ ∂x ⎛ ∂ ∂A ∂Ay ∂Az ∂ ∂ ⎞ + = div A , ∇ А = ⎜⎜ i +j + k ⎟⎟(i Ax + jAy + k Az ) = x + ∂ ∂ ∂ x y z ∂ ∂ ∂ x y z ⎠ ⎝ i ∂ ∇× A = ∂x Ax
j ∂ ∂y Ay
k ⎛ ∂A ∂Ay ⎞ ∂ ⎟+ = i ⎜⎜ z − ∂ z ⎝ ∂ y ∂ z ⎟⎠ Az
⎛ ∂Ay ∂Ax ⎞ ⎟⎟ = rot A . + k ⎜⎜ − x y ∂ ∂ ⎝ ⎠
193
⎛ ∂A ∂A ⎞ j ⎜⎜ x − z ⎟⎟ + ⎝ ∂z ∂x ⎠
После применения оператора набла к полю получается новое поле, к которому можно вновь применить этот оператор. Так, например, ⎛ ∂ ∂ ∂ ⎞⎛ ∂A ∂A ∂A ⎞ ⎟⎟ = +j + k ⎟⎟⎜⎜ i grad div A = ∇ ⋅ (∇A ) = ⎜⎜ i +j +k ∂ ∂ ∂ x y z x y z ∂ ∂ ∂ ⎝ ⎠⎝ ⎠ ⎛ ∂ ∂ ∂ ⎞⎛ ∂A ∂Ay ∂Az ⎞ ⎟= = ⎜⎜ i +j + k ⎟⎟⎜⎜ x + + ∂y ∂ z ⎠⎝ ∂ x ∂ y ∂ z ⎟⎠ ⎝ ∂x ⎛ ∂ 2 Ax ∂ 2 Ay ∂ 2 Az ⎞ ⎟+ = i⎜ 2 + + ⎟ ⎜ ∂x x y x z ∂ ∂ ∂ ∂ ⎠ ⎝
⎛ ∂ 2 Ax ∂Ay2 ∂ 2 Az ⎞ ⎟+ j⎜ + + ⎜ ∂ x∂ y ∂ y 2 ∂ y∂ z ⎟ ⎠ ⎝
⎛ ∂ 2 Ax ∂ 2 Ay ∂ 2 Az ⎞ ⎟, + k⎜ + + ⎜ ∂ x∂ z ∂ y∂ z ∂ z 2 ⎟ ⎠ ⎝ ⎛ ∂ ∂ ∂⎞ div gradf = ∇ ⋅ ∇f = ⎜⎜ i + j + k ⎟⎟ × ∂y ∂z ⎠ ⎝ ∂x
⎛ ∂f ∂f ∂f ⎞ ∂ 2 f ∂ 2 f ∂ 2 f × ⎜⎜ i + j + k ⎟⎟ = 2 + 2 + 2 = ∆f , ∂y ∂z ⎠ ∂x ∂y ∂z ⎝ ∂x где ∆ – оператор Лапласа, равный ∂2 ∂2 ∂2 2 ∆ = ∇ ⋅∇ = ∇ = 2 + 2 + 2 . ∂x ∂y ∂z
i ∂ rot gradf = ∇ × (∇f ) = ∂x ∂f ∂x
j ∂ ∂y ∂f ∂y
k ∂ = ∂z ∂f ∂z
⎛ ∂2 f ∂2 f ⎞ ⎛ ∂2 f ∂2 f ⎞ ⎛ ∂2 f ∂2 f ⎞ ⎟ − j⎜ ⎟ ⎜ ⎟ = i ⎜⎜ − ⎟ ⎜ ∂ x∂ z − ∂ x∂ z ⎟ + k ⎜ ∂ x∂ y − ∂ x∂ y ⎟ = 0 , y z y z ∂ ∂ ∂ ∂ ⎠ ⎝ ⎝ ⎠ ⎝ ⎠ ∂ ⎛ ∂ A ∂ Ay ⎞ ∂ ⎛ ∂ Ax ∂ Az ⎞ ⎟+ ⎜ ⎟+ div rotA = ⎜⎜ z − − ∂x ⎝ ∂ y ∂ z ⎟⎠ ∂ y ⎜⎝ ∂ z ∂ x ⎟⎠ ∂ ⎛ ∂ Ay ∂ Ax ⎞ ⎟ = 0, + ⎜⎜ − ∂z ⎝ ∂x ∂ y ⎟⎠
194
(6.16)
(6.17)
(6.18)
(6.19)
rot rotA = ∇ × (∇ × A ) = ∇(∇ ⋅ A ) − (∇ ⋅ ∇ ) A = grad divA − ∆A = ⎛ ∂ 2 Ax ∂ 2 Ay ∂ 2 Az ⎞ ⎟+ = i⎜ 2 + + ⎟ ⎜ ∂x x y x z ∂ ∂ ∂ ∂ ⎠ ⎝
⎛ ∂ 2 Ax ∂ 2 Ay ∂ 2 Az ⎞ ⎟+ j⎜ + + ⎜ ∂ x∂ y ∂ y 2 ∂ y∂ z ⎟ ⎠ ⎝
(6.20)
⎛ ∂ 2 Ax ∂ 2 Ay ∂ 2 Az ⎞ ∂ 2 A ∂ 2 A ∂ 2 A ⎟− . − − + k⎜ + + ⎜ ∂ x∂ z ∂ y∂ z ∂ z 2 ⎟ ∂ x 2 ∂ y 2 ∂ z 2 ⎠ ⎝ Справедливы следующие три формулы, заменяющие тройной интеграл двойным: 1) формула для градиента (6.21) ∫ gradf dV = ∫ f dS ; V
S
2) формула для дивергенции (теорема Остроградского-Гаусса) (6.22) ∫ divA dV = ∫ A dS ; V
S
3) формула для вихря ∫ rotA dV = ∫ dS × A .
(6.23)
В соответствии с определением дивергенции находим ⎛ ∂ A ∂ Ay ∂ Az ⎞ ∂ ( fAx ) ∂ ( fAy ) ∂ ( fAz ) ⎟⎟ + + = f ⎜⎜ x + + + div(fA ) = ∂ ∂ ∂z ∂ ∂y ∂x x y z ⎝ ⎠
(6.24)
V
S
∂f ∂f ∂f = fdivA + A gradf . + Az + Ay ∂z ∂y ∂x Пусть S – поверхность, ограничивающая объём V ; p и q – две скалярные функции точки M . Заменив в (6.24) f на p , а A на grad q , получаем div( pgrad q ) = p∆q + gradq gradp . (6.25) Подставив в формулу (6.22) вместо вектора A вектор pgradq , с учётом (6.25) получаем ∫ ( p∆q + gradq ⋅ gradp )dV = ∫ pgradqd S . + Ax
V
S
Меняя роли функций p и q , находим ∫ (q∆p + gradq ⋅ gradp )dV = ∫ qgradpd S . V
S
Вычитая последнее выражение из предыдущего, получаем формулу Грина ∫ ( p∆q − q∆p )dV = ∫ ( pgradq − qgradp )dS . (6.26) V
S
195
7. Основы электромагнитной теории света 7.1. Уравнение Максвелла Электродинамика, изучающая электромагнитные процессы, является одной из самых разработанных областей человеческих знаний, а уравнения Максвелла, описывающие электромагнитное поле и получившие многочисленные подтверждения на опыте, не могут не вызывать чувства восхищения своим изяществом и красотой. Уравнения Максвелла были сформулированы в 60-х годах 19-го века Джеймсом Клерком Максвеллом (1831–1879) на основе обобщения эмпирических законов электрических и магнитных явлений и развития идеи английского учёного Майкла Фарадея (1791– 1867) о том, что взаимодействия между электрически заряженными телами осуществляются посредством электромагнитного поля. Благодаря трудам Фарадея и Максвелла возникла новая концепция – концепция близкодействия, согласно которой взаимодействия между телами осуществляются посредством тех или иных полей (например, тяготение – посредством гравитационного поля), непрерывно распределённых в пространстве. В отличие от короткодействующих мощных ядерных сил и слабых взаимодействий, вызывающих распад элементарных частиц, электромагнитные и гравитационные силы являются далекодействующими, т.е. наиболее медленно убывающими с увеличением расстояния между частицами. Именно это позволяет рассматривать электромагнитные и гравитационные поля как макроскопические объекты и ограничиться лишь классическим (а не квантовым) описанием. Уравнения Максвелла как раз и представляют собой математически строгое и полное выражение законов движения электромагнитного поля как макроскопического объекта. Современная форма уравнений Максвелла дана немецким физиком Генрихом Рудольфом Герцем (1857–1894) и английским физиком Оливером Хевисайдом (1850–1925). Уравнения Максвелла связывают величины, характеризующие электромагнитное поле, с его источниками, т.е. с распределением в пространстве электрических зарядов и токов. Напомним основные опытные факты и логику рассуждений, которые привели к открытию этих уравнений. Один из основных законов электростатики определяющий силу взаимодействия между двумя точечными электрическими зарядами 196
(между двумя электрически заряженными телами, размеры которых малы по сравнению с расстоянием между ними), находящимися на некотором расстоянии r друг от друга в точках r1 и r2 соответственно, установленный экспериментально французским физиком Шарлем Огюстеном Кулоном (1736–1806) в 1785 году с помощью изобретенных им крутильных весов, может быть выражен формулой qq F = k 1 32 r , (7.1) r F – сила взаимодействия зарядов; где q1 , q2 – величины взаимодействующих зарядов; r = r1 − r2 ; r ≡ r ; k – коэффициент пропорциональности, величина которого определяется выбором системы единиц физических величин, входящих в это выражение. Так, например, в абсолютной (гауссовой) системе единиц СГС, основными механическими единицами которой являются сантиметр, грамм, секунда, а единица количества электричества определяется из закона Кулона (7.1), при этом k = 1 : единичный заряд по определению взаимодействует с равным ему электрическим зарядом, расположенным от него на расстоянии 1см, с силой в одну дину (дина – сила, сообщающая телу массой в 1г ускорение 1см/с2). Закон Кулона позволяет ввести понятие электрического поля, определяемого напряжённостью E , т.е. силой, действующей на единичный положительный заряд. Положив q1 = q , а q2 = qпр , где qпр – величина "пробного" заряда, в соответствии с законом Кулона получаем F q = 2. E= qпр r Таким образом, всякий неподвижный точечный заряд q окружён электрическим полем с напряжённостью qr E= 3, (7.2) r где r – радиус-вектор, проведённый из заряда q в рассматриваемую точку поля. В дальнейшем будем пользоваться абсолютной системой единиц (СГС). Работа электрических сил при бесконечно малом перемещении dl единичного заряда в поле точечного заряда q равна
197
q q q ⎛q⎞ ( ) cos , r ⋅ d l = dl r d l = dr = − d ⎜ ⎟, r3 r2 r2 ⎝r⎠ где dr – проекция перемещения dl единичного заряда на радиусвектор r . При этом работа, совершаемая при перемещении единичного положительного заряда из точки M 1 в точку M 2 по конечному пути L , равна M2 ⎛ q q⎞ ⎛q⎞ A = ∫ E ⋅ dl = − ∫ d ⎜ ⎟ = −⎜⎜ − ⎟⎟ , ⎝ r2 r1 ⎠ (L ) M1 ⎝ r ⎠ dA = E ⋅ dl =
где r1 и r2 – расстояния до начальной и конечной точек пути от заряда q. Отсюда следует, что работа электрических сил на произвольном пути в поле неподвижного точечного заряда зависит только от положений начальной и конечной точек этого пути и не зависит от формы его траектории. Перепишем полученное выражение в тождественной форме q q ⎛ q q⎞ A12 = − − ⎜⎜ − ⎟⎟ . r1 r ⎝ r2 r ⎠ Положив r = ∞ , получаем A12 = ϕ1 − ϕ 2 , где ϕi – потенциал поля точечного заряда q на расстоянии ri от него в точке M i , определяемый работой, совершаемой силами поля при удалении единичного положительного заряда из точки M i в бесконечность, равной q ri , при этом (7.3) E = − gradϕ , т.е. поле неподвижного точечного заряда есть поле потенциальное. Учитывая выражение (6.18), получаем (7.3′) rotE = − rot gradϕ = 0 , т.е. потенциальное поле обязательно является безвихревым. Выражение (7.2) можно записать в более общем виде qR Ei (r ) = i 3 i , Ri где, в соответствии с рис.7.1, Ri = r − ri . При этом поток вектора Ei через площадку dS равен q dQi = Ei ⋅ n dS = i3 Ri ⋅ n dS , Ri
198
где n – единичный вектор внешней нормали к площадке dS . Выражение Ri ⋅ n dS Ri определяет проекцию площадки dS на поверхность, перпендикулярную к Ri . Вводя телесный угол dΩi = Ri ⋅ n dS Ri3 , под которым виден элемент поверхности dS из точки ri , получаем dQi = qi dΩ i .
dS
n r
dΩ i
z
Ri
O
ri
(V )
y
x qi
(S )
Рис.7.1. Поток электрического вектора через произвольную замкнутую поверхность
Если заряд расположен внутри замкнутой поверхности S , то эта поверхность окружает его со всех сторон, а поэтому видна из него под углом Ωi = 4π . Следовательно, в этом случае поток Qi вектора Ei через поверхность S равен ⎧4πqi , ri ∈ V ; Qi = ∫ dQi = qi ∫ dΩi = ⎨ ri ∉ V , ⎩0, (S ) Ωi где V – объём, заключённый внутри S . Опыт показывает, что напряжённости электрического поля от нескольких неподвижных зарядов складываются как обычные векторы. Это означает, что для электрических сил справедлив четвёртый закон механики, или принцип независимости действия сил. Обычно это положение формулируется в виде гипотезы о линейности взаимодействия, больше известной как принцип суперпозиции. В соответствии с принципом суперпозиции полная напряжённость поля
199
E , созданного совокупностью точечных зарядов qi , помещённых в точках ri , равна E = ∑ Ei . i
При этом поток полного поля, созданного этой совокупностью точечных зарядов, равен Q = ∫ (n ⋅ E ) dS = ∑ ∫ (n ⋅ Ei ) dS = ∑ Qi = 4π∑ qi (S )
i
(S )
i
i
или
Q = 4πq , (7.4) где q – заключённый внутри поверхности S заряд. Формула (7.4) выражает собой фундаментальную теорему Гаусса: в произвольном электростатическом поле (в вакууме) поток электрического вектора E через произвольную замкнутую поверхность равен умноженной на 4π величине заряда, расположенного внутри объёма, ограниченного этой поверхностью. В общем случае неравномерного распределения зарядов в объёме V , ограниченном поверхностью S , объёмной плотностью зарядов в данной точке называется предел отношения заряда ∆q , находящегося в окружающем эту точку объёме ∆V , к величине этого объёма: ∆q dq = . ρ = lim ∆V →0 ∆V dV В поле объёмных зарядов точечными зарядами можно считать заряды dq = ρdV бесконечно малых объёмов dV , при этом потенциал ϕ определится выражением вида ρdV , (7.5) ϕ= ∫ R (V ) где R – расстояние точки поля, обладающей потенциалом ϕ , от элемента объёма dV , т.е. R = r − rq . Поток полного поля объёмных зарядов в соответствии с теоремой Гаусса равен Q = 4πq . При этом dQ d (4πq ) dq divE = = = 4π dV dV dV или divE = 4πρ . (7.6)
200
Итак, дивергенция напряжённости электрического поля, т.е. плотность возникновения электрических силовых линий, прямо пропорциональна плотности распределённых зарядов. Подставив (7.3) в (7.6), получаем div gradϕ = −4πρ или ∆ϕ = −4πρ . (7.7) A r − ri r
qi
ri
q2
O q1
qN
Рис.7.2. Определение поля системы электрических зарядов
Пусть в объёме с линейными размерами порядка l расположены точечные заряды q1 , q2 , Κ , qi , Κ , q N . Найдём суммарное поле этих зарядов. Определим положение некоторой точки A относительно начала координат O , выбранного внутри объёма, занимаемого зарядами, с помощью радиус-вектора r , как показано на рис.7.2, при этом будем полагать l >> r . В соответствии с принципом суперпозиции E = ∑ Ei = −∑ gradϕi = − grad ∑ ϕi = − gradϕ . N
N
Но Ei (r ) = qi N
ϕ(r ) = ∑ i =1
N
r − ri
r − ri
3
. При этом
N N (r + ri )2 r + ri qi = ∑ qi 2 2 = = ∑ qi r − ri i =1 r 2 − ri2 i =1 r − ri
1 N ri2 ⎛ r ⋅r ⎞ = ∑ qi 1 + 2 + 2⎜ 2 i ⎟ r i =1 r ⎝ r ⎠ Но r >> ri . Тогда
⎛ ri2 ⎞ ⎜1 − 2 ⎟. ⎜ r ⎟ ⎝ ⎠
201
r ⋅ ri 1 N ⎛ r ⋅ ri ⎞ 1 N ϕ(r ) ≅ ∑ qi 1 + 2 2 ≅ ∑ qi ⎜1 + 2 ⎟ = r i =1 ⎝ r i =1 r ⎠ r
(7.8) 1 N r N = ∑ qi + 3 ∑ qi ri . r i =1 r i =1 Определим поле электрического диполя. Электрическим диполем называется система двух одинаковых по величине разноимённых точечных зарядов q + и q − , расстояние между которыми значительно меньше расстояния до тех точек, в которых определяется поле диполя. Итак, пусть qi = q + , qi +1 = q − , при этом q + = − q − = q ; ri = −ri +1 , а ri = ri +1 , при этом ri + ri +1 = l ; ri − ri +1 = l = 2ri . Тогда 1 r ϕ(r ) = q + + q − + 3 q + ri + q − ri +1 = r r 1 r r l ⋅r = ⋅ 0 + 3 (qri − qri +1 ) = 2 3 qri = q 3 r r r r или p⋅r (7.9) ϕ(r ) = 3 , r где p = ql – характеристика диполя, называемая его электрическим моментом. При этом выражение (7.8) можно переписать в виде q r ϕ(r ) = + 3 p , (7.10) r r
(
где
N
q = ∑ qi , i =1
)
а
(
)
величина
p = ∑ qi ri
N
называется
дипольным
i =1
электрическим моментом системы зарядов. Сложность проблемы описания электромагнитного поля в веществе обусловлена тем, что, рассматривая реальное вещество, мы имеем дело с громадным количеством заряженных частиц, движение которых невозможно точно описать. Поэтому приходится строить определённые модели вещества, делая при этом упрощающие предположения о поведении соответствующих его частиц. Для обозначения веществ, плохо проводящих электрический ток, М.Фарадей ввёл термин "диэлектрик". В отличие от металлов и электролитов в диэлектриках нет зарядов, способных перемещаться на значительные расстояния и переносить ток. Для определённости будем полагать, что диэлектрик построен из нейтральных молекул,
202
т.е. суммарный заряд диэлектрика равен нулю. Под воздействием внешнего электрического поля заряды, входящие в состав диэлектрика, смещаются из положения равновесия в некоторые новые равновесные положения. Равнодействующая электрических сил, действующих на электрически нейтральный диэлектрик в однородном электрическом поле, очевидно, равна нулю. Удобной количественной характеристикой распределения зарядов в диэлектрике (в системе нейтральных молекул) может служить вектор дипольного электрического момента p , определяемый равенством p = ∑ qi r i , (7.11) где суммирование распространяется на все элементарные заряды, входящие в состав системы, а ri – радиус-вектор, проведённый к заряду qi из некоторой начальной точки O . При ∑ qi = 0 значение i
вектора p однозначно определяется распределением зарядов и не зависит от выбора начальной точки O . Действительно, пусть ri′ = ri − a , где a – вектор смещения точки O в точку O′ . Тогда p = ∑ qi ri′ = ∑ qi ri − a ∑ qi = ∑ qi ri . Как следует из (7.10), при q = 0 i
i
i
i
r (7.12) p, r3 т.е. по виду совпадает с потенциалом поля диполя момента p . Обычно в отсутствие внешнего электрического поля p диэлектрика равен нулю. Под действием внешнего поля диэлектрик поляризуется. Это означает, что p диэлектрика становится отличным от нуля. Если поле или диэлектрик (или то и другое) неоднородны, степень поляризации в различных точках диэлектрика будет различна. Чтобы охарактеризовать поляризацию в этом случае в некоторой точке, нужно выделить заключающий в себе эту точку физически бесконечно малый объём ∆V , найти сумму моментов ∑ p ϕ(r ) =
∆V
заключённых в этом объёме молекул и взять отношение ∑ qi ri P = lim ∆V , ∆V →0 ∆V 1 т.е. P = (7.13) ∑ p, dV dV где суммирование распространяется на заряды (или, соответственно, на все молекулы), находящиеся в объёме dV . Напомним, что под 203
физически бесконечно малым объёмом ∆V обычно, понимается объём, достаточно малый по сравнению с объёмом V макроскопического объекта, но вместе с тем содержащий достаточно много зарядов (молекул), чтобы отношение (7.13) мало менялось при изменении ∆V . Векторная величина P , определяемая формулой (7.13), называется поляризацией диэлектрика. Потенциал ϕ электростатического поля при наличии в нём диэлектрика равен, очевидно, сумме потенциала ϕ0 , возбуждаемого свободными зарядами, которые под влиянием электрического поля могут перемещаться на макроскопические расстояния (например, электроны в металлах), и потенциала ϕ′ , возбуждаемого связанными электрическими зарядами, т.е. зарядами, входящими в состав нейтральных молекул диэлектрика: ϕ = ϕ0 + ϕ′ . Учитывая (7.5), в общем случае потенциал свободных зарядов можно определить формулой ρdV σdS +∫ ϕ0 = ∫ , (7.14) r r где под ρ и σ понимаем объёмную и поверхностную плотность зарядов. Электрический момент нейтрального элемента dV объёма диэлектрика согласно (7.13) равен P dV , при этом потенциал зарядов, заключённых в этом элементе dV диэлектрика согласно (7.12) равен P ⋅~ r dV , где ~ r – расстояние от dV до рассматриваемой точки поля. 3 ~ r P ⋅r Положив ~ r = −r , а ~ r = r , получаем ϕ′ = − ∫ 3 dV . В соответствии с r определением дивергенции находим ⎛ ∂A ∂Ay ∂Az ⎞ ∂ ( fAx ) ∂ ( fAy ) ∂ ( fAz ) ⎟⎟ + div( f A ) = = f ⎜⎜ x + + + + x y z ∂z ∂ ∂y ∂x ∂ ∂ ⎠ (7.15) ⎝ ∂f ∂f ∂f + Ax + Ay + Az = fdivA + A gradf . ∂x ∂y ∂z r ⎛1⎞ Заметим, что grad ⎜ ⎟ = − 3 . При этом, учитывая (7.15), r ⎝r⎠ получаем P ⋅r P ⎛1⎞ 1 P grad = div P − div . Тогда = − ⎜ ⎟ r r r r3 ⎝ ⎠
204
P ⋅r P divP = − + dV . dV div dV ∫ ∫ r r r3 Используя теорему Остроградского-Гаусса, получаем divP P dV + ∫ dS . ϕ′ = − ∫ (V ) r (S ) r ϕ′ = − ∫
Учитывая (7.14), можем записать ρ + ρсвзн σ + σсвзн dV + ∫ dS , ϕ= ∫ r r (V ) (S )
(7.16)
где ρсвзн = − divP ; σ свзн = n P . Таким образом, электрическое поле при наличие диэлектрика совпадает с полем, которое возбуждалось бы в отсутствие диэлектрика теми же свободными зарядами при добавлении к ним зарядов ρсвзн и σ свзн , определяемых величиной P . Сопоставляя выражения (7.5), (7.7) и (7.16), получаем ∆ϕ = −4π(ρ + ρсвзн ) . Приняв во внимание соотношения (7.3), (7.6) и (7.7), т.е. E = −∇ϕ ; divE = −∇ 2 ϕ = − ∆ϕ , полученное выражение можно переписать в виде divE = 4πρ − 4πdivP или div(E + 4πP ) = 4πρ . (7.17) Дифференциальные уравнения (7.3), (7.6), (7.7) и (7.17) являются основными уравнениями электростатического поля в произвольной среде. Легко убедиться, что размерность P равна [q ] L−2 , т.е. совпадает с размерностью E . При наличии электрического поля поляризация изотропного диэлектрика, как показывает опыт, пропорциональна напряжённости поля E : P = αE , (7.18) где α – независящая от E безразмерная величина, называемая коэффициентом поляризуемости диэлектрика или диэлектрической восприимчивостью. Молекулы, дипольный электрический момент которых p пропорционален напряжённости поля E , будем называть квазиупругими. Для квазиупругих молекул направление моментов всех молекул параллельно полю, а, следовательно, P = ∑ p = Np = NβE , (7.19) 205
где N – число молекул в единице объёма. Коэффициент β носит название поляризуемости молекул. В этом выражении p – средняя величина моментов диполей, находящихся в физически бесконечно малом объёме диэлектрика, а E – напряжённость среднего макроскопического поля (под макроскопическими величинами будем понимать средние значения физических величин в физически бесконечно малом объёме). Отсюда следует соотношение p = βE , справедливо для отдельного диполя. Следовательно, мы неявно допустили, что последнее соотношение остаётся справедливым и для связи между средним моментом диполя и средней макроскопической напряжённостью поля в диэлектрике, при вычислении которой учитывается поле всех диполей во всех точках диэлектриков, а не только в центрах диполей. Между тем, по определению, β есть коэффициент пропорциональности между моментом эквивалентного молекуле диполя и электрической силой, действующей на его заряды, т.е. p = βE ′ , (7.20) где E ′ – средняя напряжённость поля в точках расположения центров диполей и при этом поля внешнего по отношению к каждому отдельному диполю. В общем случае E ≠ E ′ , при этом формулу (7.19) следует заменить формулой P = N p = Nβ E ′ . Отсюда следует, что Nβ ≠ α . Обозначив Nβ = α 0 , получаем P = α0 E ′ . (7.21) Чтобы найти зависимость между α и α 0 , необходимо найти зависимость между E и E ′ . Пусть всё поле заполнено однородным диэлектриком, при этом в некоторой точке O расположен "свободный" положительный заряд q0 . Под воздействием поля E этого заряда отрицательные заряды диэлектрика сместятся к центру O , а положительные – удалятся от него. Благодаря центральной симметрии поля всё пространство концентрическими центру O сферическими поверхностями может быть разбито на шаровые слои, в каждом из которых плотность расположения зарядов постоянна. Поле всех заряженных шаровых слоёв, внешних по отношению к некоторой точке P , равно в этой точке нулю, поле же всех внутренних слоёв в точке P таково, как 206
если бы весь заряд этих слоёв был сосредоточен в центре O . Определим поле равномерно поляризованного шара. При P = 0 положительные и отрицательные заряды диэлектрика одинаково распределены, по объёму шара и поля их взаимно компенсируются. Пусть поляризация P постоянна по величине и направлению во всех точках шара радиуса a , при этом положительные заряды сдвигаются на некоторый отрезок l , а отрицательные – на отрезок − l . В результате сдвига зарядов отрицательные заряды диэлектрика будут заполнять собой шар радиуса a , центр которого смещён на отрезок 2l относительно центра шара того же радиуса, заполненного положительными зарядами, как показано на рис.7.3. Пусть на единицу объёма диэлектрика приходится по N зарядов каждого знака. Тогда общий заряд каждого шара по абсолютной величине 4 будет равен q∑ = qNV , где объём шара V = πa 3 . Внешнее поле 3 равномерно заряженного шара таково, как если бы весь заряд шара q∑ был сосредоточен в его центре. При этом внешнее поле поляризованного шара тождественно с полем диполя, электрический момент которого равен p = 2q∑l = 2VqNl . P a
a
2l
Рис.7.3. Электрическое поле равномерно поляризованного шара
Потенциал равномерно поляризованного шара объёма V в пространстве вне этого шара, согласно (7.9), равен l ⋅r ϕ q = 2qNV 3 (r ≥ a ) , r где r – радиус-вектор из центра шара в исследуемую точку поля. С другой стороны, электрический момент единицы объёма шара P = ∑ qi ri до поляризации был равен нулю, а после поляризации будет равным P = ∑ qi (ri ± l ) = 2qNl . Следовательно,
207
P ⋅r (r ≥ a ) . (7.22) r3 Потенциал внутренних точек шара (r ≤ a ) определяется аналогичной формулой, если под V понимать объём не всего шара, а лишь той его части, которая ближе к центру, чем рассматриваемая 4 точка поля, т.е. если в (7.22) положить V = πr 3 : 3 4π 3 P ⋅ r 4π = P ⋅ r (r ≤ a ) . (7.23) ϕr = r 3 3 r3 Очевидно, что при r = a выражение для ϕq и ϕr принимают одинаковые значения, т.е. потенциал ϕ поляризованного шара является непрерывной функцией точки. Наконец, напряжённость поля поляризованного шара внутри этого шара равна 4π Er = −∇ϕ r = − ∇(P ⋅ r ) (r ≤ a ) . 3 Напомним, что grad (P ⋅ r ) = grad Px ( x − x0 ) + Py ( y − y0 ) + Pz ( z − z 0 ) . ϕq = V
[
]
Так как вектор P постоянен по величине и направлению, то ∇(P ⋅ r ) = Px i + Py j + Pz k = P . В результате получаем 4π Er = − P (r ≤ a ) . (7.24) 3 Таким образом, напряжённость поля равномерно поляризованного шара постоянна по величине и направлению во всех его внутренних точках. Чтобы определить напряжённость поля E ′ в центре какого-либо диполя O , опишем из этого центра сферу S физически бесконечно малого радиуса. Поле E ′ в точке O будет слагаться, во-первых, из поля E1 всех зарядов, расположенных вне сферы S , и, во-вторых, из поля E2 зарядов, лежащих внутри S , за исключением зарядов самого диполя O . Таким образом, E1 равно напряжённости поля в сферической полости, вырезанной внутри равномерно поляризованного диэлектрика. Поскольку заряды, возбуждающие это поле, находятся вне сферы S , при определении E1 можно заменить совокупность молекул диэлектрика непрерывно распределённым по его объёму электрическим моментом плотности P . Кроме того, 208
поскольку сфера имеет физически бесконечно малые размеры, поляризация P окружающего сферу диэлектрика будет иметь значение, постоянное по величине и направлению. До удаления сферы поле в равномерно поляризованном диэлектрике однородно и равно средней напряжённости макроскопического поля E . По удалении же сферы S из этого поля, очевидно, вычтется поле равномерно поляризованной сферы S , напряжённость которого, 4π P . При этом согласно (7.24), равна − 3 4π ⎛ 4π ⎞ E1 = E − ⎜ − P⎟= E + P. (7.25) 3 ⎝ 3 ⎠ Таким образом, поле E1 постоянно по всему объёму сферы S и не зависит от её диаметра. Пусть молекула расположена в такой сферической области, внутри которой вакуум, а вне – равномерно поляризованная среда. Тогда E2 = 0 . При этом величина E ′ , которую будем называть напряжённостью "действующего на диполь" или "эффективного" электрического поля, согласно изложенному, равна E ′ = E1 + E2 = E1 , т.е. 4π E′ = E + P. (7.26) 3 Подставив (7.26) в (7.21), получаем 4π P = α0 E + α0 P , 3 откуда α0 P= E = αE . 4π 1 − α0 3 Следовательно, α0 α= . (7.27) 4π 1 − α0 3 Вместо поляризации P удобно ввести в рассмотрение вектор D , определяемый формулой D = E + 4πP . (7.28) Величина, определяемая выражением (7.28), называется электрической индукцией или электрическим смещением. В соответствии с выражением (7.17), 209
divD = 4πρ . (7.29) Как следует из выражений (7.18) и (7.28), для изотропных диэлектриков получаем D = (1 + 4πα )E = εE , (7.30) где ε = 1 + 4πα носит название диэлектрической проницаемости. Учитывая (7.27), находим 4πα 0 ε = 1+ , 4π 1 − α0 3 откуда ε − 1 4πα0 . (7.31) = 3 ε+2 Соотношение (7.31) было получено независимо и практически одновременно голландским физиком Х.А.Лорентцем (1880г.) и датским физиком Л.Лоренцем, а поэтому называется формулой Лорентца-Лоренца. Но α 0 = Nβ . Тогда ε − 1 4π = Nβ . (7.32) ε+2 3 При α 0 ϕb . Величина, численно равная работе, совершаемой силой F при перемещении единичного положительного заряда, называется падением напряжения или просто напряжением U на данном участке цепи. В соответствии с формулой (7.39) U ab = ϕa − ϕb + Eab . Для замкнутой цепи U = ∫ E ⋅ dl + ∫ E * ⋅ dl = ∫ E * ⋅ dl = E , так как для потенциального поля циркуляция вектора напряжённости электростатического поля равна нулю (равна нулю разность потенциалов). Величина, численно равная работе сторонних сил над единичным положительным зарядом, называется электродвижущей силой (э.д.с.) E , действующей на данном участке цепи. Э.д.с., действующая в замкнутой цепи, может быть определена как циркуляция вектора напряжённости сторонних сил. С удивительными свойствами магнитов люди познакомились ещё в далёкой древности. Однако, первое систематическое экспериментальное их изучение было выполнено английским врачом и физиком Уильямом Гильбертом (1544–1603) в конце XVI века. Результаты исследований были обстоятельно изложены в его труде "О магните", изданном в 1600 году. В числе многих других Гильберт отметил два следующих свойства магнита. 1. Магнит имеет два полюса: положительный (северный) и отрицательный (южный), причём одноимённые полюсы отталкиваются, а разноимённые – притягиваются; 2. Невозможно получить магнит с одним полюсом. Действительно, разломив магнит на две части, получаем два магнита с двумя разноимёнными полюсами каждый. Естественно предположить, что каждая молекула представляет собой элементарный магнит с магнитными зарядами полюсов ± mi , при этом в любом объёме V , содержащем произвольное число молекул, суммарный магнитный заряд оказывается равным нулю: ∑ mi = 0 . i∈V
Однако, истинная природа магнетизма стала проясняться лишь после знаменитого опыта Ханса Кристиана Эрстеда (1777–1851), обнаружившего в 1820 году магнитное действие электрических токов на стрелку компаса. Поднеся компас к проводнику с током, он увидел, что магнитная стрелка устанавливается перпендикулярно проводнику. 214
Из опыта Эрстеда следует, что магнитное поле имеет направленный характер и должно характеризоваться векторной величиной. Основную силовую характеристику магнитного поля назвали магнитной индукцией (не совсем удачное название, сложившееся исторически), которую принято обозначать буквой B . Проводник с током представляет собой электрически нейтральную систему движущихся зарядов. Отсюда следует, что магнитное поле порождается движущимися зарядами. Из опыта следует, что для магнитного поля, как и для электрического, справедлив принцип суперпозиции: поле B , порождаемое несколькими токами, равно векторной сумме полей Bi , порождаемых каждым током в отдельности: B = ∑ Bi . Дальнейшие исследования французских физиков Жана Батиста Био (1774–1862) и Феликса Савара (1791– 1841) показали, что магнитное поле спадает обратно пропорционально расстоянию от провода. Пьер Симон Лаплас (1749– 1827), проанализировав экспериментальные данные, полученные Био и Саваром, нашёл, что магнитное поле любого тока может быть вычислено как векторная сумма (суперпозиция) полей, создаваемых отдельными элементарными участками токов, при этом каждый элемент тока I в точке, положение которой относительно элемента dl определяется радиус-вектором r , как показано на рис.7.4, создаёт магнитное поле, индукция которого равна I dl × r dB = . (7.40) c r3 Это выражение носит название закона Био-Савара. Как показывал опыт, два тонких прямолинейных проводника, по которым текут токи, притягивают друг друга, если токи в них имеют одинаковые направления, и отталкивают, если направление токов противоположно. В 1820 году Андре Мари Ампер (1775–1836) установил закон взаимодействия токов, согласно которому сила взаимодействия, приходящаяся на единицу длины каждого из параллельных проводников, пропорциональна величинам токов в них I1 и I 2 и обратно пропорциональна расстоянию b между ними 2I I Fед = k 1 2 . b В системе единиц измерения величин СГСЭ k = 1 c 2 .
215
I
dB r dl
Рис.7.4. Магнитное поле, порождаемое произвольным током
Все исследователи исходили из неверного предположения о том, что проводник с током сам становится магнитом, почему и проявляет магнитное действие. Однако, вскоре в опытах М.Фарадея (1821), а затем Эрстеда и Ампера, было обнаружено и обратное воздействие магнитного поля на токи. Оказалось, что сила, действующая в магнитном поле B на элемент тока Idl , равна 1 dF = I (dl × B ). (7.41) c Этот факт уже никак нельзя было объяснить, задавая какое-либо распределение магнитных масс вдоль провода, так как сила, действующая на них, была бы направлена вдоль B в противоречии с (7.41). Здесь то и выступил с необычной смелой гипотезой Ампер. Он предположил, что не проводник с током является магнитом, а сам магнит является эквивалентом системе замкнутых токов (гипотеза молекулярных токов Ампера). Правильность своей точки зрения Ампер сумел доказать рядом убедительных опытов по взаимодействию токов между собой. Таким образом, с точки зрения Ампера, магнитные заряды не существуют, а единственным источником магнитного поля является электрический ток. В связи с этим магнитное поле B физически естественно определять из формулы (7.41) как силу, действующую на элементарный ток. Эта формула была установлена экспериментально Ампером и носит название закона Ампера. Положив в формуле (7.41) dq I = , получаем dt
216
⎞ 1 ⎛ dl dF = dq⎜⎜ × B ⎟⎟ . c ⎝ dt ⎠ Отсюда следует, что на заряд q , движущийся в магнитном поле B со скоростью u , действует магнитная сила F , равная 1 F = q (u × B ) . (7.42) c Отметим, что соотношение (7.42) можно рассматривать как определение магнитной индукции B . При одновременном воздействии электрического и магнитного полей на заряд q , движущийся со скоростью u , сила воздействия определяется так называемым законом Лорентца 1 F = qE + q (u × B ) . (7.43) c Выражение (7.43), определяющее силу, называемую силой Лорентца, получил путём обобщения экспериментальных данных нидерландский физик Хендрик Антон Лорентц (H.A.Lorentz) (1853– 1928). Английский физик Поль Адриен Морис Дирак (1902–1984) высказал предположение, что в природе должны существовать магнитные заряды (названные монополями Дирака). Поиски этих зарядов пока не дали никаких результатов, так что вопрос о существовании монополей Дирака остаётся открытым. Отсутствие в природе магнитных зарядов приводит к тому, что линии вектора B не имеют ни начала, ни конца. Поэтому в соответствии с формулами (6.3), (6.4) и (6.6) поток вектора B через замкнутую поверхность должен быть равен нулю. Таким образом, для любого магнитного поля и произвольной замкнутой поверхности S имеем (7.44) Φ B = ∫ B ⋅ dS = 0 . S
Эта формула выражает теорему Гаусса для вектора B : поток вектора магнитной индукции через любую замкнутую поверхность равен нулю. Заменив в соответствии с (6.22) поверхностный интеграл объёмным, получаем ∫ ∇B dV = 0 . V
Для любого произвольного объёма V это условие выполняется в том случае, если подинтегральная функция в каждой точке поля равна
217
нулю. Таким образом, магнитное поле обладает тем свойством, что его дивергенция всюду равна нулю: ∇B = 0 . (7.45) Определим циркуляцию вектора B , равную Γ = ∫ B ⋅ dl b . Рассмотрим случай поля прямого тока. Пусть замкнутый контур лежит в плоскости, перпендикулярной к току, при этом ток перпендикулярен плоскости чертежа и направлен за чертёж, как показано на рис.7.5. В каждой точке контура вектор B направлен по касательной к окружности, проходящей через эту точку. Заметим, что B ⋅ dlb = Bdl B , где dlB – проекция элемента контура на направление вектора B . Из рисунка следует dl B = b ⋅ dα . Тогда B ⋅ dlb = B ⋅ b ⋅ dα . I
b b
dlb
β
dα
dβ r
B
rdβ
dli
Рис.7.5. Магнитное поле прямого тока
Как следует из выражения (7.40) и рис.7.5 (справа), 1 dl sin β dB = I i 2 . c r В соответствии с рисунком rdβ . При этом dli = sin β 1 dβ 1 sin βdβ dB = I = I . b c r c Тогда 1Iπ 1I 1 2I π β β = − β = . B = ∫ dB = sin d cos 0 c b ∫0 cb c b Подставив в выражение, определяющее циркуляцию вектора B полученное соотношение, находим 218
1 2I 2 b ∫ dα = I ∫ dα . b c При обходе по контуру ∫ dα = 2π . Если ток вне контура, то
∫ B ⋅ dlb = ∫ Bbdα = c
∫ dα = 0 . Учитывая это, получаем
4π I, (7.46) c где под I следует подразумевать ток, охватываемый контуром. Если внутри контура тока нет (контур тока не охватывает), циркуляция вектора B равна нулю. Формула (7.46), полученная для случая прямого тока, справедлива и для тока, текущего по проводу произвольной формы, например, для кругового тока. Пусть некоторый контур охватывает несколько проводов с током. В силу принципа суперпозиции ⎛ ⎞ ∫ B ⋅ dl = ∫ ⎜ ∑ Bk ⎟dl = ∑ ∫ Bk ⋅ dl . ⎝ k ⎠ k 4π Каждый из интегралов в этой сумме равен I k . Следовательно, c 4π B d l (7.47) ⋅ = ∑ Ik . ∫ c k Отметим, что здесь I k – алгебраическая величина. Если токи текут во всём пространстве, где расположен контур, алгебраическую сумму токов, охватываемых контуром, можно представить в виде (7.48) ∑ I k = ∫ j ⋅ dS = ∫ j ⋅ n dS .
∫ B ⋅ dlb =
k
S
S
Интеграл берётся по произвольной поверхности S , натянутой на контур. Вектор j определяет плотность тока в той точке, где расположена площадка dS ; n – положительная нормаль к этой площадке (т.е. нормаль, образующая с направлением обхода контура при вычислении циркуляции правовинтовую систему). Заменив в (7.47) сумму токов выражением (7.48), получаем 4π B ⋅ d l = j ⋅ dS . ∫ c S∫ Преобразовав левую часть по формуле Стокса, получаем равенство 4π ( ∇ × B ) d S = ∫ ∫ j ⋅ dS . c S S
219
Это равенство возможно лишь в том случае, если подинтегральные функции имеют в каждой точке произвольно выбранной поверхности S одинаковые значения. Таким образом, мы приходим к выводу о том, что ротор вектора магнитной индукции пропорционален вектору плотности тока в данной точке: 4π ∇× B = j. (7.49) c Отметим, что формулы (7.47) и (7.49) справедливы только для поля в вакууме в отсутствие меняющихся во времени электрических полей. Итак, для электростатического и магнитного полей в вакууме нами получены следующие соотношения divE = 4πρ , (7.6) rotE = 0 , (7.3′) divB = 0 , (7.45) 4π rotB = j. (7.49) c Сопоставление этих формул показывает, что электростатическое и магнитное поля имеют существенно разный характер. G
В К
Рис.7.6. Схема опыта Фарадея
В 1831 году вышла работа английского физика Майкла Фарадея (1791–1867), в которой он описал ставший теперь классическим эксперимент, открывший новую главу электродинамики. В этом эксперименте, обнаружившем единство и взаимосвязь электрического и магнитного полей, мы впервые встречаемся с качественно новым объектом – электромагнитным полем. Напомним суть эксперимента. М.Фарадей взял железное кольцо с двумя обмотками, в одну из которых включил гальванометр G , а в другую – источник тока E с
220
устройством K замыкания и размыкания цепи (ключом), как показано на рис.7.6. При замыкании или размыкании ключа стрелка гальванометра отклонялась. Токи, появлявшиеся при этом, Фарадей назвал индукционными. Их появление он связывал с тем, что линии магнитной индукции, возникшие вблизи первичной обмотки при замыкании ключа, расширяются, стремясь заполнить железное кольцо, и при этом пересекают вторичную обмотку. Много раз, повторяя свои опыты в различных вариантах, Фарадей пришёл к выводу, что при всяком пересечении проводником линий магнитной индукции в последнем появляется индукционный ток, причём протекший заряд ∆q пропорционален числу пересечённых силовых линий ∆Φ и обратно пропорционален электрическому сопротивлению проводника R , т.е. ∆Φ R∆q = . (7.50) c Сформулированное Фарадеем положение (7.50) получило название закона электромагнитной индукции. В 1827 году немецкий физик Георг Симон Ом (1787–1854) установил закон, согласно которому сопротивление R контура выражается через силу тока I и электродвижущую силу E , равную работе, совершаемой над единичным зарядом при обходе им замкнутого контура E (7.51) R= . I Английский физик Джеймс Клерк Максвелл (1831–1879) ввёл связанный с контуром магнитный поток (7.52) Φ = ∫ B ⋅ n dS , S
где S – натянутая на контур правоориентированная поверхность. Максвелл предложил отождествить величину ∆Φ с приращением потока Φ , при этом, учитывая закон Ома (7.51), закону электромагнитной индукции М.Фарадей придал следующий вид 1 dΦ E=− . (7.53) c dt Подставив (7.52) в (7.53), получаем 1 ∂B (7.54) E = − ∫ n dS . c S ∂t Вполне очевидно, что напряжённость электрического поля, определяющая индукционный ток в опыте Фарадея,
221
неэлектростатического происхождения. Циркуляция этого поля по контуру даёт величину э.д.с., индуцируемой в контуре: E = ∫ E ⋅ dl . L
Применяя теорему Стокса, получаем ∫ E ⋅ dl = ∫ nrotE dS . L
S
Подставляя в (7.54), получаем 1 ∂B ∫ n ⋅rotE dS = − c ∫ n ∂t dS . S S Отсюда 1 ∂B . (7.55) rotE = − c ∂t Из формулы (7.49) следует 4π div rotB = divj = 0 . c Но в соответствии с уравнением непрерывности (7.38) ∂ρ divj = − . ∂t Чтобы согласовать выражения (7.38) и (7.49), Максвелл ввёл в правую часть выражения (7.49) дополнительное слагаемое, названное им плотностью тока смещения. Таким образом, согласно Максвеллу, формула (7.49) должна иметь вид 4π ( j + jсмещ ). rotB = (7.56) c При этом, учитывая (7.38), получаем ∂ρ divjсмещ = − divj = . ∂t 1 ∂E div Согласно (7.6) divE = 4πρ . При этом divjсмещ = . Тогда 4π ∂t 1 ∂E 4π j. (7.57) rotB = + c c ∂t Таким образом, из явления электромагнитной индукции следует, что изменяющееся магнитное поле порождает электрическое поле. Из выражения (7.57) следует, что изменяющееся электрическое поле порождает магнитное поле. Открытие тока смещения позволило Максвеллу создать единую теорию электрических и магнитных явлений. Эта теория объяснила все известные в то время 222
экспериментальные факты и предсказала ряд новых явлений, существование которых подтвердилось впоследствии. Основным следствием теории Максвелла был вывод о существовании электромагнитных волн, распространяющихся со скоростью света. Теоретическое исследование свойств этих волн привело Максвелла к созданию электромагнитной теории света. Уравнениями Максвелла для электромагнитного поля в вакууме при наличии заданных зарядов и токов называется система уравнений: 1 ∂E 4π j, (7.57) rotB − = c c ∂t divE = 4πρ , (7.6) 1 ∂B = 0, (7.55) rotE + c ∂t divB = 0 . (7.45) Уравнения (7.57) и (7.6), содержащие источники ρ и j , обычно называют первой группой уравнений Максвелла, а уравнения (7.55) и (7.45), не содержащие ρ и j – второй группой уравнений. Рассмотрим электромагнитное поле в материальной среде. F1 +q
l sin α
P
F2
−q
E
α
Рис.7.7. Электрический диполь в однородном электрическом поле
Если электрический диполь поместить в однородное электрическое поле, то силы, действующие на заряды диполя, образуют пару, плечо которой равно l sin α , т.е. зависит от ориентации диполя, как показано на рис.7.7. Модуль каждой из сил равен qE . При этом момент пары сил, действующих на диполь, равен N = qEl sin α = pE sin α , где p – модуль электрического момента диполя. Это выражение может быть записано в векторном виде N = p×E . (7.58)
223
Рассмотрим произвольный плоский контур с током, находящийся в однородном магнитном поле B . Пусть контур ориентирован так, что положительная нормаль к контуру n перпендикулярна вектору B . Положительной называется нормаль, направление которой связано с направлением тока в контуре правилом правого винта. Разобьём площадь контура на узкие параллельные направлению вектора B полоски шириной dy , как показано на рис.7.8 (рис.7.8а; на рис.7.8б одна такая полоска изображена в увеличенном виде). На ограничивающий полоску слева элемент контура dl1 действует сила dF1 , направленная за чертёж. Модуль этой силы равен dF1 = IBdl1 sin α1 = IBdy (см. рис.7.8б). Аналогично на элемент контура dl2 действует сила dF2 , направленная на нас. Модуль этой силы равен dF2 = IBdl2 sin α 2 = IBdy . I
a)
B
n dF1
dF2
dy
N I
б) dl1
α1
dy
dl2
B α2
x Рис.7.8. Произвольный плоский контур с током в однородном магнитном поле
Полученный результат означает, что силы, приложенные к противоположным элементам контура dl1 и dl2 , образуют пару, момент которой равен
224
dN = IB × dy = IBdS , где dS – площадь полоски. Из рисунка следует, что вектор dN перпендикулярен векторам n и B и, следовательно, может быть записан в виде dN = I (n × B )dS . Поле предполагается однородным, а поэтому произведение n × B для всех полосок одинаково. Просуммировав это выражение по всем полоскам, получим вращательный момент, действующий на контур: N = ∫ I (n × B )dS =I (n × B )∫ dS = I (n × B )S , (7.59) где S – площадь контура. Выражение (7.59) можно представить в виде N = (ISn ) × B . (7.60) Аналогия выражений (7.58) и (7.60), определяющих моменты, действующие на электрический диполь в однородном электрическом поле E и на контур с током в однородном магнитном поле B соответственно, послужила основанием для того, чтобы назвать величину pm = ISn (7.61) дипольным магнитным моментом контура с током. Воспользовавшись обозначением (7.61), формулу (7.60) можно переписать в виде: N = pm × B . (7.62) Если провода, по которым текут токи, создающие магнитное поле, перенести из вакуума в какую-либо среду, то магнитное поле изменяется. Это объясняется тем, что всякое вещество является магнитиком, т.е. способно под действием магнитного поля приобретать магнитный момент (намагничиваться). Намагниченное вещество создаёт магнитное поле B ′ , которое накладывается на обусловленное токами поле B0 . Оба поля в сумме дают усреднённое (макроскопическое) результирующее поле B = B0 + B ′ . (7.63) Для объяснения намагничения тел Ампер предположил, что в молекулах вещества циркулируют круговые токи (молекулярные токи). Каждый такой ток обладает магнитным моментом и создаёт в окружающем пространстве магнитное поле. В результате хаотической ориентации магнитных моментов отдельных молекул суммарный магнитный момент тела также равен нулю. Под действием внешнего поля магнитные моменты молекул приобретают преимущественную 225
ориентацию в одном направлении, вследствие чего магнетик намагничивается, т.е. его суммарный магнитный момент становится отличным от нуля, при этом возникает поле B ′ . Намагничение магнетика естественно характеризовать магнитным моментом единицы объёма. Эту величину называют намагниченностью и обозначают буквой J . Если магнетик намагничен неоднородно, намагниченность в данной точке определяется следующим выражением 1 J= (7.64) ∑ pm , ∆V ∆V где ∆V – физически бесконечно малый объём, взятый в окрестности pm – магнитный момент отдельной рассматриваемой точки; молекулы. Суммирование производится по всем молекулам в объёме ∆V . Поле B ′ , так же как и поле B0 , не имеет источников. Поэтому дивергенция результирующего поля (7.63) равна нулю: ∇B = ∇B0 + ∇B ′ = 0 . (7.65) Таким образом, формула (7.45), а, следовательно, и формула (7.44), справедливы не только для поля в вакууме, но и для поля в веществе. Напишем выражение для ротора результирующего поля (7.63): ∇ × B = ∇ × B0 + ∇ × B ′ . 4π j , где j – плотность макроскопиСогласно (7.49), ∇ × B0 = c ческого тока. Аналогично, ротор вектора B ′ должен быть пропорционален плотности молекулярных токов: 4π ∇× B′ = j мол . c Следовательно, ротор результирующего поля определяется формулой: 4π ( j + j мол ) . ∇× B = (7.66) c Однако, плотность молекулярных токов в свою очередь зависит от значения поля B . Попробуем выразить плотность молекулярных токов j мол через намагниченность J магнетика. С этой целью вычислим алгебраическую сумму молекулярных токов, охватываемых некоторым контуром Γ . Эта сумма равна ∫ j мол dS , S
226
где S – поверхность, натянутая на контур. Контур I ′мол
′ I ′мол
Рис.7.9. Молекулярные токи
В алгебраическую сумму молекулярных токов входят только те молекулярные токи, которые оказываются "нанизанными" на контур, как показано на рис.7.9. Токи, не "нанизанные" на контур, либо не пересекают натянутую на контур поверхность совсем, либо пересекают эту поверхность дважды – один раз в одном направлении, второй раз в другом. В результате их вклад в алгебраическую сумму токов, охватываемых контуром, оказывается равным нулю. Из рис.7.10 следует, что элемент контура dl , образующий с направлением намагниченности J угол α , "нанизывает" на себя те молекулярные токи, центры, которых попадают внутрь косого цилиндра с объёмом S мол cos αdl , где S мол – площадь, охватываемая отдельным молекулярным током. Если n – число молекул в единице объёма, то суммарный ток, "нанизанный" на элемент dl , равен I мол nS мол cos αdl . Произведение I мол S мол равно модулю магнитного момента pm отдельного молекулярного тока. Следовательно, выражение I мол S мол n определяет модуль магнитного момента единицы объёма, т.е. определяет модуль вектора J , а выражение I мол S мол n cos α – проекцию вектора J на направление элемента dl . Таким образом, суммарный молекулярный ток, охватываемый элементом dl , равен J ⋅ dl , а сумма молекулярных токов, охватываемых всем контуром, равна ∫ j мол ⋅ dS =c ∫ J ⋅ dl . S
Γ
Преобразовав правую часть полученного соответствии с теоремой Стокса, находим ∫ j мол ⋅ dS =c ∫ (∇ × J )dS . S
S
227
выражения
в
J
α
dl Рис.7.10. Магнитное поле молекулярных токов
Полученное равенство должно выполняться при произвольном выборе поверхности S . Это возможно лишь в том случае, если подинтегральные выражения равны в каждой точке магнетика: j мол = c(∇ × J ). (7.67) Таким образом, плотность молекулярных токов определяется значением ротора намагниченности. Подставим выражение (7.67) для плотности молекулярных токов в формулу (7.66): 4π ∇× B = j + 4π(∇ × J ). c Это выражение можно переписать в виде 4π ∇ × (B − 4πJ ) = j. (7.68) c Обозначим B − 4πJ = H . (7.69) Эта величина называется напряжённостью магнитного поля. В соответствии с (7.68) 4π ∇× H = j, (7.70) c т.е. ротор вектора H равен вектору плотности макроскопических токов. Возьмём произвольный контур Γ с натянутой на него поверхностью S и образуем выражение 4π ∫ (∇ × H )dS = c ∫ j ⋅ dS . S S Согласно теореме Стокса левая часть этого равенства эквивалентна циркуляции вектора H по контуру Γ . Следовательно,
228
4π (7.71) ∫ j ⋅ dS . c Γ S Если по проводам, охватываемым контуром, текут макроскопические токи, соотношение (7.71) принимает вид 4π (7.72) ∫ H ⋅ dl = c ∑ I k . k Γ Формулы (7.71) и (7.72) выражают теорему о циркуляции вектора H : циркуляция вектора напряжённости магнитного поля по некоторому контуру равна алгебраической сумме макроскопических токов, охватываемых этим контуром. Напряжённость магнитного поля H является аналогом электрического смещения D . В вакууме J = 0 , при этом H становится равным B и формулы (7.70) и (7.72) переходят в формулы (7.49) и (7.47). Намагниченность принято связывать не с магнитной индукцией, а с напряжённостью магнитного поля. Полагают, что в каждой точке магнетика J = χH , (7.73) где χ – характерная для данного магнетика величина, называемая магнитной восприимчивостью. Опыт показывает, что для слабомагнитных (неферромагнитных) веществ при не слишком сильных полях величина χ не зависит от H . Согласно (7.69) размерность H совпадает с размерностью J . Следовательно, χ – безразмерная величина. Подставив (7.73) в формулу (7.69), получаем H = B − 4πχH . Отсюда 1 H = B, (7.74) µ где безразмерная величина µ = 1 + 4πχ называется относительной магнитной проницаемостью или просто магнитной проницаемостью вещества. В отличие от диэлектрической восприимчивости α , которая может иметь лишь положительные значения (поляризация P в изотропном диэлектрике всегда направлена по полю E ), магнитная восприимчивость χ бывает как положительной, так и отрицательной. Поэтому магнитная проницаемость µ может быть как больше, так и меньше единицы. Энергия полного магнитного поля определяется выражением 1 W= H ⋅ B dV . (7.75) 8π ∫
∫ H ⋅ dl =
229
Из этой формулы следует, что энергия магнитного поля распределена в пространстве таким образом, что в каждой единице объёма содержится количество энергии wm , равное 1 wm = H ⋅B . 8π Величина wm может быть названа объёмной плотностью энергии магнитного поля. Из формулы (7.70) следует 4π div rotH = divj = 0 . c Но в соответствии с уравнением непрерывности (7.38) ∂ρ divj = − . ∂t Перепишем (7.70) в виде 4π ( j + jсмещ ), rotH = (7.76) c где jсмещ – дополнительный вектор, введённый Максвеллом для согласования выражений (7.70) и (7.38) и названный им плотностью тока смещения. Но div( j + jсмещ ) = divj + divjсмещ = 0 . Отсюда ∂ρ divjсмещ = − divj = . ∂t Напомним, что согласно (7.29) divD = 4πρ . При этом ∂ (∇D ) = 4π ∂ρ . ∂t ∂t 1 ∂D Тогда ∇jсмещ = . Отсюда ∇ 4π ∂t 1 ∂D . (7.77) jсмещ = 4π ∂t Подставив (7.77) в (7.76), получаем ∂D ⎞ 1⎛ (7.78) ∇ × H = ⎜ 4πj + ⎟. c⎝ ∂t ⎠ Это выражение, как и (7.55), является одним из основных в теории Максвелла. Открытие тока смещения, определяемого выражением (7.77), "уравняло в правах" электрическое и магнитное поля. Ток смещения имеется везде, где есть изменяющееся во времени электрическое 230
поле. В частности, он существует и внутри проводов, по которым течёт переменный электрический ток. Однако, внутри проводов ток смещения обычно бывает пренебрежимо мал по сравнению с током проводимости. Итак, при наличии электрических зарядов в пространстве устанавливается возбуждённое состояние, которое называется электромагнитным полем. Его представляют двумя векторами: вектором напряжённости электрического поля E и вектором магнитной индукции B . Для того, чтобы описать влияние поля на материальные объекты, была введена вторая группа векторов, а, именно, плотность электрического тока j , электрическое смещение D и вектор напряжённости магнитного поля H . Пространственные и временные производные пяти названных векторов связаны уравнениями Максвелла. Эти уравнения, определяющие поле в каждой точке пространства, вблизи которой физические свойства среды непрерывны, в гауссовой системе единиц имеют вид 1 4π rotH − D&= j, (7.78) c c 1 rotE + B&= 0 . (7.55) c Точка над буквой означает дифференцирование по времени. Векторные уравнения дополняются двумя скалярными соотношениями divD = 4πρ , (7.29) divB = 0 . (7.45) Кроме того, ∂ρ + divj = 0 . (7.38) ∂t По аналогии с соотношением, встречающимся в гидродинамике, уравнение (7.38) называется уравнением непрерывности. Оно отражает сохранение заряда в окрестности любой точки. Если все величины, характеризующие поле, не зависят от времени и отсутствуют токи ( j = 0 ) , то поле называют статистическим. Если эти величины не зависят от времени, но имеются токи ( j ≠ 0 ), то поле называют стационарным. Векторы полей оптического диапазона очень быстро изменяются во времени, но источники полей обычно таковы, что усреднённые по любому макроскопическому интервалу времени свойства поля оказываются независящими от времени. Часто термин 231
"стационарный" употребляется в более широком смысле для описания поля указанного типа. Примером такового поля может служить поле, образуемое непрерывным потоком излучения (например, от удалённой звезды) через оптическую систему. Уравнения Максвелла связывают пять основных величин E , H , B , D и j . Для того, чтобы при заданном распределении зарядов и токов уравнения допускали единственное решение для векторов поля, к этим уравнениям необходимо добавить соотношения, описывающие поведение веществ под влиянием поля. Такие соотношения называются материальными уравнениями. В общем случае они довольно сложны, но для тел, находящихся в покое друг относительно друга (или в состоянии очень медленного движения) и состоящих из изотропных веществ, т.е. веществ, физические свойства которых в каждой точке не зависят от направления, эти уравнения принимают относительно простую форму: D = εE , (7.30) B = µH , (7.74) j = σE . (7.79) Величина ε называется диэлектрической проницаемостью, µ – магнитной проницаемостью, а σ – удельной проводимостью. Уравнение (7.79) представляет собой дифференциальную форму закона Ома. Напомним, что участок цепи, на котором не действуют сторонние силы, называется однородным. Г.Ом экспериментально установил закон, согласно которому сила тока, текущего по однородному металлическому проводнику, пропорциональна падению напряжения U на проводнике: 1 I = U. (7.80) R Величина электрического сопротивления R зависит от формы и размеров проводника, а также от свойств материала, из которого он сделан. Для однородного цилиндрического проводника l R=ρ , (7.81) S где l – длина проводника, S – площадь его поперечного сечения, ρ – зависящий от свойств материала коэффициент, называемый удельным электрическим сопротивлением вещества. В изотропном проводнике упорядоченное движение носителей тока происходит в направлении вектора E , т.е. направления векторов j и E совпадают. 232
Выделим мысленно в окрестности некоторой точки элементарный цилиндрический объём с образующими, параллельными векторами j и E . При этом через поперечное сечение цилиндра течёт ток силой jdS . Напряжение, приложенное к цилиндру, равно Edl , где E – напряжённость поля в данном месте. Наконец, сопротивление цилиндра согласно (7.81) равно ρ(dl dS ) . Подставив эти значения в формулу (7.80), получаем dS 1 jdS = Edl или j = E . ρ ρdl Воспользовавшись тем, что векторы j и E имеют одинаковое направление, можно написать 1 j = E = σE . ρ Обратная ρ величина σ и называется удельной электрической проводимостью материала. Вещества, для которых величина σ пренебрежимо мала, называются изоляторами или диэлектриками. Их электрические и магнитные свойства полностью определяются величинами ε и µ . Для большинства веществ магнитная проницаемость µ практически равна единице.
233
Заключение Важно отметить, что изложенными в пособии разделами прикладной математики далеко не исчерпывается весь арсенал математических средств, применяемых для решения задач современной оптотехники. Широкое применение при решении задач юстировки зеркальных и зеркально-призменных систем находит матричное исчисление. Весьма эффективно эти задачи можно решать, используя аппарат гиперкомплексных чисел. Однако, теория кватернионов и бикватернионов и практика их применения не нашла достаточного отражения в учебной и учебно-методической литературе, ориентированной не только на подготовку оптотехников, но и механиков, занятых решением инженерных задач. Взаимосвязь параметров, рассматриваемых в оптотехнике проектирования и производстве оптических приборов, имеет, как правило, нелинейный характер, закономерность которого не очевидна. Подобные задачи можно решать путём применения статистических методов в имитационном моделировании, для чего необходимо владеть методами планирования эксперимента. Современные компьютерные технологии позволяют применять всё более совершенные математические средства для эффективного решения задач оптотехники. Поэтому квалификация оптотехника сегодня определяется не только высоким уровнем профессиональных знаний, но и широким кругозором в области математики и умением применять этот мощный инструмент для решения конкретных задач создания современных оптических приборов и комплексов. Это обстоятельство является важным стимулом появления новых учебных и учебно-методических пособий по различным разделам прикладной математики.
234
Литература 1. Мэтьюз Дж., Уокер Р. Математические методы в физике. М.: Атомиздат, 1972. 397 с. 2. Курант Р., Гильберт Д. Методы математической физики. Т.1 Перевод с нем. М.–Л., Гостехиздат, 1951. 476 с. 3. Хемминг Р.В. Численные методы (для научных работников и инженеров) М.: Наука, 1972. 400 с. 4. Зельдович Я.Б., Мышкис А.Д. Элементы прикладной математики. М.: Наука, 1967. 648 с. 5. Анго А. Математика для электро- и радиоинженеров. М.: Наука, 1967. 780 с. 6. Борн М., Вольф Э. Основы оптики. М.: Наука, 1970. 856 с. 7. Чебышев П.Л. Полное собрание сочинений. Т.II Математический анализ. М.–Л.: АН СССР, 1947. 520 с. 8. Копчёнова Н.В., Марон И.А. Вычислительная математика в примерах и задачах. М.: Наука, 1972. 368 с. 9. Никифоров А.Ф., Уваров В.Б. Специальные функции в математической физике. М.: Наука, 1978. 10. Ватсон Д.Н. Теория бесселевых функций. М.: Изд-во иностранной литературы, 1949, ч. I. 11. Штейнгауз Г. Задачи и размышления. М.: Мир, 1974. 400 с. 12. Беседа с Андреем Николаевичем Колмогоровым. – Квант, 1983, № 4, с. 12–15. 13. Стеклов В.А. Теория и практика в исследованиях Чебышева. Успехи математических наук, 1946, т. 1, № 2 (12), с. 4-11. 14. Данилов Ю.А. Многочлены Чебышева. Мн.: Вышэйшая школа, 1984. 157 с., ил. 15. Крылов А.Н. Пафнутий Львович Чебышев. Биографический очерк. В кн.: Крылов А.Н. 16. Воспоминания и очерки. М.: Изд-во АН СССР, 1956, с. 488–502. Зверев В.А., Точилина Т.В. Специальные разделы прикладной математики для оптотехников. Учебное пособие. – СПб.: СПбГУ ИТМО, 2005. – 235с.
Дизайн обложки Т.В. Точилина Редакционно-издательский отдел СПбГУ ИТМО Зав. РИО Н.Ф. Гусарова Лицензия ИД № 00408 от 05.11.99. Подписано в печать 07.07.05. Заказ 853. Тираж 100 экз.
235
Кафедра прикладной и компьютерной оптики Кафедра прикладной и компьютерной оптики была образована в 1996 году путем объединения двух старейших кафедр оптического факультета: кафедры теории оптических приборов и кафедры оптических приборов и компьютерной оптики, в результате чего кафедра стала крупнейшей и ведущей в России в области прикладной оптики, оптических приборов и компьютерной оптики. Кафедра имеет восемь учебно-исследовательских лабораторий: оптических измерений, контрольно-измерительных оптических приборов, микроскопов и медицинских оптических приборов, геодезических приборов, кинофотоприборов, компьютерных средств контроля оптики, исследования качества оптического изображения, а также лабораторию компьютерной оптики. На кафедре работают два сетевых компьютерных класса. В учебном процессе используются научный потенциал и лабораторная база крупнейшего в России научного центра в области оптики – ВНЦ ГОИ им. С.И.Вавилова, ведущего оптического предприятия – ОАО ″ЛОМО″. Достижения кафедры отмечены двумя Ленинскими премиями, пятью Государственными премиями, премией Совета Министров, премией французской Академии Наук. Кроме того, работы, выполненные на кафедре, отмечались многочисленными медалями и дипломами международных и российских выставок, медалями С.П.Королева, Ю.А.Гагарина, премиями Минвуза. За период существования кафедры было подготовлено более 150 кандидатов наук, из них 30 иностранцев, а также 16 докторов наук. Большинство научных и производственных подразделений в области прикладной оптики в России, а также многие в США, Израиле и Китае возглавляют ученики нашей научной школы. В настоящее время кафедра прокладной и компьютерной оптики факультета Оптико-информационных систем и технологий является одним из крупнейших подразделений Санкт-Петербургского государственного университета информационных технологий, механики и оптики, ориентированным на выпуск высококвалифицированных специалистов.