Определение 12.4.1: Пусть $E\subset{\mathbb{R}^n}$, $f(x)\colon{E}\to\mathbb{R}$, тогда говорят, что функция $f(x)$ имеет
в точке $x_0\in{E}$ локальный минимум, если
$$\exists{U}(x_0)\colon\forall{x}\in{U}_E(x_0)(f(x)\geq{f}(x_0));$$
строгий локальный минимум, если
$$\exists{U}(x_0)\colon\forall{x}\in{U}_E(x_0)(f(x)>f(x_0));$$
локальный максимум, если
$$\exists{U}(x_0)\colon\forall{x}\in{U}_E(x_0)(f(x)\leq{f}(x_0));$$
строгий локальный максимум, если
$$\exists{U}(x_0)\colon\forall{x}\in{U}_E(x_0)(f(x)<{f}(x_0)).$$
Если точка $x_0$ внутренняя ($x_0\in{i}ntE$), то говорят о внутренних локальный минимумах и максимумах.
Утверждение 12.4.1: Необходимые условия внутреннего локального экстремума.
Пусть $E\subset\mathbb{R}^n$, $x_0:=(x_1^0,x_2^0,\ldots,x_n^0)\in{i}ntE$ точка локального экстремума функции $f(x)$ и для любого $i\in\overline{1,n}$
существует частная производная $\displaystyle\frac{\partial{f}}{\partial{x}_i}(x_0)$, тогда для любого $i\in\overline{1,n}$
$\displaystyle\frac{\partial{f}}{\partial{x}_i}(x_0)=0$
Доказательство: Без ограничения общности будем считать, что $x_0$ точка локального максимума. Тогда,
$$x_0\in{i}ntE\Rightarrow\exists{U}(x_0)\colon\forall{x}\in{U}(x_0)(f(x)\leq{f}(x_0))\Rightarrow
\exists{r}>0\colon\forall{x}\in{B}(x_0,r)\subset{U}(x_0)(f(x)\leq{f}(x_0))$$
Фиксируем $i\in\overline{1,n}$, обозначим
$(\alpha,\beta):=B(x_0,r)\cap\{x=(x_1,\ldots,x_n)\in{E}\mid{x}_i^0\in\mathbb{R}\wedge\forall{k}\neq{i}(x_k=x_k^0)\}$ и
$\varphi(t):=f(x_1^0,\ldots,x_{i-1}^0,t,x_{i+1}^0,\ldots,x_n^0)\colon(\alpha,\beta)\to\mathbb{R}$, тогда
$$\forall{t}\in(\alpha,\beta)\subset{B}(x_0,r)(\varphi(t)=f(x_1^0,\ldots,x_{i-1}^0,t,x_{i+1}^0,\ldots,x_n^0)\leq\varphi(x_i^0)=f(x_0)).$$
То есть точка $x_i^0$ является точкой локального максимума функции $\varphi(t)$.
По определению частной производной существование частной производной
$\displaystyle\frac{\partial{f}}{\partial{x}_i}(x_0)$ означает, что существует производная $\displaystyle\frac{d\varphi}{dt}(x_i^0)$ и
$\displaystyle\frac{d\varphi}{dt}(x_i^0)=\frac{\partial{f}}{\partial{x}_i}(x_0)$. Применив к функции $\varphi(t)$
лемму Ферма получим $\displaystyle\frac{\partial{f}}{\partial{x}_i}(x_0)=\frac{d\varphi}{dt}(x_i^0)=0$.
$\newcommand{\grad}{\operatorname{grad}}$
Определение 12.4.2: Пусть $E\subset\mathbb{R}^n$, функция $f(x)\colon{E}\to\mathbb{R}$ такая, что для любого
$i\in\overline{1,n}$ в точке $x_0\in{i}ntE$ существуют частные производные $\displaystyle\frac{\partial{f}}{\partial{x}_i}(x_0)$, тогда градиентом
функции $f(x)$ в точке $x_0$ называется вектор
$\displaystyle\nabla{f}(x_0):=\grad{f}(x_0):=\left(\frac{\partial{f}}{\partial{x}_1}(x_0),\ldots,\frac{\partial{f}}{\partial{x}_n}(x_0)\right)$
Следствие 12.4.1: Пусть $E\subset\mathbb{R}^n$, $f(x)\colon{E}\to\mathbb{R}$, $x_0$ точка внутреннего локального экстремума функции $f(x)$, тогда
Доказательство:
Из пункта 2 следствия 12.4.1 вытекает, что дифференцируемость функции в точке не является необходимым условием существования экстремума в этой точке.
Определение 12.4.3: Пусть $E\subset\mathbb{R}^n$, $f(x)\colon{E}\to\mathbb{R}$, $x_0\in{E}$, тогда
Таким образом локальные экстремумы следует искать только среди критических точек первого рода.
Определение 12.4.4: Квадратичной формой над векторным пространством $\mathbb{R}^n$ будем называть функцию
$f(x)=f(x_1,\ldots,x_n)\colon\mathbb{R}^n\to\mathbb{R}$ такую, что для любого $x\in\mathbb{R}^n$ $f(x)=\sum_{i,j=1}^n(a_{ij}x_ix_j)$, где для любых
$i,j\in\overline{1,n}$ $a_{ij}\in\mathbb{R}$ и $a_{ij}=a_{ji}$.
Квадратная матрица $A:=(a_{ij})_{n\times{n}}$ называется матрицей квадратичной формы.
Значение квадратичной формы c матрицей $A$ на векторе $x$ обозначают $(Ax)x$.
Из определения следует, что матрица квадратичной формы симметрична и
$\displaystyle{f}(x)=(Ax)x=\sum_{i,j=1}^n(a_{ij}x_ix_j)=\sum_{i=1}^n(a_{ii}x_i^2)+2\sum_{i=1}^n\sum_{j=1}^{i-1}(a_{ij}x_ix_j).$
Квадратичная форма над $\mathbb{R}^2$ задается тремя числами $a,b,c\in\mathbb{R}$, при этом $A=\begin{pmatrix}a & b\\b & c\end{pmatrix}$,
$f(x)=ax^2+2bxy+cy^2$.
Определение 12.4.5: Квадратичная форма задаваемая матрицей $A$ называется
Теорема 12.4.1: Критерий Сильвестра.
Пусть $A=
\begin{pmatrix}
a_{1,1} & \cdots & a_{1,n}\\
\vdots & \ddots & \vdots\\
a_{n,1} & \cdots & a_{n,n}
\end{pmatrix}$,
для любого $k\in\overline{1,n}$ обозначим $\Delta_k:=
\begin{vmatrix}
a_{1,1} & \cdots & a_{1,k}\\
\vdots & \ddots & \vdots\\
a_{k,1} & \cdots & a_{k,k}
\end{vmatrix}$,
тогда
Доказательство: Доказывается в курсе алгебры параграф 16.3 теорема 4.
Пример 12.4.1: Рассмотрим случай $n=2$ квадратичной формы $(Ax)x=f(x,y)$ над $\mathbb{R}^2$.
В этом случае $f(x,y)=ax^2+2bxy+cy^2$, $A=\begin{pmatrix}a & b\\c & d\end{pmatrix}$, $\Delta_1=a$,
$\Delta_2=|A|=\begin{vmatrix}a & b\\b & c\end{vmatrix}=ac-b^2$.
Докажем пункт 1 критерия Сильвестра.
Фиксируем $y\in\mathbb{R}$.
Если $\Delta_1=a>0$, то $f(x,y)>0$ для любого $x\in\mathbb{R}$ тогда и только тогда, когда уравнение $ax^2+2bxy+y^2=0$ не имеет корней, т. е.
$$\forall{x}\in\mathbb{R}(f(x,y)>0)\Leftrightarrow4b^2y^2-4acy^2=4y^2(b^2-ac)<0\Leftrightarrow{a}c-b^2>0$$
В свою очередь из условия положительности $f(x,y)$ для $(x,y)=(0,1)$ следует, что $a>0$.
Докажем пункт 2 критерия Сильвестра.
Если $\Delta_1=a<0$, то $f(x,y)<0$ для любого $x\in\mathbb{R}$ тогда и только тогда, когда уравнение $ax^2+2bxy+y^2-0$ не имеет корней, т. е.
при $\Delta_2=ac-b^2>0$. В свою очередь из отрицательности $f(1,0)$ следует, что $a<0$.
Теорема 12.4.2: Пусть $E\subset\mathbb{R}^n$, $f(x)\colon{f}(x)\to\mathbb{R}$, $x_0\in{i}ntE$ такие, что
Доказательство: Применим локальную формулу Тэйлора степени 2 для функции $f(x)$
с центром в точке $x_0$. Пусть $H:=\{h\in\mathbb{R}^n\mid[x_0,x_0+h]\subset{U(x_0)}\}$, тогда
$$\Delta{f}(x_0,h)=f(x_0+h)-f(x_0)=df(x_0)(h)+\frac12d^2f(x_0)(h)+o(h^2)=\sum_{i=1}^n\left(\frac{\partial{f}}{\partial{x}_i}(x_0)h_i\right)+
\frac12\sum_{i,j=1}^n\left(\frac{\partial^2f}{\partial{x}_i\partial{x}_j}(x_0)h_ih_j\right)+o(h^2),H\ni{h}\to0$$
Так как $f'(x_0)=0$ то первое слагаемое последнего выражения равно нулю, следовательно $f(x_0+h)-f(x_0)=\frac12(Q(h)+o(h^2)),h\to0$.
Для любого $h\neq0$ обозначим $\displaystyle{e}_h:=\frac{h}{\|h\|}=\left(\frac{h_1}{\|h\|},\ldots,\frac{h_n}{\|h\|}\right)$, тогда $\|e_h\|=1$ и
$$f(x_0+h)-f(x_0)=
\frac{\|h\|^2}{2}\sum_{i,j=1}^n\left(\frac{\partial^2f}{\partial{x}_i\partial{x}_j}(x_0)\frac{h_i}{\|h\|}\frac{h_j}{\|h\|}\right)+\|h\|^2o(1)=
\frac{\|h\|^2}{2}(Q(e_h)+o(1)),H\ni{h}\to0$$
Обозначим $S:=\{x\in\mathbb{R}^n\mid\|h\|=1\}$ - единичная сфера с центром в точке 0. Функция $Q(h)$ непрерывна на $S$, так как все частные производные
$\displaystyle\frac{\partial^2f}{\partial{x}_i\partial{x}_j}$ непрерывны по условию 1. Так как $S$ замкнутое ограниченное множество, то есть компакт,
то по следствию 11.2.2 функция $Q(h)$ достигает на $S$ минимума $m:=\min_{h\in{S}}Q(h)$ и максимума
$M:=\max_{h\in{S}}Q(h)$. То есть
существуют $e_m,e_M\in{S}$ такие, что $Q(e_m)=m$, $Q(e_M)=M$.
Если в условиях теоремы 12.4.2 квадратичная форма $Q(h)$ полуопределена, то нельзя ничего сказать о существовании локального экстремума в точке $x_0$.
Пример 12.4.2: Рассмотрим функцию $f(x,y)=x^4+y^4-2x^2\colon\mathbb{R}^2\to\mathbb{R}$.
Вычислим частные производные первого порядка: $\frac{\partial{f}}{\partial{x}}(x,y)=4x^3-4x$, $\frac{\partial{f}}{\partial{y}}=4y^3$.
Приравняв к нулю обе производные и решив полученную систему уравнений найдем стационарные точки функции $f(x,y)$: $M_1=(-1,0)$, $M_2=(0,0)$, $M_3=(1,0)$.
Таким образом $f'(M_1)=f'(M_2)=f'(M_3)=0$.
Вычислим частные производные второго порядка: $f_{xx}(x,y)=12x^2-4$, $f_{xy}(x,y)=0$, $f_{yy}(x,y)=12y^2$.
Таким образом: $\displaystyle{Q}(h)=\frac12(f_{xx}(x,y)h_1^2+f_{yy}h_2^2)$.
При $(x,y)=M_1$ $Q(h)=(12-4)h_1^2=8h_1^2.$
При $(x,y)=M_2$ $Q(h)=-4h_1^2$.
При $(x,y)=M_3$ $Q(h)=(12-4)h_1^2=8h_1^2$.
То есть во всех трех точках квадратичная форма $Q(h)$ полуопределена, так как она равна нулю для любых $h\in\{(0,h_2)\mid{h}_2\in\mathbb{R}^2\}$,
а в остальных $h$ знакопостоянна.
Таким образом исследование квадратичной формы $Q(h)$ не дает никакой информации она наличии экстремумов функции $f(x)$, в то время как экстремумы есть.
Действительно, так как $f(x,y)=(x^2-1)^2+y^4-1$, то $f(M_1)=f(M_2)=-1$ и для любого $(x,y)\notin\{M_1,M_2\}$ $f(x,y)>-1$, то есть $M_1$ и $M_2$ точки
локального минимума функции $f(x,y)$.
В точке $M_2$ локального экстремума нет, так как $f(M_2)=0$ и для любого $y\in\mathbb{R}$ $f(0,y)=y^4>0$, a для любых $(x,y)\in\{(x,0)\mid|x|<1\}$
$f(x,0)=x^4-2x^2=x^2(x^2-2)<0$.
Поиск глобальных экстремумов.
Пусть $E$ компакт в $\mathbb{R}^n$, функция $f(x)\colon{E}\to\mathbb{R}$ непрерывна на $E$, тогда по
следствию 11.2.2 функция $f(x)$ достигает на $E$ максимума и минимума. Всякая точка из области
определения является либо внутренней, либо граничной. Ко всем внутренним точкам применимы утверждение 12.4.1 и
теорема 12.4.2, что позволяет определить является ли точка, точкой локального экстремума. После того как все внутренние
локальные экстремумы найдены, надо исследовать точки границы области определения, которых при $n>1$ может быть много. При исследовании поведения функции
на границе области определения общей стратегии нет, но в отдельных случаях есть результаты (россыпь в одном пакете).
Если граница задается в виде конечного числа равенств $F_i(x,y)=0$ и при этом функции $F_i$ непрерывно дифференцируемы, то можно применить
метод множителей Лагранжа (метод поиска условного экстремума).
Определение 12.4.6: Пусть $E\subset\mathbb{R}^n$, $f(x)\colon{E}\to\mathbb{R}$, $x_0\in\mathbb{R}^n$, $v\in\mathbb{R}^n$,
$v\neq{x}_0$, тогда предел функции $\displaystyle\frac{f(x_0+tv)-f(x_0)}{t}$ при $t\to0$ по множеству $\{t\in\mathbb{R}\mid{x}_0+tv\in{E}\}$
называется пределом по вектору $v$ от функции $f(x)$ в точке $x_0$. Если предел существует, то используется обозначение
$$\frac{\partial{f}}{\partial{v}}(x_0):=\lim_{t\to0}\frac{f(x_0+tv)-f(x_0)}{t}$$
Если при этом $\|v\|=1$, то производная $\frac{\partial{f}}{\partial{v}}$ называется производной по направлению $v$.
Пример 12.4.3: Пусть $E:=\mathbb{R}^n$, функция $f(x)\colon{E}\to\mathbb{R}$ дифференцируема на $\mathbb{R}^n$, вектор
$v=e_i=(x_1,\ldots,x_n)\in\mathbb{R}^n$ такой, что $x_i=1$ и для любого $k\neq{i}$ $x_k=0$. Тогда
$\displaystyle\frac{\partial{f}}{\partial{e}_i}=\frac{\partial{f}}{\partial{x}_i}$. То есть частная производная - это частный случай производной по
направлению.
Утверждение 12.4.2: Пусть $E\subset{R}^n$, $x_0\in{i}nt{E}$, функция $f(x)\colon{E}\to\mathbb{R}$ дифференцируема в точке $x_0$, тогда для любого $v=(v_1,\ldots,v_n)\in\mathbb{R}^n$ существует производная по направлению $$\frac{\partial{f}}{\partial{v}}(x_0)=\sum_{i=1}^n\left(\frac{\partial{f}}{\partial{x}_i}(x_0)v_i\right)=(\grad{f(x_0)},v)$$ где последнее выражение это скалярное произведение $\grad{f(x_0)}$ и $v$.
Доказательство: Рассмотрим функцию $\varphi(t):=f(x_0+tv)\colon\mathbb{R}\to\mathbb{R}^n$. Так как существует производная $f'(x_0)$ и существует
производная $(x_0+vt)'|_t=v$, то по теореме о производной композиции существует производная
$$\frac{\partial{f}}{\partial{v}}(x_0):=\varphi'(0)=f'(x_0)\circ{v}=
\left(\frac{\partial{f}}{\partial{x}_i}(x_0),\ldots,\frac{\partial{f}}{\partial{x}_n}(x_0)\right)\begin{pmatrix}v_1\\\vdots\\v_n\end{pmatrix}=
(\grad{f(x_0)},v)=\sum_{i=1}^n\left(\frac{\partial{f}}{\partial{x}_i}(x_0)v_i\right)$$
Из утверждения 12.4.2 в частности следует, что для любых $u,v\in\mathbb{R}^n$, $\alpha,\beta\in\mathbb{R}$
$$\partial_{\alpha{u}+\beta{v}}f(x_0)=\sum_{i=1}^n\left(\frac{\partial{f}}{\partial{x}_i}(x_0)(\alpha{u}_i+\beta{v}_i)\right)=
\alpha\sum_{i=1}^n\left(\frac{\partial{f}}{\partial{x}_i}u_i\right)+\beta\sum_{i=1}^n\left(\frac{\partial{f}}{\partial{x}_i}v_i\right)=
\alpha\partial_{u}f(x_0)+\beta\partial_{v}f(x_0).$$
То есть производная по направлению - линейный оператор.
Так как $\frac{\partial{f}}{\partial{v}}(x_0)=(\grad{f}(x_0),v)$, то по неравенству Коши - Буняковского
при $\|v\|=1$ имеем
$$\left|\frac{\partial{f}}{\partial{v}}(x_0)\right|\leq\|\grad{f(x_0)}\|\|v\|=\|\grad{f(x_0)}\|\Rightarrow
\left(\left|\frac{\partial{f}}{\partial{v}}(x_0)\right|=\|\grad{f(x_0)}\|\Leftrightarrow{v}=\frac{\grad{f(x_0)}}{\|\grad {f(x_0)}\|}\right)$$
Таким образом вектор $\displaystyle{v}_{max}:=\frac{\grad{f(x_0)}}{\|\grad{f(x_0)}\|}$ является направлением наибольшего возрастания функции $f(x)$ в точке
$x_0$, а вектор $\displaystyle{v}_{min}:=-\frac{\grad{f(x_0)}}{\|\grad{f(x_0)}\|}$ направление наибольшего убывания.
На данном свойстве градиента основан метод градиентного спуска поиска внутренних локальных экстремумов. Допустим надо найти локальный минимум функции $f(x)$,
тогда