previous contents next
$\newcommand{\cov}{\operatorname{cov}}$ $\newcommand{\rang}{\operatorname{rang}}$
12.6 Метод $\chi^2$ оценки параметров.

Определение 12.9: Пусть $\xi\sim{F(x,\theta_1,\ldots,\theta_m)}$ случайная величина с множеством значений $S=\bigsqcup_{i=1}^{r}S_i$. Для любого $i\in\overline{1,r}$ $\nu_i$ - число элементов выборки $(X_1,\ldots,X_n)$, значение которых попало в подмножество $S_i$ и $p_i:=p_i(\theta_1,\ldots,\theta_m):=P(\xi\in{S}_i)$. Тогда статистика $$\chi^2:=\sum_{i=1}^{r}\frac{(\nu_i-np_i)^2}{np_i},$$ называется статистикой хи-квадрат.

Теорема 12.7: Теорема Пирсона.
Статистика $\chi^2$ сходится по распределению к случайной величине с распределением $\chi_{r-1}^2$. $$\chi^2\xrightarrow[n\to\infty]{d}\chi_{r-1}^2$$

Доказательство:
В обозначениях определения 12.9 положим для любого $i\in\overline{1,n}$, $k\in\overline{1,r}$ $$ \eta_k^{(i)}:=\begin{cases}1, & X_i\in{S}_k \\ 0, & X_i\notin{S}_k;\end{cases} $$ $\overline{\eta}_i:=(\eta_1^{(i)},\ldots,\eta_r^{(i)})$, $\overline{\nu}:=(\nu_1,\ldots,\nu_r)$. Тогда $\overline{\nu}=\sum_{i=1}^n\overline{\eta}_i,$ где $\overline{\eta}_i$ - независимы и одинаково распределены. Тогда по п. 4 теоремы 6.1 $$\varphi_{\overline{\nu}}(t_1,\ldots,t_r)=\prod_{i=1}^n\varphi_{\overline{\eta}_i}(t_1,\ldots,t_r)=\varphi_{\overline{\eta}_1}^n(t_1,\ldots,t_n),$$ где $$ \varphi_{\overline{\eta}_1}=E\exp(i\overline{t}\eta_1^{\downarrow})=E\exp\left(i\sum_{k=1}^rt_k\eta_k^{(1)}\right)=p_1e^{it_1}+\cdots+p_re^{it_r}, $$ следовательно, $$\varphi_{\overline{\nu}}(t_1,\ldots,t_r)=\left(p_1e^{it_1}+\cdots+p_re^{it_r}\right)^n.\quad(*)$$ Положим для любого $k\in\overline{1,r}$ $$\xi_k:=\frac{\nu_k-np_k}{\sqrt{np_k}},$$ тогда $\chi^2=\sum_{k=1}^r\xi_k^2$ и \begin{multline*} \varphi_{\overline\xi}(t_1,\ldots,t_r)=E\exp(i\overline{t}\xi^{\downarrow})=E\exp\left(i\sum_{k=1}^rt_k\xi_k\right)= E\exp\left(\sum_{k=1}^rt_k\frac{\nu_k-np_k}{\sqrt{np_k}}\right)=\exp\left(-i\sum_{k=1}^rt_k\sqrt{np_k}\right)E\exp\left(i\sum_{k=1}^r\frac{\nu_kt_k}{\sqrt{np_k}}\right)=\\= \exp\left(-i\sum_{k=1}^rt_k\sqrt{np_k}\right)\varphi_{\overline\nu}\left(\frac{t_1}{\sqrt{np_1}},\ldots,\frac{t_r}{\sqrt{np_r}}\right)= \exp\left(-i\sum_{k=1}^rt_k\sqrt{np_k}\right)\left(p_1\exp\frac{it_1}{\sqrt{np_1}}+\cdots+p_r\exp\frac{it_r}{\sqrt{np_r}}\right)^n, \end{multline*} где предпоследнее равенство в силу п. 5 теоремы 6.1, а последнее в силу $(*)$. Прологорифмируем полученное равенство $$ \ln\varphi_{\overline\xi}(t_1,\dots,t_r)=-i\sum_{k=1}^rt_k\sqrt{np_k}+n\ln\left(p_1\exp\frac{it_1}{\sqrt{np_1}}+\cdots+p_r\exp\frac{it_r}{\sqrt{np_r}}\right). $$ Воспользуемся разложением $$\exp\frac{it_k}{\sqrt{np_k}}=1+i\frac{t_k}{\sqrt{np_i}}-\frac{t_k^2}{2np_k}+o\left(\frac1{n}\right),n\to\infty,$$ тогда, учитывая что $\sum_{k=1}^rp_r=1$, получим $$ \ln\varphi_{\overline\xi}(t_1,\ldots,t_r)= -i\sum_{k=1}^rt_k\sqrt{np_k}+n\ln\left(1+i\sum_{k=1}^r\frac{p_kt_k}{\sqrt{np_k}}-\sum_{k=1}^r\frac{t_k^2}{2n}+o\left(\frac1{n}\right)\right). $$ Воспользовавшись разложением $$\ln(1+x)=x-\frac{x^2}{2}+o(x^2),x\to0,$$ получим $$ \ln\varphi_{\overline\xi}(t_1,\ldots,t_r)=-i\sum_{k=1}^rt_k\sqrt{np_k}+n\left(i\sum_{k=1}^r\frac{p_kt_k}{\sqrt{np_k}}- \sum_{k=1}^r\frac{t_k^2}{2n}+\frac12\left(\sum_{k=1}^r\frac{p_kt_k}{\sqrt{np_k}}\right)^2+o\left(\frac1{n}\right)\right)= -\frac12\sum_{k=1}^rt_k^2+\frac12\left(\sum_{k=1}^r\sqrt{p_k}t_k\right)^2+o(1),n\to\infty. $$ Таким образом, $$\lim_{n\to\infty}\varphi_{\overline\xi}(t_1,\ldots,t_r)=e^{-Q(t_1,\ldots,t_r)/2},\quad(**)$$ где $Q$ - квадратичная форма $$ Q= \begin{pmatrix} 1-p_1 & -\sqrt{p_1p_2} & \cdots & -\sqrt{p_1p_r} \\ -\sqrt{p_2p_1} & 1-p_2 & \cdots & -\sqrt{p_2p_r} \\ \vdots & & \ddots & \vdots \\ -\sqrt{p_rp_1} & -\sqrt{p_rp_2} & \cdots & 1-p_r \\ \end{pmatrix} $$ то есть $Q=E-q^{\downarrow}\overline{q}$, где $\overline{q}=(\sqrt{q_1},\ldots,\sqrt{q_r})$. Тогда $$ Q^2=(E-q^{\downarrow}\overline{q})(E-q^{\downarrow}\overline{q})= E-q^{\downarrow}\overline{q}-q^{\downarrow}\overline{q}+q^{\downarrow}\overline{q}q^{\downarrow}\overline{q}=E-q^{\downarrow}\overline{q}=Q, $$ то есть многочлен $x^2-x$ аннулирует матрицу $Q$, следовательно, собственными значениями матрицы $Q$ могут быть только числа 1 и 0 (?), поэтому квадратичная форма неотрицательно определена. Тогда по п. 5 примера 6.2 и теореме 8.1 $\exp(-Q(t_1,\ldots,t_r)/2)$ - характеристическая функция нормального распределения $N(\overline{0},Q)$. Следовательно, по $(**)$ и теореме 6.14 $$\overline\xi\xrightarrow[n\to\infty]{d}\overline{\xi}_0:=(\xi_1^{(0)},\ldots,\xi_r^{(0)})\sim{N}(\overline{0},Q).$$ Так как $\|\overline{q}\|=\sum_{k=1}^r(\sqrt{p_k})^2=1\neq0$ , то по теореме 14.2 DM существутет ортонормированная матрица $C$ с последней строкой $\overline{q}$. Положим $u^{\downarrow}:=Ct^{\downarrow}$, тогда $$u_r=\overline{q}t^{\downarrow}=\sum_{k=1}^r\sqrt{p_k}t_k.$$ Так как ортогональное предобразование не меняет суммы квадратов ((?) см. например Г. Крамер "Математические методы статистики" 1975 г. стр. 455), то $$Q(u_1,\ldots,u_r)=\sum_{k=1}^ru_k^2-\left(\sum_{k=1}^r\sqrt{p_k}t_k\right)^2=\sum_{k=1}^ru_k^2-u_r=\sum_{k=1}^{r-1}u_k^2.$$ Таким образом, $\rang{Q}=r-1$ и $$\chi^2=\sum_{k=1}^r\xi^2=\overline\xi\xi^{\downarrow}\xrightarrow[n\to\infty]{d}\overline{\xi}_0\xi_0^{\downarrow}=\sum_{k=1}^{r-1}\xi_1^{(0)}\sim\chi^2_{r-1},$$ где сходимость следует из доказанного выше и задачи 12.4

Задача 12.4: Доказать, что если $f(x)$ - непрерывная функция, то $$\xi_n\xrightarrow[n\to\infty]{P}\xi\Rightarrow{f}(\xi_n)\xrightarrow[n\to\infty]{P}f(\xi).$$

Определение 12.10: Пусть $\xi\sim{F}(x;\theta_1,\ldots,\theta_m)$, тогда для любого $k\in\overline{1,m}$ значение $\tilde\theta_k=\tilde\theta_k(x_1,\ldots,x_n)$, которое минимизирует статистику $\chi^2$ для $\xi$ называется оценкой параметра $\theta_k$ по методу $\chi^2$.

Замечание 12.3: Метод $\chi^2$ оценки параметров.
Если $F(x;\theta_1,\ldots,\theta_m)$ дифференцируема по $\theta_i$ для любого $i\in\overline{1,m}$, то оценки $\tilde\theta_1,\ldots,\tilde\theta_m$ параметров $\theta_1,\ldots,\theta_m$ по методу $\chi^2$ находят из системы уравнений $$\left\{\frac{\partial\chi^2}{\partial\theta_i}=0,i\in\overline{1,m}\right..$$ Продифференцировав по $\theta_i$ для любого $i\in\overline{1,m}$ получим $$ \frac{\partial\chi^2}{\partial\theta_i}=\sum_{k=1}^r\frac1{n^2p_k^2}\left(2(\nu_k-np_k)(-n)\frac{\partial{p}_k}{\partial\theta_i}np_k-(\nu_k-np_k)^2n\frac{\partial{p}_k}{\partial\theta_i}\right)= -2\sum_{k=1}^r\frac{\nu_i-np_k}{p_k}\frac{\partial{p}_k}{\partial\theta_i}-\sum_{k=1}^r\frac{(\nu_k-np_k)^2}{np_k}\frac{\partial{p}_k}{\partial\theta_i}=0 $$ Так как дисперсия распределения в полиномиальной схеме из $n$ независимых испытаний равна $npq$ (п. 3 пример 4.3), то из неравенства Чебышева (п. 3 теоремы 4.14) следует, что $$P\{|\nu_k-np_k|>c\sqrt{n}\}\leq\frac{np_k(1-p_k)}{c^2n}=\frac{p_k(1-p_k)}{c^2}.$$ То есть величина $\nu_k-np_k$ имеет по вероятности порядок $\sqrt{n}$, следовательно, второе слагаемое в пределе при $n\to\infty$ не зависит от $n$, поэтому при больших $n$ им можно пренебречь. Тогда $$ \sum_{k=1}^r\frac{\nu_k-np_k}{p_k}\frac{\partial{p}_k}{\partial\theta_i}= \sum_{k=1}^r\frac{\nu_k}{p_k}\frac{\partial{p}_k}{\partial\theta_i}-n\sum_{k=1}^r\frac{\partial{p}_k}{\partial\theta_i}= \sum_{k=1}^r\frac{\nu_k}{p_k}\frac{\partial{p}_k}{\partial\theta_i}=0, $$ где второе равенство в силу того, что $\sum_{k=1}^r\partial{p}_k/\partial\theta_i=\left(\sum_{k=1}^rp_k\right)'_{\theta_i}=0$. Таким обрзом, для нахождения оценок параметров $\theta_1,\ldots,\theta_m$ по методу $\chi^2$ (который при данном упрощении называется видоизменённым методом $\chi^2$) имеем следующую систему уравнений $$\left\{\sum_{k=1}^r\frac{\nu_k}{p_k}\frac{\partial{p}_k}{\partial\theta_i}=0,i\in\overline{1,m}\right..$$

Теорема 12.8: Пусть $\xi\sim{F}(x;\theta_1,\ldots,\theta_m)$ случайная величина с множеством значений $\Theta=\bigsqcup_{k=1}^rS_k$, где $r>m$. Для любого $k\in\overline{1,r}$ обозначим $p_k(\theta_1,\ldots,\theta_m):=P(\xi\in{S}_k)$ такие, что

  1. $\Theta$ - область;
  2. существует $c>0$ такое, что для любого $k\in\overline{1,r}$ $p_k(\theta_1,\ldots,\theta_m)\geq{c}$;
  3. для любого $k\in\overline{1,r}$, $i,j\in\overline{1,m}$ существуют и непрерывны производные $$\frac{\partial{p}_k(\theta_1,\ldots,\theta_m)}{\partial\theta_i},\frac{\partial^2p_k(\theta_1,\ldots,\theta_m)}{\partial\theta_i\partial\theta_j};$$
  4. ранг матрицы $$B:=\left\|\frac{\partial{p}_k(\theta_1,\ldots,\theta_m)}{\partial\theta_i}\right\|$$ равен $m$.
Тогда система уравнений $$\left\{\frac{\nu_i}{p_k}\frac{\partial{p}_k(\theta_1,\ldots,\theta_m)}{\partial\theta_i}=0,k\in\overline{1,m}\right.$$ имеет единственное решение, которое является состоятельной оценкой параметров $\theta_1,\ldots,\theta_m$. При этом если $\tilde\theta_1,\ldots,\tilde\theta_m$ является решением системы, то $$ \tilde\chi^2:=\sum_{k=1}^r\frac{(\nu_k-np_k(\tilde\theta_1,\ldots,\tilde\theta_m))^2}{np_k(\tilde\theta_1,\ldots,\tilde\theta_m)}\xrightarrow [n\to\infty]{d}\chi_{r-m-1}^2 $$

Доказательство:
Доказательство например в Г. Крамер "Математические методы статистики" 1975 г. стр. 463.

12.7 Доверительные интервалы.

Определение 12.11: Пусть $(X_1,\ldots,X_n)$ выборка над случайной величиной $\xi\sim{F}(x;\theta)$, $\theta\in\Theta$; $\tilde\theta_1(X_1,\ldots,X_n),\tilde\theta_2(X_1,\ldots,X_n)\in\Theta$ такие, что $P\{\tilde\theta_1<\theta<\tilde\theta_2\}=1-\alpha$, $0<\alpha<1$, тогда говорят, что $(\tilde\theta_1,\tilde\theta_2)$ - доверительный интервал для параметра $\theta$ с коэффициентом доверия $1-\alpha$.

Замечание 12.4: Основные характеристики доверительного интрервала: длина - $\tilde\theta_2-\tilde\theta_1$ и коэффициент доверия - $1-\alpha$.

Определение 12.12: Пусть $\xi\sim{F}(x)$, $p\in(0,1)$, тогда решение уравнения $F(x)=p$ называется квантилью уровня $p$ функции $F(x)$.
То есть если $x_p$ квантиль уровня $p\in(0,1)$ функции распределения $F(x)$, то $F(x_p):=P\{\xi<x_p\}=p$.

Пример 12.5: Пусть $\xi\sim{N}(\mu,\sigma^2)$, где $\mu$ не известно, а $\sigma^2$ известно. Дана выборка $(X_1,\ldots,X_n)$ и коэффициент доверия $1-\alpha$. Найдём доверительный интервал для параметра $\mu$. Из задачи 11.1 и теоремы 11.4 следует, что $$\overline{x}:=\frac1{n}\sum_{i=1}^nX_i\sim{N}\left(\mu,\frac{\sigma^2}{n}\right),$$ тогда $$\frac{\overline{x}-\mu}{\sigma}\sqrt{n}\sim{N}(0,1).$$ Находим по таблицам стандартного нормального распределения квантиль $t_{1-\alpha/2}=-t_{\alpha/2}$, тогда \begin{multline*} P\left\{\left|\frac{\overline{x}-\mu}{\sigma}\sqrt{n}\right|<t_{1-\alpha/2}\right\}=1-\alpha\Rightarrow {P}\left\{\frac{-\sigma{t}_{1-\alpha/2}}{\sqrt{n}}<\overline{x}-\mu<\frac{\sigma{t}_{1-\alpha/2}}{\sqrt{n}}\right\}=1-\alpha\Rightarrow P\left\{\overline{x}-\frac{\sigma{t}_{1-\alpha/2}}{\sqrt{n}}<\mu<\overline{x}+\frac{\sigma{t}_{1-\alpha/2}}{\sqrt{n}}\right\}=1-\alpha. \end{multline*} Следовательно, в качестве доверительного интервала для параметра $\mu$ с коэффициентом доверия $1-\alpha$ для выборки $(X_1,\ldots,X_2)$ можно взять интервал $$(\tilde\theta_1,\tilde\theta_2):=\left(\overline{x}-\frac{\sigma{t}_{1-\alpha/2}}{\sqrt{n}},\overline{x}+\frac{\sigma{t}_{1-\alpha/2}}{\sqrt{n}}\right).$$ Заметим, что для разных выборок $(X_1,\ldots,X_n)$ численные значения $\tilde\theta_1$, $\tilde\theta_2$ могут отличаться и чем больше объем выборки при фиксированном $\alpha$, тем уже будет доверительный интервал.

Пример 12.6: Пусть $\xi\sim{N}(\mu,\sigma^2)$, где $\mu$ известно, а $\sigma^2$ не известно. Дана выборка $(X_1,\ldots,X_n)$ и коэффициент доверия $1-\alpha$. Найдем доверительный интервал для параметра $\sigma^2$.
Обозначим $$S_0^2:=\frac1{n}\sum_{i=1}^n(X_i-\mu)^2,$$ тогда $$\frac{nS_0^2}{\sigma^2}=\sum_{i=1}^n\left(\frac{X_i-\mu}{\sigma}\right)^2,$$ где справа стоит сумма независимых случайных величин с распеределением $N(0,1)$, следовательно, $$\frac{nS_0^2}{\sigma^2}\sim\chi^2_n.$$ Находим по таблицам квантили $\chi^2_{\alpha/2,n}$ и $\chi^2_{1-\alpha/2,n}$ распределения $\chi^2_n$ уровня $\alpha/2$ и $1-\alpha/2$ соответственно. Тогда $$ P\left\{\chi^2_{\alpha/2,n}<\frac{nS_0^2}{\sigma^2}<\chi^2_{1-\alpha/2,n}\right\}=1-\alpha\Rightarrow P\left\{\frac{nS_0^2}{\chi^2_{1-\alpha/2,n}}<\sigma^2<\frac{nS_0^2}{\chi^2_{\alpha/2,n}}\right\}=1-\alpha. $$ Следовательно, в качестве доверительного интервала для параметра $\sigma^2$ с коэффициентов доверия $1-\alpha$ для выборки $(X_1,\ldots,X_n)$ можно взять интервал $$(\tilde\theta_1,\tilde\theta_2):=\left(\frac{nS_0^2}{\chi^2_{1-\alpha/2}},\frac{nS_0^2}{\chi^2_{\alpha/2,n}}\right).$$

Теорема 12.9: Теорема Фишера.
Пусть $(X_1,\ldots,X_n)$ выборка над $\xi\sim{N}(\mu,\sigma^2)$, тогда статистики $$\overline{x}:=\frac1{n}\sum_{i=1}^nX_i,\,S^2:=\frac1{n}\sum_{i=1}^n(X_i-\overline{x})^2$$ независимы и при этом $$\overline{x}\sim{N}\left(\mu,\frac{\sigma^2}{n}\right),\,\frac{nS^2}{\sigma^2}\sim\chi_{n-1}^2.$$

Доказательство:
Доказательство, например, в Г. Крамер "Математические методы статистики" 1975 г. стр. 419.

Пример 12.7: Найдем доверительный интервал с коэффициентов доверия $1-\alpha$ для параметра $p$ биномиального распределения $B(n,p)$ при известном $n$. Пусть $\nu$ - число успехов, тогда для любого $k\in\overline{0,n}$ $$p_k:=p(\nu=k):=\binom{n}{k}p^k(1-p)^{n-k}.$$ Разбиваем интервал $(0,1)$ на $r+1$ промежутков $0<p_1<\cdots<p_r<1$, для каждого $p_i$ по таблицам биномиального распределения находим максимальное $s_i$ и минимальное $t_i$, такие что $$P(\nu\leq{s}_i):=\sum_{k=0}^{s_i}\binom{n}{k}p_i^k(1-p_i)^{n-k}\leq\frac{\alpha}{2}$$ $$P(\nu\geq{t}_i):=\sum_{k=t_i}^n\binom{n}{k}p_i^k(1-p_i)^{n-k}\leq\frac{\alpha}{2}.$$ Если $\nu$ число успехов, $s:=\max\{s_i|s_i\leq\nu,i\in\overline{1,r}\}$, $t:=\min\{t_i|t_i\geq\nu,i\in\overline{1,r}\}$, тогда интервал $(p_s,p_t)$ является доверительным интервалом для параметра $p$ с коэффициентом доверия $1-\alpha$.

Определение 12.13: Статистика $G(x_1,\ldots,x;\theta)$ называется центральной, если

  1. распределение $G(x_1,\ldots,x_n;\theta)$ не зависит от $\theta$;
  2. функция $G(x_1,\ldots,x_n;\theta)$ непрерывна и строго монотонна по $\theta$ при фиксированных $x_1,\ldots,x_n$.

Пример 12.8: Пусть $\xi\sim{N}(\mu,\sigma^2)$, где $\sigma^2$ известно, а $\mu$ нет. Тогда статистика $$G(x_1,\ldots,x_n;\mu):=\frac{\overline{x}-\mu}{\sigma}\sqrt{n}$$ являтеся центральной, так как распределение $G(x_1,\ldots,x_n;\mu)\sim{N}(0,1)$ не зависит от $\mu$.

Замечание 12.3: Построение доверительных интеравалов с помощью центральной статистик.
Пусть $(X_1,\ldots,X_n)$ выборка над случайной величиной $\xi\sim{F}(x;\theta)$. Пусть $p_G(y)$ плотность распределения статистики $G(X_1,\ldots,X_n;\theta)$, тогда сущетсвуют $y_1<y_2$ такие, что $$\int\limits_{y_1}^{y_2}p_G(y)dy=P\{y_1<G(X_1,\ldots,X_n;\theta)<y_2\}=1-\alpha.$$ Так как функция $G(x_1,\ldots,x_n;\theta)$ непрерывна и монотонна по $\theta$, то для любых $x_1,\ldots,x_n$ существуют, $\theta_1(x_1,\ldots,x_n)$, $\theta_2(x_1,\ldots,x_n)$ такие, что $\theta_1<\theta_2$ и $G(x_1,\ldots,x_n;\theta_1)=y_1$, $G(x_1,\ldots,x_n;\theta_2)=y_2$ (утверждение 5.5.9 MA) и тогда $P\{\theta_1<\theta<\theta_2\}=1-\alpha$.

Утверждение 12.1: Пусть $\xi\sim{F}(x;\theta)$ такая, что

  1. $F(x;\theta)$ строго монотонна и непрерывна по $x$ при фиксированном $\theta$;
  2. $F(x;\theta)$ строго монотонна и непрерывна по $\theta$ при фиксированном $x$;
тогда статистика $$G(X_1,\ldots,X_n;\theta):=-\sum_{i=1}^n\ln{F}(X_i;\theta)$$ является центральной.

Доказательство:

  1. $G(x_1,\ldots,x_n;\theta)$ непрерывна и строгомонотонна по $\theta$. Это следует из условия 2 а так же непрерывности и монотонности функции $\ln{x}$.
  2. Обозначим $\eta:=F(\xi)$, тогда если $F(x)$ непрерывна и строго монотонна, то по теореме 5.5.5 MA и утверждению 5.5.9 MA существует непрерывная и возрастающая функция $F^{-1}(x)$ определенная на $(0,1)$, следовательно для любого $x\in(0,1)$ $$F_{\eta}(x)=P(\eta\leq{x})=P(\xi\leq{F}^{-1}(x))=F(F^{-1}(x))=x,$$ то есть для любого $i\in\overline{1,n}$ $\eta=F(X_i;\theta)\sim{R}(0,1)$.
    Обознчим плотность распределения $G$ как $p_G(y)$, функцию распределения равномерной плотности $R(0,1)$ как $\Phi_R(y)$ где $$\Phi_R(y):=\begin{cases}0, & y\leq{0} \\ y, & 0<y\leq1 \\ 1, & y>1 \end{cases}.$$ Тогда для любого $i\in\overline{1,n}$ $$ P\{-\ln{F}(X_i;\theta)<y\}=P\{\ln{F}(X_i;\theta)>-y\}=P\{F(X_i;\theta)>e^{-y}\}=1-\Phi_R(e^{-y})=1-e^{-y}, $$ то есть $-\ln{F}(X_i;\theta)\sim\Gamma(1,1)$ для любого $i\in\overline{1,n}$ и для любого $\theta$. Так как $\Gamma(\alpha,\beta_1)*\Gamma(\alpha,\beta_2)=\Gamma(\alpha,\beta_1+\beta_2)$ (см. например Феллер В. "Введение в теорию вероятностей и её приложения" 1984 г. стр. 62), то $G(X_1,\ldots,X_n;\theta)\sim\Gamma(1,n)$, то есть распределение $G$ не зависит от $\theta$.

Пример 12.9: Доверительный интервал для разности математических ожиданий двух нормальных распределений.
Пусть $\xi_1\sim{N}(\mu_1,\sigma_1)$, $\xi_2\sim{N}(\mu_2,\sigma_2)$, где $\mu_1$, $\mu_2$ неизвестны. Рассмотрим два случая.

  1. Пусть $\sigma_1$ и $\sigma_2$ известны.
    Найдем доверительный интервал для параметра $\mu_1-\mu_2$ с коэффициентом доверия $1-\alpha$.
    Пусть $(X_1,\ldots,X_{n_1})$ выборка над $\xi_1$, $(Y_1,\ldots,Y_{n_2})$ выборка над $\xi_2$. Если $\xi\sim{p}(x)$, $\eta:=a\xi+b$, то плотность случайной величины $\eta$ (если она существует) равна $$\frac1{|a|}p\left(\frac{y-b}{a}\right).$$ Доказательство этого факта можно найти например в Г. Крамер "Математические методы статистики" 1975 г. стр. 189. Тогда согласно теореме 4.11, если $\xi\sim{N}(\mu,\sigma^2)$, то $$ \overline{x}=\frac1{n_1}\sum_{i=1}^{n_1}X_i\sim\frac{\sqrt{n_1}}{\sqrt{2\pi}\sigma_1}\exp-\frac{(n_1x-n_1\mu_1)^2}{2n_1\sigma_1^2}= \frac1{\sqrt{2\pi}\sigma_1/\sqrt{n_1}}\exp-\frac{(x-\mu_1)^2}{2\sigma_1^2/n_1}\sim{N}\left(\mu_1,\frac{\sigma_1^2}{n_1}\right), $$ и если $\xi\sim{N}(\mu,\sigma^2)$, то $$-\xi\sim\frac1{\sqrt{2\pi}\sigma}\exp-\frac{(-x-\mu)^2}{2\sigma^2}=\frac1{\sqrt{2\pi}\sigma}\exp-\frac{(x-(-\mu))^2}{2\sigma^2}\sim{N}(-\mu,\sigma^2).$$ Тогда $$\overline{x}-\overline{y}\sim{N}\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{n}\right)$$ и $$\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}\sim{N}(0,1).$$ Находим по таблицам $t_{1-\alpha/2}$ квантиль уровня $1-\alpha/2$ распределения $N(0,1)$, тогда $$ P\left\{-t_{1-\alpha/2}<\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}<t_{1-\alpha/2}\right\}=1-\alpha $$ тогда разрешая неравенство относительно $\mu_1-\mu_2$ находим искомый доверительный интервал $$ \left(t_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}+\overline{x}-\overline{y},-t_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+ \frac{\sigma_2^2}{n_2}}+\overline{x}-\overline{y}\right) $$
  2. Пусть $\sigma_1$ и $\sigma_2$ неизвестны, при этом для упрощения будем считать, что $\sigma_1=\sigma_2=\sigma$.
    По теореме Фишера (теорема 12.9) $$\frac{n_1S_x^2}{\sigma^2}\sim\chi_{n_1-1}^2,\,\frac{n_2S_y^2}{\sigma}\sim\chi_{n_2-1}^2,$$ тогда $$\frac{n_1S_x^2}{\sigma^2}+\frac{n_2S_y^2}{n_2}\sim\chi_{n_1+n_2-2}.$$ В предыдущем пункте было доказано, что $$\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sqrt{\sigma^2/n_1+\sigma^2/n_2}}\sim{N}(0,1).$$ В Г. Крамер "Математические методы статистики" 1975 г. стр. 264 показано, что если $\xi\sim{N}(0,1)$, $\eta\sim\chi_n^2$, $\xi$ и $\eta$ независимы, то $$\frac{\xi}{\sqrt{\eta/n}}\sim{S}t_n.$$ $$ \tilde\theta:=\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sigma\sqrt{1/n_1+1/n_2}}:\sqrt{\frac{n_1S_x^2+n_2S_y^2}{\sigma^2(n_1+n_2-2)}}= \frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sqrt{n_1+n_2}}\sqrt{\frac{(n_1+n_2-2)n_1n_2}{n_1S_x^2+n_2S_y^2}}\sim{S}t_{n_1+n_2-2}. $$ Таким образом, если $t_{1-\alpha/2}$ квантиль распределения Стьюдента $St_{n_1+n_2-2}$ уровня $1-\alpha/2$, то $$P\{-t_{1-\alpha/2}<\tilde\theta<t_{1-\alpha/2}\}=1-\alpha.$$ Разрешая неравенство относительно $\mu_1-\mu_2$ найдем искомый доверительный интервал $$ \left(\overline{x}-\overline{y}-t_{1-\alpha/2}\sqrt{\frac{(n_1+n_2)(n_1S_1^2+n_2S_2^2)}{n_1n_2(n_1+n_2-2)}}, \overline{x}-\overline{y}+t_{1-\alpha/2}\sqrt{\frac{(n_1+n_2)(n_1S_1^2+n_2S_2^2)}{n_1n_2(n_1+n_2-2)}}\right) $$


previous contents next