Loading [MathJax]/jax/element/mml/optable/BasicLatin.js
previous contents next

ЧАСТЬ II. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА.

11. Выборка.

11.1 Выборочные моменты.

Определение 11.1: Выборкой объёма nN будем называть n одинаково распределённых независимых случайных величин заданных на одном и том же вероятностном пространстве.

Определение 11.2: Упорядоченная выборка объёма n (x(1),,x(n)) называется вариационным рядом.
Для любого k¯1,n k-тая по порядку случайная величина в вариационном ряде называется k-той ранговой статистикой.

Определение 11.3: Пусть (x1,,xn) выборка объёма n, F(x) - функция распределения случайной величины xk для любого k¯1,n, μn(x) - случайная величина равная числу элементов выборки меньших xR. Тогда для любой случайной величины ξ с функцией распределения F(x) семейство случайных величин Fn(x):={xRμn(x)n} называется эмпирической функций распределения над случайной величиной ξ

Замечание 11.1:

  1. При фиксированном xR эмпирическая функция распределения Fn(x) - это дискретная случайная величина с распределением P{Fn(x)=kn}=P{μn(x)=k}=(nk)Fk(x)(1F(x))nk.
  2. При фиксированном исходе ωΩ Fn(x) - ступенчатая функция распределения с точкми роста в x(1)(ω),,x(n)(ω).
  3. Если e(x) индикаторная функция e(x):={0,x01,x>0, то Fn(x)=1nnk=1e(xxk).

Теорема 11.1: Если Fn(x) - эмпирическая функция распределения над случайной величиной ξ с функцией распределения F(x), то для любого xR Fn(x)PnF(x), или ε>0(P{|Fn(x)F(x)|>ε}n0)

Доказательство:
Следует из теоремы 7.6.

Теорема 11.2: Гливенко.
Если Fn(x) - эмпирическая функция распределения над случайной величиной ξ с функцией распределения F(x), то P{lim

Доказательство:
Доказательство, например, в Ширяев А. Н. 2004 г. "Вероятность - 1" стр. 482.

Определение 11.4: Если (x_1,\ldots,x_n) выборка, то для любого k\in\mathbb{N} случайная величина A_k:=\frac1{n}\sum_{i=1}^nx_i^k называется выборочным моментом k-того порядка.
Выборочный момент первого порядка \overline{x}:=A_1=\frac1{n}\sum_{i=1}^nx_i называется выборочным средним.

Определение 11.5: Если (x_1,\ldots,x_n) выборка, то для любого k\in\mathbb{N} случайная величина M_k:=\frac1{n}\sum_{i=1}^n(x_i-\overline{x})^k назвается центральным выборочным моментом k-того порядка.
Центральный выборочный момент второго порядка S^2:=M_2=\frac1{n}\sum_{i=1}^n(x_i-\overline{x})^2 называется выборочной дисперсией.

Замечание 11.2: Из определения следует, M_k=\frac1{n}\sum_{i=1}^n(x_i-\overline{x})^k=\frac1{n}\sum_{i=1}^n\sum_{r=0}^k\binom{k}{r}x_i^r(-1)^{k-r}\overline{x}^{k-r}= \frac1{n}\sum_{r=0}^k\binom{k}{r}(-1)^{k-r}A_1^{k-r}\sum_{i=1}^nx_i^r=\sum_{r-0}^k\binom{k}{r}(-1)^{k-r}A_1^{k-r}A_r. Следовательно M_0=A_0=1, M_1=-A_1A_0+A_1=0, S^2=M_2=\frac1{n}\sum_{i=1}^nx_i^2-\frac2{n}A_1\sum_{i=1}^nx_i+A_1^2=A_2-2A_1^2+A_1^2=A_2-A_1^2.

Задача 11.1: Найти дисперсию случайной величины S^2.
Пусть (x_1,\ldots,x_n) выбока объёма n над случайной величиной \xi. Обозначим \mu:=E\xi, \mu_2:=E\xi^2, \sigma^2:=D\xi, тогда по п. п. 2, 3 теоремы 4.4, по п. п. 2, 6 теоремы 4.20 и теореме 4.8 EA_1=E\left(\frac1{n}\sum_{i=1}^nx_i\right)=\frac1{n}\sum_{i=1}^nEx_i=\mu DA_1=D\left(\frac1{n}\sum_{i=1}^nx_i\right)=\frac1{n^2}\sum_{i=1}^nDx_i=\frac{\sigma^2}{n}, ES^2=E(A_2-A_1^2)=\frac1{n}\sum_{i=1}^nEx_i^2-E\left(\frac1{n}\sum_{i=1}^nx_i\right)^2=\mu_2-\frac1{n^2}E\left(\sum_{i=1}^nx_i^2+\sum_{i\neq{j}}x_ix_j\right)= \mu_2-\frac{\mu_2}{n}-\frac{n(n-1)}{n^2}\mu^2=\frac{n-1}{n}(\mu_2-\mu^2). Для любого i\in\overline{1,n} положим y_i:=x_i-\mu, тогда \begin{multline*} E(S^2)^2=E\left(\frac1{n}\sum_{i=1}^ny_i^2-\left(\frac1{n}\sum_{i=1}^ny_i\right)^2\right)^2=E\left(\frac1{n}\sum_{i=1}^ny_i^2-\frac1{n^2}\sum_{i=1}^ny_i^2-\frac1{n^2}\sum_{i\neq{j}}y_iy_j\right)^2= E\left(\frac{n-1}{n^2}\sum_{i=1}^ny_i^2-\frac1{n^2}\sum_{i\neq{j}}y_iy_j\right)^2=\\= E\left(\frac{(n-1)^2}{n^4}\left(\sum_{i=1}^ny_i^2\right)^2-\frac{2(n-1)}{n^4}\sum_{\substack{k=1\\i\neq{j}}}^ny_k^2y_iy_j+\frac1{n^4}\left(\sum_{i\neq{j}}y_iy_j\right)^2\right). \end{multline*} Матожидание от второго слагаемого равно 0 в силу того, что Ey_i=0, тогда E(S^2)^2=\frac{(n-1)^2}{n^4}\left(\sum_{i=1}^nEy_i^4+\sum_{i\neq{j}}E\left(y_i^2y_j^2\right)\right)+\frac1{n^4}\left(2\sum_{i\neq{j}}E\left(y_i^2y_j^2\right)+\sum_{\substack{k,l=1\\i\neq{j}}}^nE(y_iy_jy_ky_l)\right). Здесь четвертое слагаемое равно 0 в силу того, что Ey_i=0, следовательно, E(S^2)^2=\frac{(n-1)^2}{n^4}n\nu_4+\frac{(n-1)^2}{n^4}(n^2-n)\nu_2^2+\frac2{n^4}(n^2-n)\nu_2^2=\frac{(n-1)^2}{n^3}\nu_4+\frac{n^3-3n^2+5n-3}{n^3}\nu_2^2. Тогда DS^2=E(S^2)^2-(ES^2)^2=\frac{(n-1)^2}{n^3}\nu_4+\frac{n^3-3n^2+5n-3}{n^3}\nu_2^2-\frac{(n-1)^2}{n^2}\nu_2^2= \frac{(n-1)^2}{n^3}\nu_4+\frac{-n^2+4n-3}{n^3}\nu_2^2=\frac{(n-1)^2(\nu_4-\nu_2^2)+2(n-1)\nu_2^2}{n^3}

11.2 Ассимптотическое поведение выборочных моментов.

Теорема 11.3: Пусть (x_1,\ldots,x_n) выборка объема n над случайной величиной \xi, для любого k\in\mathbb{N} \mu_k:=E\xi^k, \nu_k:=E(\xi-E\xi)^k, тогда

  1. A_k\xrightarrow[n\to\infty]{P}\mu_k,
  2. M_k\xrightarrow[n\to\infty]{P}\nu_k

Доказательство:

  1. Так как для любого k\in\mathbb{N} случайные величины x_1^k,\ldots,x_n^k независимы, то по теореме 7.8 (теорема Хинчина) A_k:=\frac1{n}\sum_{i=1}^nx_i^k\xrightarrow[n\to\infty]{P}\frac1{n}\sum_{i=1}^nEx_i^k=\frac1{n}n\mu_k=\mu_k.
  2. По замечаниям 4.1 и 11.2 для любого k\in\mathbb{N} \nu_k=\sum_{r=0}^k\binom{k}{r}(-1)^{k-r}\mu_1^{k-r}\mu_r. M_k=\sum_{r=0}^k\binom{k}{r}(-1)^{k-r}A_1^{k-r}A_r. Таким образом, \nu_k=g(\mu_1,\ldots,\mu_k), M_k=g(A_1,\ldots,A_k), где функция g(y_1,\ldots,y_k) непрерывна по всем пременным. Тогда утверждение следует из п. 1 и Continuous mapping theorem (доказательство, например, в Van der Vaart, A. W. 1998 г. "Asymptotic Statistics", стр. 7).

Определение 11.6: Пусть \{\xi_n\} последовательность случайный величин, для любого n\in\mathbb{N} \mu_n:=E\xi_n, \sigma_n^2:=D\xi_n. Тогда последовательность \{\xi_n\} называется ассимптотически нормальной, если \frac{\xi_n-\mu_n}{\sigma_n}\xrightarrow[n\to\infty]{d}N(0,1)

Теорема 11.4: Пусть (x_1,\ldots,x_n) - выборка объёма n над случайной величиной \xi, тогда для любого k\in\mathbb{N} последовательность выборочных моментов \{A_k\mid{k}\in\mathbb{N}\} является ассимптотически нормальной.

Доказательство:
Для любого k\in\mathbb{N} обозначим \mu_k:=E\xi^k, \sigma_k^2:=D\xi^k, тогда в силу независимости случайных величин (x_1,\ldots,x_n) по п. п. 2, 3 теоремы 4.4, п. п. 2, 6 теоремы 4.10 EA_k=E\left(\frac1{n}\sum_{i=1}^nx_i^k\right)=\frac1{n}E\sum_{i=1}^nx_i^k=\frac1{n}\sum_{i=1}^nEx_i^k=\frac1{n}n\mu_k=\mu_k, DA_k=D\left(\frac1{n}\sum_{i=1}^nx_i^k\right)=\frac1{n^2}D\sum_{i=1}^nx_i^k=\frac1{n^2}\sum_{i=1}^nDx_i^k=\frac1{n^2}n\sigma_k^2=\frac{\sigma_k^2}{n}. Тогда по теореме 7.12 (ЦПТ) \frac{A_k-EA_k}{\sqrt{DA_k}}=\sqrt{n}\frac{A_k-\mu_k}{\sigma_k}=\frac{\sum_{i=1}^nx_i^k-n\mu_k}{\sigma_k\sqrt{n}}\xrightarrow[n\to\infty]{d}N(0,1)

Замечание 11.3: Из теоремы следует важное для практики приближённое равенство P\left\{\frac{\sqrt{n}}{\sigma_k}|A_k-\mu_k|<t\right\}\approx\frac1{2\pi}\int\limits_{-t}^te^{u^2/t}du. Где \sigma_k можно выразить как \sigma_k=\sqrt{D\xi^k}=\sqrt{E(\xi^k)^2-(E\xi^k)^2}=\sqrt{\mu_{2k}-\mu_k^2}.


previous contents next