# Немного про проверку гипотез ## Введение Любые статистические испытания зиждятся на проверке гипотез, например: 1. Проверка действия лекарств. 2. Установление зависимости между явлениями. 3. A/B тестирование и пр. В зависимости от вида данных, целей исследования и других факторов можно по-разному формулировать гипотезы и по-разному их проверять. Многое зависит от не только знаний и опыта исследователя, но и в целом от его подхода. В процессе работы можно все меньше уделять внимание математической составляющей и все больше полагаться на компьютер и его вычислительные мощности. Здесь я хочу рассказать о стадиях, через которые проходит исследователь, в попытках упростить себе жизнь и ускорить процесс проверки гипотез. ## Небольшой ликбез В статистике, если упростить, проверку гипотезы можно описать так: 1. По данной выборке считается статистика (т.е. функция от выборки). 2. Из распределения статистики находятся две области, где гипотеза отвергается и где нет. Исходя из этого, принимается решение. **N.B.** Проверяется гипотеза, модель постулируется. ## Стадия 1. Строгие доказательства На данной стадии ученый строго выводит распределения статистик, чтобы построить как можно более хорошие критерии. $$\Large \sqrt{n} \frac {\overline{\mathbb{X}} - \mu} {S} = \sqrt{n} \frac {\overline{\mathbb{X}} - \mu} {\sigma} \cdot \frac{1} {\frac{S}{\sigma}} = $$ $$\Large = \sqrt{n} \frac {\overline{\mathbb{X}} - \mu} {\sigma} \cdot \frac{1} {\sqrt{\frac{(n-1)S^2}{\sigma^2}\cdot \frac{1}{n-1} }} $$ Получим: $$\Large \begin{matrix} &\sqrt{n} \frac{\overline{\mathbb{X}} - \mu} {\sigma} &\sim &N(0,1) \\ &\frac{(n-1)S^2}{\sigma^2} &\sim &\chi^2(n-1) \end{matrix} $$ Таким образом, по [определению](https://ru.wikipedia.org/wiki/Распределение_Стьюдента#Определение): $$\Large \sqrt{n} \frac {\overline{\mathbb{X}} - \mu} {S} \sim t(n-1). $$ ## Небольшой пример (критерий Стьюдента) **Дано**: выборка Х объема 10 $$\Large \mathbb{X} = \left( \begin{matrix} 3.175 \\ 4.042 \\ 2.127 \\ 3.841 \\ 1.699 \\ 2.223 \\ 3.211 \\ 3.33 \\ 2.447 \\ 2.904 \end{matrix} \right) $$ **Модель**: $N(\mu, \theta_2)$ **Нулевая гипотеза**: $\mu = 3$ **Решение**: Статистика критерия: $$\Large T(\mathbb{X}) = \sqrt{n} \frac {\overline{\mathbb{X}} - \mu} {S} \sim t(n-1) $$ Статистика равна: $$\Large T(\mathbb{X}) = -1.9066 $$ Пусть уровень значимости $\alpha = 0.05$. Область, где не отвергается нулевая гипотеза: $(g_1, g_2) = (-2.262, 2.262)$, т.е. это область, которую принимает значение статистики при условии верности нулевой гипотезы с вероятностью $1 - \alpha = 0.95$. $g_1$ в данном случае это $0.025$-квантиль, а $g_2$, соотвественно, 0.975-квантиль. ![Доверительный интервал](assets/stat-madness/conf_interval.png) Красным обозначен интервал $(g_1, g_2)$ Таким образом, нулевая гипотеза не отвергается, так как значение статистики лежит в данном интервале. > **Примечание**: можно было выбрать доверительный интервал иначе, > но его стараются выбрать так, чтобы минимизировать его длину. ## Стадия 2. Открытие моделирования Иногда (вернее, даже как правило) распределение статистики вывести невозможно. В таком случае пользуются моделированием. Идея в том, что нам известно распределение выборки в случае нулевой гипотезы. Таким образом, можно многократно генерировать выборки и считать статистику, таким образом получив ее распределение. ![Открытие моделирования](assets/stat-madness/modeling.png) В данном случае, моделирование выборки проводилось в условиях $X \sim N(\mu, S^2)$. Можно увидеть некоторое расхождение. В этом, кстати, заключается интересный момент. Часто критикуются исследования построенные на моделировании, так как есть ненулевая (хоть и очень маленькая) вероятность, что выборки сгенерировались так, что полученное распределение статистики плохо отражает реальность. ## Стадия 3. Бутстрэп Бывают случаи, когда распределение выборки неизвестно совсем (или его сложно/нельзя в обычном смысле генерировать, [пример](https://stepik.org/lesson/40491/step/1?unit=24794)). В таком случае постулируют, что данная выборка хорошо отражает генеральную совокупность и в качестве функции распределения берут эмпирическую функцию распределения. $$\Large F_n(x) = \frac {\sum_{i=1}^{n} \mathbb{1}(x)} {n} $$ где: $$\Large \mathbb{1}(x) = \begin{cases} 1, x > X_i, \\ 0, \text{ иначе.} \end{cases} $$ В итоге, получается, что для проверки гипотез не нужно ничего кроме выборки и выдуманной статистики (которая, вообще, может быть любой, от нее зависит только качество получаемого критерия). Основная идея заключается в том, чтобы генерировать выборки объемом как и данная выборка из следующего распределения: $$\Large \mathcal{F} = \begin{pmatrix} X_1 &X_2 &\cdots &X_n \\ \frac{1}{n} &\frac{1}{n} &\cdots &\frac{1}{n} \end{pmatrix}. $$ ![Результат на выборке объема 10](assets/stat-madness/bootstrap.png) Таким образом, из расхождения графиков можно сделать следующие выводы: - применение бутстрэпа требует большой объема первоначальной выборки, - наблюдения в выборке должны быть независимыми. Несмотря на это, он часто применяется невпопад, так как не требует особых затрат на реализацию.