diff --git a/docs/maths/assets/stat-madness/bootstrap.png b/docs/maths/assets/stat-madness/bootstrap.png new file mode 100644 index 0000000..5722c9c Binary files /dev/null and b/docs/maths/assets/stat-madness/bootstrap.png differ diff --git a/docs/maths/assets/stat-madness/conf_interval.png b/docs/maths/assets/stat-madness/conf_interval.png new file mode 100644 index 0000000..d33b469 Binary files /dev/null and b/docs/maths/assets/stat-madness/conf_interval.png differ diff --git a/docs/maths/assets/stat-madness/modeling.png b/docs/maths/assets/stat-madness/modeling.png new file mode 100644 index 0000000..30ac340 Binary files /dev/null and b/docs/maths/assets/stat-madness/modeling.png differ diff --git a/docs/maths/index.md b/docs/maths/index.md index aa8085f..b7ce4e7 100644 --- a/docs/maths/index.md +++ b/docs/maths/index.md @@ -6,3 +6,5 @@ ## 2024-09-24 [Немного про Байесовскую статистику](baes.md) +## 2020-09-01 [Немного про проверку гипотез](stat-madness.md) + diff --git a/docs/maths/stat-madness.md b/docs/maths/stat-madness.md new file mode 100644 index 0000000..cb50eec --- /dev/null +++ b/docs/maths/stat-madness.md @@ -0,0 +1,199 @@ +# Немного про проверку гипотез + +## Введение + +Любые статистические испытания зиждятся на проверке гипотез, например: + +1. Проверка действия лекарств. +2. Установление зависимости между явлениями. +3. A/B тестирование и пр. + +В зависимости от вида данных, целей исследования и других факторов +можно по-разному формулировать гипотезы и по-разному их проверять. + +Многое зависит от не только знаний и опыта исследователя, но и в целом +от его подхода. В процессе работы можно все меньше уделять внимание +математической составляющей и все больше полагаться на компьютер и его +вычислительные мощности. + +Здесь я хочу рассказать о стадиях, через которые проходит исследователь, +в попытках упростить себе жизнь и ускорить процесс проверки гипотез. + +## Небольшой ликбез + +В статистике, если упростить, проверку гипотезы можно описать так: + +1. По данной выборке считается статистика (т.е. функция от выборки). +2. Из распределения статистики находятся две области, где гипотеза отвергается и где нет. Исходя из этого, принимается решение. + +**N.B.** Проверяется гипотеза, модель постулируется. + +## Стадия 1. Строгие доказательства + +На данной стадии ученый строго выводит распределения статистик, чтобы построить как можно более хорошие критерии. + +$$\Large +\sqrt{n} +\frac +{\overline{\mathbb{X}} - \mu} +{S} = +\sqrt{n} +\frac +{\overline{\mathbb{X}} - \mu} +{\sigma} \cdot +\frac{1} +{\frac{S}{\sigma}} = +$$ + +$$\Large += \sqrt{n} +\frac +{\overline{\mathbb{X}} - \mu} +{\sigma} \cdot +\frac{1} +{\sqrt{\frac{(n-1)S^2}{\sigma^2}\cdot +\frac{1}{n-1} +}} +$$ + +Получим: + +$$\Large +\begin{matrix} +&\sqrt{n} +\frac{\overline{\mathbb{X}} - \mu} +{\sigma} &\sim &N(0,1) \\ +&\frac{(n-1)S^2}{\sigma^2} &\sim &\chi^2(n-1) +\end{matrix} +$$ + +Таким образом, по [определению](https://ru.wikipedia.org/wiki/Распределение_Стьюдента#Определение): + +$$\Large +\sqrt{n} +\frac +{\overline{\mathbb{X}} - \mu} +{S} \sim t(n-1). +$$ + +## Небольшой пример (критерий Стьюдента) + +**Дано**: выборка Х объема 10 + +$$\Large +\mathbb{X} = \left( +\begin{matrix} +3.175 \\ +4.042 \\ +2.127 \\ +3.841 \\ +1.699 \\ +2.223 \\ +3.211 \\ +3.33 \\ +2.447 \\ +2.904 +\end{matrix} +\right) +$$ + +**Модель**: $N(\mu, \theta_2)$ + +**Нулевая гипотеза**: $\mu = 3$ + +**Решение**: + +Статистика критерия: + +$$\Large +T(\mathbb{X}) = +\sqrt{n} +\frac +{\overline{\mathbb{X}} - \mu} +{S} +\sim +t(n-1) +$$ + +Статистика равна: + +$$\Large +T(\mathbb{X}) = -1.9066 +$$ + +Пусть уровень значимости $\alpha = 0.05$. + +Область, где не отвергается нулевая гипотеза: $(g_1, g_2) = (-2.262, 2.262)$, т.е. это область, которую принимает значение статистики при условии верности нулевой гипотезы с вероятностью $1 - \alpha = 0.95$. $g_1$ в данном случае это $0.025$-квантиль, а $g_2$, соотвественно, 0.975-квантиль. + +![Доверительный интервал](assets/stat-madness/conf_interval.png) + +Красным обозначен интервал $(g_1, g_2)$ + +Таким образом, нулевая гипотеза не отвергается, так как значение статистики лежит в данном интервале. + +> **Примечание**: можно было выбрать доверительный интервал иначе, +> но его стараются выбрать так, чтобы минимизировать его длину. + +## Стадия 2. Открытие моделирования + +Иногда (вернее, даже как правило) распределение статистики вывести +невозможно. В таком случае пользуются моделированием. Идея в том, что +нам известно распределение выборки в случае нулевой гипотезы. Таким +образом, можно многократно генерировать выборки и считать статистику, +таким образом получив ее распределение. + +![Открытие моделирования](assets/stat-madness/modeling.png) + +В данном случае, моделирование выборки проводилось +в условиях $X \sim N(\mu, S^2)$. + +Можно увидеть некоторое расхождение. В этом, кстати, заключается интересный +момент. Часто критикуются исследования построенные на моделировании, так как +есть ненулевая (хоть и очень маленькая) вероятность, что выборки +сгенерировались так, что полученное распределение статистики плохо отражает +реальность. + +## Стадия 3. Бутстрэп + +Бывают случаи, когда распределение выборки неизвестно совсем +(или его сложно/нельзя в обычном смысле генерировать, +[пример](https://stepik.org/lesson/40491/step/1?unit=24794)). В таком случае +постулируют, что данная выборка хорошо отражает генеральную совокупность и в +качестве функции распределения берут эмпирическую функцию распределения. + +$$\Large +F_n(x) = \frac +{\sum_{i=1}^{n} \mathbb{1}(x)} +{n} +$$ + +где: + +$$\Large +\mathbb{1}(x) = +\begin{cases} +1, x > X_i, \\ +0, \text{ иначе.} +\end{cases} +$$ + +В итоге, получается, что для проверки гипотез не нужно ничего кроме выборки и выдуманной статистики (которая, вообще, может быть любой, от нее зависит только качество получаемого критерия). + +Основная идея заключается в том, чтобы генерировать выборки объемом как и данная выборка из следующего распределения: + +$$\Large +\mathcal{F} = +\begin{pmatrix} +X_1 &X_2 &\cdots &X_n \\ +\frac{1}{n} &\frac{1}{n} &\cdots &\frac{1}{n} +\end{pmatrix}. +$$ + +![Результат на выборке объема 10](assets/stat-madness/bootstrap.png) + +Таким образом, из расхождения графиков можно сделать следующие выводы: + +- применение бутстрэпа требует большой объема первоначальной выборки, +- наблюдения в выборке должны быть независимыми. + +Несмотря на это, он часто применяется невпопад, так как не требует особых затрат на реализацию.