diff --git a/docs/maths/index.md b/docs/maths/index.md index 8ae1628..b7ce4e7 100644 --- a/docs/maths/index.md +++ b/docs/maths/index.md @@ -6,5 +6,5 @@ ## 2024-09-24 [Немного про Байесовскую статистику](baes.md) -## 2020-09-01 [Стадии развращения ученого-статистика](stat-madness.md) +## 2020-09-01 [Немного про проверку гипотез](stat-madness.md) diff --git a/docs/maths/stat-madness.md b/docs/maths/stat-madness.md index f6e5572..cb50eec 100644 --- a/docs/maths/stat-madness.md +++ b/docs/maths/stat-madness.md @@ -1,4 +1,23 @@ -# Стадии развращения ученого-статистика +# Немного про проверку гипотез + +## Введение + +Любые статистические испытания зиждятся на проверке гипотез, например: + +1. Проверка действия лекарств. +2. Установление зависимости между явлениями. +3. A/B тестирование и пр. + +В зависимости от вида данных, целей исследования и других факторов +можно по-разному формулировать гипотезы и по-разному их проверять. + +Многое зависит от не только знаний и опыта исследователя, но и в целом +от его подхода. В процессе работы можно все меньше уделять внимание +математической составляющей и все больше полагаться на компьютер и его +вычислительные мощности. + +Здесь я хочу рассказать о стадиях, через которые проходит исследователь, +в попытках упростить себе жизнь и ускорить процесс проверки гипотез. ## Небольшой ликбез @@ -48,17 +67,15 @@ $$\Large \end{matrix} $$ -Таким образом: +Таким образом, по [определению](https://ru.wikipedia.org/wiki/Распределение_Стьюдента#Определение): $$\Large \sqrt{n} \frac {\overline{\mathbb{X}} - \mu} -{S} \sim T(n-1). +{S} \sim t(n-1). $$ -Вывод распределения статистики для критерия Стьюдента - ## Небольшой пример (критерий Стьюдента) **Дано**: выборка Х объема 10 @@ -106,7 +123,7 @@ $$ Пусть уровень значимости $\alpha = 0.05$. -Область, где не отвергается нулевая гипотеза: $(g_1, g_2) = (-2.262, 2.262)$, т.е. это область, которую принимает значение статистики при условии верности нулевой гипотезы с вероятностью $1 - \alpha = 0.95$. $g_1$ в данном случае это $0.025$ - квантиль, а $g_2$ --- 0.975 - квантиль. +Область, где не отвергается нулевая гипотеза: $(g_1, g_2) = (-2.262, 2.262)$, т.е. это область, которую принимает значение статистики при условии верности нулевой гипотезы с вероятностью $1 - \alpha = 0.95$. $g_1$ в данном случае это $0.025$-квантиль, а $g_2$, соотвественно, 0.975-квантиль. ![Доверительный интервал](assets/stat-madness/conf_interval.png) @@ -114,9 +131,12 @@ $$ Таким образом, нулевая гипотеза не отвергается, так как значение статистики лежит в данном интервале. +> **Примечание**: можно было выбрать доверительный интервал иначе, +> но его стараются выбрать так, чтобы минимизировать его длину. + ## Стадия 2. Открытие моделирования -Иногда (вернее даже как правило) распределение статистики вывести +Иногда (вернее, даже как правило) распределение статистики вывести невозможно. В таком случае пользуются моделированием. Идея в том, что нам известно распределение выборки в случае нулевой гипотезы. Таким образом, можно многократно генерировать выборки и считать статистику, @@ -124,11 +144,22 @@ $$ ![Открытие моделирования](assets/stat-madness/modeling.png) -Можно увидеть некоторое расхождение. В этом, кстати, заключается интересный момент. Часто критикуются исследования построенные на моделировании, так как есть ненулевая (хоть и очень маленькая) вероятность, что выборки сгенерировались так, что полученное распределение статистики не отражает реальность. +В данном случае, моделирование выборки проводилось +в условиях $X \sim N(\mu, S^2)$. -## Стадия 3. Бутстрэпное безумие +Можно увидеть некоторое расхождение. В этом, кстати, заключается интересный +момент. Часто критикуются исследования построенные на моделировании, так как +есть ненулевая (хоть и очень маленькая) вероятность, что выборки +сгенерировались так, что полученное распределение статистики плохо отражает +реальность. -Бывают случаи, когда распределение выборки неизвестно совсем (или его нельзя в обычном смысле генерировать, [пример](https://stepik.org/lesson/40491/step/1?unit=24794)). В таком случае постулируют, что данная выборка хорошо отражает генеральную совокупность и в качестве функции распределения берут эмпирическую функцию распределения. +## Стадия 3. Бутстрэп + +Бывают случаи, когда распределение выборки неизвестно совсем +(или его сложно/нельзя в обычном смысле генерировать, +[пример](https://stepik.org/lesson/40491/step/1?unit=24794)). В таком случае +постулируют, что данная выборка хорошо отражает генеральную совокупность и в +качестве функции распределения берут эмпирическую функцию распределения. $$\Large F_n(x) = \frac