some fixes

This commit is contained in:
Basyrov Rustam
2024-11-16 11:05:26 +03:00
parent d648934dd3
commit 744f329f68
2 changed files with 42 additions and 11 deletions

View File

@@ -6,5 +6,5 @@
## 2024-09-24 [Немного про Байесовскую статистику](baes.md)
## 2020-09-01 [Стадии развращения ученого-статистика](stat-madness.md)
## 2020-09-01 [Немного про проверку гипотез](stat-madness.md)

View File

@@ -1,4 +1,23 @@
# Стадии развращения ученого-статистика
# Немного про проверку гипотез
## Введение
Любые статистические испытания зиждятся на проверке гипотез, например:
1. Проверка действия лекарств.
2. Установление зависимости между явлениями.
3. A/B тестирование и пр.
В зависимости от вида данных, целей исследования и других факторов
можно по-разному формулировать гипотезы и по-разному их проверять.
Многое зависит от не только знаний и опыта исследователя, но и в целом
от его подхода. В процессе работы можно все меньше уделять внимание
математической составляющей и все больше полагаться на компьютер и его
вычислительные мощности.
Здесь я хочу рассказать о стадиях, через которые проходит исследователь,
в попытках упростить себе жизнь и ускорить процесс проверки гипотез.
## Небольшой ликбез
@@ -48,17 +67,15 @@ $$\Large
\end{matrix}
$$
Таким образом:
Таким образом, по [определению](https://ru.wikipedia.org/wiki/Распределение_Стьюдента#Определение):
$$\Large
\sqrt{n}
\frac
{\overline{\mathbb{X}} - \mu}
{S} \sim T(n-1).
{S} \sim t(n-1).
$$
Вывод распределения статистики для критерия Стьюдента
## Небольшой пример (критерий Стьюдента)
**Дано**: выборка Х объема 10
@@ -106,7 +123,7 @@ $$
Пусть уровень значимости $\alpha = 0.05$.
Область, где не отвергается нулевая гипотеза: $(g_1, g_2) = (-2.262, 2.262)$, т.е. это область, которую принимает значение статистики при условии верности нулевой гипотезы с вероятностью $1 - \alpha = 0.95$. $g_1$ в данном случае это $0.025$ - квантиль, а $g_2$ --- 0.975 - квантиль.
Область, где не отвергается нулевая гипотеза: $(g_1, g_2) = (-2.262, 2.262)$, т.е. это область, которую принимает значение статистики при условии верности нулевой гипотезы с вероятностью $1 - \alpha = 0.95$. $g_1$ в данном случае это $0.025$-квантиль, а $g_2$, соотвественно, 0.975-квантиль.
![Доверительный интервал](assets/stat-madness/conf_interval.png)
@@ -114,9 +131,12 @@ $$
Таким образом, нулевая гипотеза не отвергается, так как значение статистики лежит в данном интервале.
> **Примечание**: можно было выбрать доверительный интервал иначе,
> но его стараются выбрать так, чтобы минимизировать его длину.
## Стадия 2. Открытие моделирования
Иногда (вернее даже как правило) распределение статистики вывести
Иногда (вернее, даже как правило) распределение статистики вывести
невозможно. В таком случае пользуются моделированием. Идея в том, что
нам известно распределение выборки в случае нулевой гипотезы. Таким
образом, можно многократно генерировать выборки и считать статистику,
@@ -124,11 +144,22 @@ $$
![Открытие моделирования](assets/stat-madness/modeling.png)
Можно увидеть некоторое расхождение. В этом, кстати, заключается интересный момент. Часто критикуются исследования построенные на моделировании, так как есть ненулевая (хоть и очень маленькая) вероятность, что выборки сгенерировались так, что полученное распределение статистики не отражает реальность.
В данном случае, моделирование выборки проводилось
в условиях $X \sim N(\mu, S^2)$.
## Стадия 3. Бутстрэпное безумие
Можно увидеть некоторое расхождение. В этом, кстати, заключается интересный
момент. Часто критикуются исследования построенные на моделировании, так как
есть ненулевая (хоть и очень маленькая) вероятность, что выборки
сгенерировались так, что полученное распределение статистики плохо отражает
реальность.
Бывают случаи, когда распределение выборки неизвестно совсем (или его нельзя в обычном смысле генерировать, [пример](https://stepik.org/lesson/40491/step/1?unit=24794)). В таком случае постулируют, что данная выборка хорошо отражает генеральную совокупность и в качестве функции распределения берут эмпирическую функцию распределения.
## Стадия 3. Бутстрэп
Бывают случаи, когда распределение выборки неизвестно совсем
(или его сложно/нельзя в обычном смысле генерировать,
[пример](https://stepik.org/lesson/40491/step/1?unit=24794)). В таком случае
постулируют, что данная выборка хорошо отражает генеральную совокупность и в
качестве функции распределения берут эмпирическую функцию распределения.
$$\Large
F_n(x) = \frac