#1 |
|
|
||||
#2 |
|
|
||||
#3 |
|
|
||||
#4 |
|
|
||||
#5 |
|
|
Что означают уровни значимости и значения P в тестах гипотез? Какая вообще статистическая значимость? В этом посте я продолжу сосредотачиваться на концепциях и графиках, чтобы помочь вам получить более интуитивное понимание того, как проверки гипотез работают в статистике.
Чтобы воплотить его в жизнь, я добавлю уровень значимости и значение P к графику в моем предыдущем посте, чтобы выполнить графическую версию 1 образца t-теста. Это легче понять, когда вы видите, что на самом деле означает статистическая значимость!
На этом мы остановились в моем последнем посте. Мы хотим определить, указывает ли наше выборочное среднее (330,6) на то, что средняя стоимость энергии в этом году значительно отличается от средней стоимости энергии в прошлом году, составлявшей 260 долларов.
График распределения вероятностей выше показывает распределение выборочных средних, которые мы получили бы в предположении, что нулевая гипотеза верна (среднее значение совокупности = 260), и мы неоднократно рисовали большое количество случайных выборок.
Я оставил вас с вопросом: где провести черту статистической значимости на графике? Теперь мы добавим уровень значимости и значение P, которые являются инструментами принятия решений, которые нам понадобятся.
Мы будем использовать эти инструменты для проверки следующих гипотез:
Уровень значимости, также обозначаемый как альфа или α, представляет собой вероятность отклонения нулевой гипотезы, если она верна. Например, уровень значимости 0,05 указывает на 5% -ный риск сделать вывод о существовании разницы, когда фактической разницы нет.
Эти типы определений могут быть трудными для понимания из-за их технической природы. Изображение упрощает понимание концепции!
Уровень значимости определяет, насколько далеко от значения нулевой гипотезы мы проведем эту линию на графике. Чтобы изобразить уровень значимости 0,05, нам нужно заштриховать 5% распределения, которые наиболее удалены от нулевой гипотезы.
На приведенном выше графике две заштрихованные области равноудалены от значения нулевой гипотезы, и каждая область имеет вероятность 0,025, всего 0,05. В статистике мы называем эти заштрихованные области критической областью для двустороннего теста. Если среднее значение по генеральной совокупности равно 260, мы ожидаем получить выборочное среднее значение, которое попадает в критическую область в 5% случаев. Критическая область определяет, насколько далеко наша выборочная статистика должна быть от значения нулевой гипотезы, прежде чем мы сможем сказать, что она достаточно необычна, чтобы отклонить нулевую гипотезу.
Наше выборочное среднее (330,6) попадает в критическую область, что означает, что оно статистически значимо на уровне 0,05.
Мы также можем увидеть, является ли это статистически значимым, используя другой общий уровень значимости 0,01.
Каждая из двух заштрихованных областей имеет вероятность 0,005, что в сумме дает общую вероятность 0,01. На этот раз среднее значение нашей выборки не попадает в критическую область, и мы не можем отвергнуть нулевую гипотезу. Это сравнение показывает, почему вам нужно выбрать уровень значимости, прежде чем начинать изучение. Он защищает вас от выбора уровня значимости, потому что удобно дает вам значимые результаты!
Благодаря графику мы смогли определить, что наши результаты статистически значимы на уровне 0,05, без использования значения P. Однако, когда вы используете числовые выходные данные, полученные с помощью статистического программного обеспечения, вам необходимо сравнить значение P с вашим уровнем значимости, чтобы сделать это определение.
P-значения - это вероятность получения эффекта, по крайней мере, такого же экстремального, как в ваших выборочных данных, при условии истинности нулевой гипотезы.
Это определение значений P, хотя и правильно с технической точки зрения, немного запутано. С графиком проще разобраться!
Чтобы отобразить значение P для нашего примера набора данных, нам нужно определить расстояние между средним значением выборки и значением нулевой гипотезы (330,6 - 260 = 70,6). Затем мы можем построить график вероятности получения выборочного среднего, которое, по крайней мере, является столь же экстремальным в обоих хвостах распределения (260 +/- 70,6).
На приведенном выше графике две заштрихованные области имеют вероятность 0,01556 для общей вероятности 0,03112. Эта вероятность представляет собой вероятность получения выборочного среднего, которое, по крайней мере, столь же экстремально, как наше выборочное среднее в обоих хвостах распределения, если среднее значение по генеральной совокупности равно 260. Это наше значение P!
Когда значение P меньше или равно уровню значимости, вы отклоняете нулевую гипотезу. Если мы возьмем значение P для нашего примера и сравним его с общими уровнями значимости, оно будет соответствовать предыдущим графическим результатам. Значение P 0,03112 статистически значимо на уровне альфа 0,05, но не на уровне 0,01.
Если мы будем придерживаться уровня значимости 0,05, мы можем сделать вывод, что средняя стоимость энергии для населения превышает 260.
Распространенная ошибка - интерпретировать P-значение как вероятность того, что нулевая гипотеза верна. Чтобы понять, почему эта интерпретация неверна, прочитайте мою запись в блоге Как правильно интерпретировать значения P.
Проверка гипотез оценивает два взаимоисключающих утверждения о совокупности, чтобы определить, какое утверждение лучше всего подтверждается выборкой данных. Результат теста является статистически значимым, когда статистика выборки достаточно необычна по сравнению с нулевой гипотезой, чтобы мы могли отклонить нулевую гипотезу для всей генеральной совокупности. «Достаточно необычный» в проверке гипотез определяется:
Имейте в виду, что не существует магического уровня значимости, по которому проводилось бы различие между исследованиями, имеющими истинный эффект, и исследованиями, не имеющими стопроцентной точности. Обычные значения альфа 0,05 и 0,01 просто основаны на традиции. При уровне значимости 0,05, рассчитывают получить образцы средств в критической области 5% времени , когда нулевая гипотеза верно . В этих случаях вы не узнаете, что нулевая гипотеза верна, но отвергнете ее, потому что среднее значение выборки попадает в критическую область. Вот почему уровень значимости также называют коэффициентом ошибок !
Этот тип ошибки не означает, что экспериментатор сделал что-то неправильно или требует каких-либо других необычных объяснений. Графики показывают, что, когда нулевая гипотеза верна, можно получить эти необычные выборочные средние только по причине случайной ошибки выборки. Это просто удача розыгрыша.
Уровни значимости и значения P являются важными инструментами, которые помогут вам количественно оценить и контролировать этот тип ошибок при проверке гипотез. Использование этих инструментов для принятия решения о том, когда отвергать нулевую гипотезу, увеличивает ваши шансы на принятие правильного решения.
Если вам понравился этот пост, возможно, вы захотите прочитать другие посты из этой серии, в которых используется та же графическая структура:
Если вы хотите увидеть, как я построил эти графики, прочтите: Как создать графическую версию 1-выборочного t-теста.