Калькулятор нормальности

Тестируйте, если ваши данные следуют нормальному распределению, используя различные статистические тесты.

Калькулятор

Тест на нормальность

Используется для определения того, следует ли данные за нормальным распределением. Значения P, превышающие этот порог, указывают на нормальность.

Полное руководство

Полное руководство по тестированию на нормальность

Почему тест на нормальность?

Нормальное тестирование является фундаментальным шагом в статистическом анализе. Многие статистические тесты и процедуры (такие как t-тесты, ANOVA и регрессионный анализ) построены на предположении, что данные следуют нормальному распределению. Использование этих тестов на ненормальных данных может привести к неверным выводам и ошибочным решениям.

Основные причины для проверки нормальности:

  • Подтвердить предположения для параметрических статистических тестов
  • Определите подходящие аналитические методы для ваших данных
  • Определить потенциальные проблемы сбора данных или выбросы
  • Руководящие решения по преобразованию данных
  • Поддержка контроля качества в производстве и исследованиях

Общая норма Объясненные тесты

Тест Shapiro-Wilk

Тест Шапиро-Уилка считается одним из самых мощных тестов на нормальность, особенно для малых и средних размеров выборки< 50).

Как это работает:

Тест вычисляет W-статистику, которая проверяет, поступает ли случайная выборка из нормального распределения. Статистика W представляет собой отношение лучшего оценщика дисперсии к обычной скорректированной сумме квадратов оценщика дисперсии.

Формула:

W = (Σaix(i))2 / Σ(xi - x̄)2

Толкование:

Если p-значение больше альфа (обычно 0,05), мы не можем отвергнуть нулевую гипотезу о том, что данные обычно распределены.

Тест Андерсона-Дарлинга

Тест Андерсона-Дарлинга особенно чувствителен к отклонениям в хвостах распределения, что делает его отличным при обнаружении выпадений и перекосов.

Как это работает:

Тест сравнивает эмпирическую кумулятивную функцию распределения (CDF) данных выборки с CDF нормального распределения, придавая больше веса хвостам, чем другие тесты.

Преимущества:
  • Хорошо работает с более крупными образцами (n > 50)
  • Более чувствительны к отклонениям в хвостах распределения
  • Может обнаружить как искривление, так и проблемы с куртозом
Толкование:

ниже Значения A2 указывают на данные, которые более точно следуют нормальному распределению. Если значение p превышает ваш уровень значимости, данные могут считаться нормальными.

Колмогоров-Смирнов Тест

Тест Колмогорова-Смирнова (К-С) измеряет максимальное расстояние между эмпирической функцией распределения образца и кумулятивной функцией распределения эталонного распределения (нормального).

Как это работает:

Тестовая статистика K-S основана на максимальном вертикальном расстоянии между эмпирической и теоретической кумулятивными функциями распределения.

Ключевые характеристики:
  • Работает для любого размера образца, но наиболее мощный с более крупными образцами
  • Менее чувствительны к отклонениям в хвостах распределения
  • Универсальное тестирование против любого непрерывного распределения
Когда использовать:

Лучше всего использовать, когда вам нужно проверить нормальность с большими наборами данных и меньше беспокоиться о поведении хвоста.

Сравнение результатов испытаний

Тест Лучший размер образца чувствительность Сильные стороны Ограничения
Шапиро-Уилк 3-50 высокий Самый мощный для небольших образцов Ограничены меньшими образцами в оригинальной форме
Андерсон-Дарлинг Любые, лучшие >50 высокий (esp. in tails) Отлично подходит для обнаружения отклонений хвоста Более сложные вычисления
Колмогоров-Смирнов Любой умеренный Универсальный, работает с любым непрерывным распределением Менее чувствительный, чем другие, особенно для хвостов

Как интерпретировать результаты теста

При анализе результатов тестов на нормальность следуйте этим рекомендациям:

Когда данные кажутся нормальными

Если p-значение > α (уровень значимости):

  • Отказ от нулевой гипотезы
  • Данные согласуются с нормальным распределением
  • Подходит для использования параметрических тестов
  • Продолжение t-тестов, ANOVA, линейной регрессии и т.д.

Когда данные кажутся ненормальными

Если p-значение ≤ α (уровень значимости):

  • Отклонить нулевую гипотезу
  • Данные могут отклоняться от нормального распределения
  • Непараметрические альтернативы
  • Трансформация данных может быть уместной (лог, квадратный корень и т. д.)

Важные соображения

  • Размер выборки имеет значение:Тесты становятся все более чувствительными с большими образцами, потенциально обнаруживая незначительные, практически незначительные отклонения
  • Визуальный осмотр ценен:Всегда дополняйте статистические тесты графиками Q-Q и гистограммами
  • Центральный предел Теорема:При больших выборках (n > 30) многие статистические процедуры устойчивы к умеренным отклонениям от нормальности
  • Контекст является ключевым:Подумайте о влиянии ненормальности на ваши конкретные вопросы анализа и исследования

Обработка ненормальных данных

Если ваши данные не проходят тесты на нормальность, у вас есть несколько вариантов:

  1. Преобразуйте свои данные:Применяйте математические преобразования, чтобы сделать данные более нормальными.
    • Преобразование журнала: для правых данных
    • Преобразование квадратного корня: для подсчета данных или умеренного перекоса вправо
    • Трансформация Box-Cox: гибкий подход к различным ненормальным моделям
  2. Используйте непараметрические тесты:Эти тесты не предполагают нормальности:
    • Mann-Whitney U (вместо независимого теста)
    • Wilcoxon Sign-Rank Test (вместо T-теста)
    • Тест Крускаля-Уоллиса (вместо односторонней АНОВА)
  3. Методы Bootstrap:Методы выборки, которые не требуют предположений распределения
  4. Надежные статистические методы:Методы, предназначенные для того, чтобы быть менее подверженными выбросам и отклонениям от нормальности

Практические применения тестирования на нормальность

Контроль качества

Тестирование на нормальность помогает убедиться, что производственные процессы стабильны и предсказуемы. Ненормальные результаты могут указывать на проблемы процесса, требующие исследования.

Научные исследования

Исследователи используют тесты на нормальность для обеспечения достоверности статистического анализа, особенно в таких областях, как медицина, психология и социальные науки.

Финансовый анализ

Тестирование нормальности доходности имеет решающее значение для оценки рисков, оптимизации портфеля и моделей ценообразования опционов в финансах.

Мониторинг окружающей среды

Экологические данные часто требуют проверки на нормальность для определения соответствующих статистических подходов для выявления тенденций или превышений пороговых значений.

Лучшие практики Резюме

  1. Всегда сочетайте статистические тесты с визуальными методами (гистограммы, графики Q-Q)
  2. Выберите подходящий тест на основе вашего размера выборки и потребностей анализа
  3. Рассмотрим практическую значимость ненормальности, а не только статистическую значимость
  4. Документируйте процесс оценки вашей нормальности в исследованиях и отчетах
  5. Когда сомневаетесь, рассмотрите возможность консультации со статистом для комплексного анализа
Концепция

Что такое нормальность?

Нормальное распределение (также известное как распределение Гаусса) представляет собой непрерывное распределение вероятностей, характеризующееся симметричной колоколообразной кривой. Он определяется его средним и стандартным отклонением.

Ключевые характеристики:
  • Кривая в форме колокола
  • Симметричный вокруг среднего
  • 68% Данные в пределах 1 стандартного отклонения
  • 95% Данные в пределах 2 стандартных отклонений
  • 99.7% Данные в пределах 3 стандартных отклонений
Руководство

Нормальные тесты

Тест Shapiro-Wilk

Лучше всего для небольших образцов (n)< 50)

Тест Андерсона-Дарлинга

Хорошо для больших образцов

Колмогоров-Смирнов Тест

Работает для любого размера образца

Руководство

Толкование результатов

Толкование ценностей

  • p-значение > α: Не отвергать нормальность
  • p-значение ≤ α: Отвергать нормальность
  • Общие значения α: 0,01, 0,05, 0,1
Примеры

Общие примеры

Пример 1Обычно распределенные данные

Данные: [1, 2, 2, 3, 3, 3, 4, 4, 5]
Результат: Вероятно нормальный (p-значение > 0,05)

Пример 2искаженные данные

Данные: [1, 1, 1, 2, 2, 3, 4, 5, 10]
Результат: ненормальный (p-значение)< 0.05)

Пример 3Бимодальные данные

Данные: [1, 1, 1, 2, 2, 8, 9, 9, 10]
Результат: ненормальный (p-значение)< 0.05)

Инструменты

Статистические калькуляторы

Нужны другие инструменты?

Не можете найти нужный вам калькулятор?Свяжитесь с намиПредложить другие статистические калькуляторы.