正常计算器
测试您的数据是否遵循使用各种统计测试的正常分布。
正常性测试
标准测试综合指南
为什么测试正常度?
正常度测试是统计分析中的一个基本步骤. 许多统计测试和程序(如t测试、ANOVA和回归分析)建立在数据遵循正常分布的假设基础上。 利用这些对非正常数据的测试会导致无效的结论和有缺陷的决定.
正常度测试的关键原因:
- 验证参数统计测试假设
- 为您的数据确定适当的分析方法
- 查明潜在的数据收集问题或外部因素
- 数据转换决定指南
- 支持制造业和研究的质量控制
常见 测试已解释
Shapiro- Wilk 测试
夏皮罗-沃尔克测试被认为是最强大的常态测试之一,特别是对中小样本尺寸的测试(n)< 50).
如何运作:
测试计算出W统计,测试随机样本是否来自正态分布. W统计是差异的最佳估计值与通常经更正的平方估计值之和之比。
公式:
W = (Σaix(i))2 / Σ(xi - x̄)2
口译:
如果p-值大于α(通常为0.05),我们就无法否定数据通常分布的无效假设.
安德森-达林测试
安德森-达林测试对分布地尾部的偏差特别敏感,使其在检测出出站和出站性方面表现优异.
如何运作:
测试将你样本数据的经验累积分布功能(CDF)与正常分布的CDF进行比较,给予尾巴比其他测试更重.
福利:
- 用更大的样品表现良好(n > 50)
- 对分布尾部偏差更为敏感
- 能够探测出骨折和骨质疏松问题
口译:
下调 A2值表示更接近正态分布的数据. 如果p值超过您的意义级别,则数据可以被认为是正常的.
科尔莫戈罗夫-斯米尔诺夫 测试
Kolmogorov-Smirnov (K-S) 测试测量您样本的经验分布功能与参考分布(正常)的累积分布功能之间的最大距离.
如何运作:
K-S测试统计(D)是基于实证和理论累积分布函数之间的最大垂直距离.
主要特征:
- 用于任何样本大小,但最强的样本
- 对分布尾部偏差不太敏感
- 对任何连续分布进行测试的体温
何时使用:
当需要用更大型的数据集测试常态性,并不太关心尾端行为时,最有效使用.
比较测试性能
| 测试 | 最佳样本大小 | 敏感性 | 强度 | 限制 |
|---|---|---|---|---|
| 沙皮罗-沃尔克 | 3-50 | 高级 | 对小样本最有威力 | 限于原始形式的较小样品 |
| 安德森-达林 | 任意,最好 > 50 | 高 (尾部为斜) | 检测尾部偏差的好办法 | 更复杂的计算 |
| 科尔莫戈罗夫-斯米尔诺夫 | 任意 | 温和 | Versatile, 与任何连续分布一起工作 | 比其他人敏感,特别是尾巴 |
如何解释测试结果
在分析常态测试结果时,遵循本准则: 1.
当数据显示正常时
如果p-值 > α(显式级别):
- 未拒绝无效假设
- 数据符合正常分布
- 适合使用参数测试
- 进行t测试,ANOVA,线性回归等.
数据显示非正常时
如果p值为 α(显式级):
- 拒绝无效假设
- 数据可能偏离正常分布
- 考虑非参数替代品
- 数据转换可能是适当的(日志、平方根等)
重要的考虑
- 样本大小事项:试验随着样本增加而变得日益敏感,有可能发现微小、几乎微不足道的偏差
- 视觉检查很有价值:总是用Q-Q地块和直方图补充统计测试
- 中央限制 定理:有大样本(n > 30),许多统计程序都很健全,可以适度偏离正常状态
- 背景是关键:考虑非正常性对您具体分析和研究问题的影响
处理非正常数据
如果您的数据不能正常度测试, 您有多个选项:
-
转换数据:应用数学转换使数据更加正常:
- 日志转换:用于右侧数据
- 平方根变换:用于计数数据或中度右旋
- Box-Cox变换:各种非正常模式的灵活办法
-
使用非参数测试:这些测试并不认为是正常的:
- Mann-Whitney U测试(而不是独立的 t测试)
- Wilcoxon 签名排名测试(而不是配对 t测试)
- Kruskal-Wallis测试(而不是单向ANOVA)
- 诱饵方法:不需要分配假设的再取样技术
- 强有力的统计方法:设计用来减少外部和偏离正常的技术
正常测试的实际应用
质量控制
在制造业,正常度测试有助于核查生产过程是否稳定和可预测。 非正常结果可能表明需要调查的程序问题。
科学研究
研究人员使用常态测试来确保统计分析的有效性,特别是在医学,心理学和社会科学等领域.
金融分析
测试收益的正常程度对风险评估、组合优化和融资选择定价模式至关重要。
环境监测
环境数据往往需要进行常态测试,以确定适当的统计方法来发现趋势或阈值超过。
最佳做法摘要
- 总是将统计测试与视觉方法(图像、Q-Q地块)结合起来
- 根据样本大小和分析需要选择适当的测试
- 考虑非常态的实际意义,而不仅仅是统计意义
- 在研究和报告中记录您的正常度评估过程
- 在有疑问时,考虑与统计学家协商进行复杂的分析
什么是正常吗?
一个正态分布(也叫高斯分布)是一种以对称的钟形曲线为特征的连续概率分布. 它被定义为它的平均值和标准偏差.
- 钟形曲线
- 平均数对称
- 68% 1个标准差内的数据
- 95% 2个标准差内的数据
- 99.7% 3个标准差内的数据
常态测试
Shapiro- Wilk 测试
对小样本而言最好(n)< 50)
安德森-达林测试
对更大的样本有好处
科尔莫戈罗夫-斯米尔诺夫 测试
用于任何样本大小的工作
解释结果
P-价值解释
- p值 > α: 未能拒绝正常
- p值 α: 拒绝常态
- 共同α值:0.01、0.05、0.1
共同实例
实例1通常分发的数据
数据:[1、2、2、3、3、3、3、4、4、5]
结果:可能正常(p值 > 0.05)
实例2断层数据
数据: [1、1、1、2、2、3、4、5、10]
结果:非正常(p值)< 0.05)
实例3双模式数据
数据: [1, 1, 1, 2, 2, 8, 9, 9, 10]
结果:非正常(p值)< 0.05)