正規性計算機
様々な統計試験を用いて、データが正規分布に続くかどうかをテストします。
正規性のテスト
ノーマンティーテストの包括的なガイド
なぜ正規性のテスト?
正常性テストは統計分析の基本的なステップです。 統計的検査と手順(t-tests、ANOVA、および回帰解析など)は、データが通常の分布に従うという前提で構築されています。 通常のデータでこれらのテストを使用して、無効な結論と欠陥のある決定につながることができます。
正規テストのための主理由:
- パラメトリック統計試験の想定値の検証
- データの適切な分析方法を決定する
- 潜在的なデータ収集の問題や期限を特定する
- ガイドデータ変換決定
- 製造業および研究の品質管理をサポート
一般的な正規性 明白なテスト
Shapiro-Wilkテスト
Shapiro-Wilkテストは、特に中小のサンプルサイズ(n)の最も強力な正常性テストの1つと考えられています< 50).
使い方:
ランダムなサンプルが通常の分布から来るかどうかをテストするWの統計を計算します。 Wの統計は、変動の四角形の推定値の通常の補正された合計に分散の最高の推定値の比率です。
方式:
W = (Σaix(i))2 / Σ(xi - x̄)2
通訳:
p-value が alpha よりも大きい場合 (一般的に 0.05)、通常はデータが配布される null 仮説を拒否する失敗します。
アンダーソンダーリングテスト
アンダーソンダーリングテストは、ディストリビューションのテールの逸脱に特に敏感であり、それはアウトリエやスキューネスを検出するのに優れています。
使い方:
試験は、通常の分布のCDFとサンプルデータの帝国累積分布関数(CDF)を比較し、他のテストよりも尾により多くの重量を与えます。
利点:
- より大きいサンプル(n > 50)とよく実行して下さい
- 分布尾の逸脱により敏感
- ツルツルとクトルシスの問題の両方を検出することができます
通訳:
ダウンロー A2 値は、より密接に正規分布に従うデータを示します。 p-value が重要度を超えた場合、データは正常と見なすことができます。
コルモゴロフ・シミノフ テスト
Kolmogorov-Smirnov(K-S)テストは、サンプルの空圧分布関数と参照分布の累積分布関数の間の最大距離を測定します(通常)。
使い方:
K-Sテスト統計(D)は、帝国および理論的累積分布関数間の最大垂直距離に基づいています。
主な特徴:
- あらゆるサンプルサイズで動作しますが、より大きいサンプルと最も強力
- ディストリビューションテールの逸脱が少ない
- あらゆる連続分布に対する試験のための汎用性
使用する場合:
より大きいデータセットと正常性のためにテストし、尾の行動について心配するより少し必要とすれば最もよい使用。
テスト性能の比較
| テスト | 最高のサンプル サイズ | フィードバック | 強み | 制限事項 |
|---|---|---|---|---|
| シャピロ・ウィルク | 3-50 | 高い | 小さいサンプルのために最も強力 | 元の形態のより小さいサンプルに限られる |
| アンダーソン・ダーリング | どれも、ベスト >50 | 高い(尾のesp。) | テールの偏差を検出するための優れた | より複雑な計算 |
| コルモゴロフ・シミノフ | その他 | モデレート | 汎用性、任意の継続的な分布で動作します | 特に尾のための他、よりより少ない敏感 |
テスト結果の解釈方法
正規テストの結果を分析するときは、次のガイドラインに従ってください。
データが正常に現れるとき
p-value>α(重要度)の場合
- NULL仮説を拒否する失敗
- 通常の分布とデータの一貫性
- パラメトリックテストを使用する
- t-tests、ANOVA、線形回帰等と進みます。
データが非正常出現するとき
p-value ≤ α (重要なレベル):
- null 仮説を注入する
- 通常の分布から逸脱する可能性のあるデータ
- 比例しない代替手段を考慮する
- データ変換は、適切な(ログ、平方根など)
重要な考慮事項
- サンプル サイズ問題:より大きなサンプルでテストがますますます敏感になり、未成年者、実質的に有意な偏差を検出する可能性が高い
- 視覚点検は貴重です:常にQ-Qプロットとヒストグラムで統計的なテストを補完する
- セントラルリミット テーマ:大きいサンプル(n > 30)を使うと、多くの統計的なプロシージャはnormalityからの適度な出発に堅くあります
- コンテキストはキーです:特定の分析および研究の質問に対する非正常性の影響を考慮する
非正常なデータを扱う
データの正常性テストに失敗した場合は、いくつかのオプションがあります。
-
データを変換する:数学的な変換を適用して、データをより正常にするために:
- ログ変換: 右スキュードデータ
- 平方根変換: カウントデータまたは適度な右スキューのため
- Box-Cox 変換: 様々な非正規パターンの柔軟なアプローチ
-
非パラメトリックテストを使用する:これらのテストは正常性を想定しない:
- Mann-Whitney Uテスト(独立したtテストの代わりに)
- ウィルコクソンの署名されたランクテスト(対のtテストの代わりに)
- Kruskal-Wallisテスト(片道ANOVAではなく)
- ブートストラップメソッド:分布の仮定を必要としない再サンプリング技術
- 堅牢な統計方法:ノーリアやノーマリティからの出発の影響を受けにくい技術
正規性試験の実用的応用
品質管理
製造では、正規性テストは、製造プロセスが安定して予測可能であることを確認するのに役立ちます。 異常な結果は、調査を必要とするプロセスの問題を示すかもしれません。
科学研究
研究者は、特に医学、心理学、社会科学などの分野において、統計分析の妥当性を確保するために、正常性検査を使用します。
財務分析
リターンの正常性をテストすることは、財務におけるリスク評価、ポートフォリオの最適化、オプション価格設定モデルにとって重要です。
環境モニタリング
環境データは、多くの場合、傾向やしきい値の超過を検出するための適切な統計的アプローチを決定するために、正規性試験を必要とします。
ベストプラクティスの概要
- 統計的検査をビジュアルメソッド(ヒストグラム、Q-Qプロット)と組み合わせる
- サンプルサイズと分析ニーズに基づいて適切なテストを選択してください
- 統計的な重要性だけでなく、非常態の実用的な意義を考慮する
- 研究とレポートであなたの正規性評価プロセスを文書化
- 疑わしいときは、複雑な分析のための統計学者とのコンサルティングを検討してください
ノーマリティとは?
通常の分布(Gaussian分布とも呼ばれる)は、対称ベル形状の曲線を特徴とする継続的な確率分布です。 これは、その意味と標準偏差によって定義されます。
- ベル型カーブ
- 平均の周りの対称
- 68% 1つの標準偏差内のデータ
- 95% 2つの標準偏差内のデータ
- 99.7% 3つの標準偏差内のデータ
正常性テスト
Shapiro-Wilkテスト
小さいサンプルのためのベスト(n)< 50)
アンダーソンダーリングテスト
より大きいサンプルのためによい
コルモゴロフ・シミノフ テスト
あらゆるサンプル サイズのために働きます
結果の解釈
P-Value通訳
- p-value > α: 正規性を拒否する失敗
- p値 ≤ α: 正規性を注入する
- 共通のαの価値:0.01、0.05、0.1
一般的な例
例1通常分散データ
データ: [1, 2, 2, 2, 3, 3, 4, 4, 5]
結果: 同様に正常 (p-value > 0.05)
例2Skewedデータ
データ: [1, 1, 1, 2, 2, 3, 4, 5, 10]
結果: 正常でない (p-value)< 0.05)
例3二次元データ
データ: [1, 1, 1, 2, 2, 8, 9, 9, 10]
結果: 正常でない (p-value)< 0.05)