サンプル数が異なる場合の比較には信頼区間の下限を使う

カテゴリ：statistics

建造レシピＡはサンプル数 1,400 で出現率 1.9 ％、建造レシピＢではサンプル数 12,000 で出現率 1.6 ％だとする。どちらで建造するほうがいいだろうか。

単純な出現率ではレシピＡだが、サンプル数が少ない。このようにサンプル数が異なる場合は信頼区間の下限を比較し、大きいほうを採用するとよい。99％信頼区間は以下の式で計算できる。95％の場合は 2.58 の代わりに 1.96 を使う。

p：出現率
n：サンプル数

99％信頼区間の下限の計算式

この例では、建造レシピＡの 99 ％信頼区間の下限は 0.96 ％で、建造レシピＢの 99 ％信頼区間の下限は 1.30 ％。なので建造レシピＢの方がより信用できる。

この計算式は Google でも計算できる。建造レシピＡの 99 ％信頼区間の下限の計算式は以下のようになる。

0.019 - 2.58*sqrt(0.019*(1-0.019)/1400)