平成21年8月23日
[流れ星]
第228回数学的な応募問題解答
<解答募集期間:7月26日〜8月23日
[出口調査]
皆さん!衆議院が7月21日に解散し、8月30日に総選挙になります。そこで、マスメデアが一斉に行う予定の「出口調査」に関しての問題を考えました。
A,Bの二人が立候補したある選挙区で、選挙当日投票者の中から無作為に1000人を選んで「出口調査」をしたところ、次のような結果になりました。このことから、投票者全体で立候補者Aに投票した人の割合を信頼度95%以上で求め、Aが勝つか推定せよ。
結果1の場合 550人がAに、450人がBに投票した
結果2の場合 530人がAに、470人がBに投票した
また、考察として、1000人の「出口調査」の結果、信頼度95%以上でAが勝つと推定される最低の人数を考えてください。
NO1「uchinyan」 7/26 15時44分受信
「uchinyan」 7/26 16時53分受信
「uchinyan」 7/27 14時44分受信
更新8/23
第228回数学的な応募問題
[出口調査]
一人の有権者が,A に投票するとき 1,そうでないとき 0,の値をとる確率変数を X とします。
そして,有権者全体 N 人の母集団において,X の分布が,平均μ,標準偏差σの分布に従う,とします。
さらにこのとき,X の確率分布が,次のようになっているとします。
X |1|0|
確率|P|Q| ただし,P + Q = 1
すると,N 人の母集団における X の平均μ,分散σ^2,標準偏差σ は,
E(X) = 1/N * Σ[i=1,N]{X(i)} としたときに,
E((X - E(X))^2)
= 1/N * (Σ[i=1,N]{(X(i) - E(X))^2})
= 1/N * (Σ[i=1,N]{(X(i))^2 - 2 * E(X) * X(i) +
(E(X))^2})
= 1/N * Σ[i=1,N]{(X(i))^2} - 2 * E(X) * E(X) + (E(X))^2
= E(X^2) - (E(X))^2
に注意すると,
μ = E(X) = 1 * P + 0 * Q = P
σ^2 = E((X - E(X))^2) = E(X^2) - (E(X))^2 = (1^2 * P +
0^2 * Q) - P^2 = P(1 - P) = PQ
σ = √(PQ)
となります。ここで,μ = P になっていることが重要です。
P は,X が 1 となる確率なので,これは,有権者全体が A に投票する割合を表しています。
そこで,今回の問題では,候補者は A,B の二人で当選者は一人だけなので,
μ = P > 0.5 となれば,A が当選することを示しています。
そこで,母集団から抽出した標本からμを推定できれば,A が当選するかどうかを判定できます。
ここで,統計学の知識を使います。
統計学において,中心極限定理という定理があって,
平均μ,標準偏差σの分布をする母集団から抽出した n 人の標本の平均 m は,
近似的に,平均μ,標準偏差σ/√(n),の正規分布に従うことが知られています。
さらに,正規分布の性質より,95% の確率,信頼度,で,
μ - 1.96 * σ/√(n) <= m <= μ + 1.96 * σ/√(n)
となることが知られています。
以下では,これらのことは,証明は統計学の専門書に任せて,既知として使います。
最後の式より,
m - 1.96 * σ/√(n) <= μ <= m + 1.96 * σ/√(n)
がいえ,μ,つまり有権者全体が A に投票する割合 P,を推定できます。
しかし,今回の問題では母集団のσは分かっていないので,標本の標準偏差 s で代用することにします。
すると,
m - 1.96 * s/√(n) <= μ <=
m + 1.96 * s/√(n)
になり,μを標本の値だけで推定できます。
そこで,n 人の標本における平均 m と標準偏差 s を求めてみます。
これは,標本が母集団の部分集合であることから,先ほどと同様にして,
一人の有権者が,A に投票するとき 1,そうでないとき 0,の値をとる確率変数を Y とすれば,
Y の確率分布は,次のようになっていると考えられます。
Y |1|0|
確率|p|q| ただし,p + q = 1
すると,n 人の標本における Y の平均 m,標準偏差 s は,同じようにして,
m = p
s = √(pq)
となります。そこで,
p - 1.96 * √(pq/n) <= μ
<= p + 1.96 * √(pq/n)
になります。
以上より,いよいよ本題に入ります。
まず,1000 人を抽出したので,n = 1000 です。
結果1の場合:550 人が A に,450 人が B に投票した
p = 550/1000 = 0.55, q = 450/1000 = 0.45 なので,
0.55 - 1.96 * √(0.55 * 0.45 * 1/1000) <= μ <= 0.55 + 1.96 * √(0.55 * 0.45 * 1/1000)
0.55 - 0.031 < 0.55 - 0.03083498013620245548154873330219... <= μ <= 0.55 + 0.031
0.519 < μ <= 0.581
A が当選するには μ > 0.5 であればよかったので,A は当選するといえます。
結果2の場合:530 人が A に,470 人が B に投票した
p = 530/1000 = 0.53, q = 470/1000 = 0.47 なので,
0.53 - 1.96 * √(0.53 * 0.47 * 1/1000) <= μ <= 0.53 + 1.96 * √(0.53 * 0.47 * 1/1000)
0.53 - 0.03093448819683299690068850228091... <= μ
<= 0.53 + 0.03093448819683299690068850228091...
0.49906551180316700309931149771909... <= μ <=
0.56093448819683299690068850228...
A が当選するには μ > 0.5 であればいいのですが,
残念ながら,0.5 よりも大きいとは限らないので,A は当選するとはいえません。
考察
q = 1 - p なので,
p - 1.96 * √(p(1 - p)/n) <= μ <= p + 1.96 * √(p(1 - p)/n)
です。これが,確実に,0.5 < μ,となればいいので,
0.5 < p - 1.96 * √(p(1 - p)/n)
が必要です。これより,
1.96 * √(p(1 - p)/n) < p - 0.5
そこで,0.5 < p <= 1 の範囲で,
(1.96)^2 * p(1 - p)/n < (p - 0.5)^2
(1 + (1.96)^2/n) * p^2 - (1 + (1.96)^2/n) * p + (0.25) > 0
p^2 - p + (0.25)/(1 + (1.96)^2/n) > 0
p < (1 - √(1 - 1/(1 + (1.96)^2/n)))/2 or (1 + √(1 - 1/(1 + (1.96)^2/n)))/2 < p
ここで,0.5 < p <= 1 なので,
(1 - √(1 - 1/(1 + (1.96)^2/n)))/2 = 1/2 - (正の値) < 0.5
より,
(1 + √(1 - 1/(1 + (1.96)^2/n)))/2 < p <= 1
(1 + √(1 - 1/(1 + 3.8416/n)))/2 < p <= 1
n = 1000 では,
0.53093... < p <= 1
そこで,p = (A に投票する人の数)/1000 より,
95% の信頼度では,531 人以上が A に投票すればよいことになります。
(感想+ちょっぴり追加の考察)
統計は,大学時代に実験結果の解析をして以来,使っていなかったので,あまり自信がありません。
記憶をたどりながら,Webでも少し調べて考えてみましたが,あっているかどうか...
特に,母集団の標準偏差を標本の標準偏差で代用する,というかなり荒いことを行っています。
Webで調べた限りでは,近似としてはそれでもよい,ようなことが書いてあったように思うのですが,
実際はどうなのでしょうか。
Webで調べた感じでは,標本の標準偏差 s に対して √(n/(n-1))
* s を使った方がいいような記述もありました。
これだと,関係する式は,
p - 1.96 * √(pq/(n - 1)) <= μ <= p + 1.96 * √(pq/(n - 1))
になります。
ただ,今回の問題に関しては,これで計算しても,有意な差は見られないように思われます。
なお,候補者や当選者の人数が増えても,同様にして,各人の投票総数を推定できるので,
それらを比較することで当選するかどうかを判定できそうです。
例えば今回の問題でも,μと 0.5 を比較するのではなくて,
p - 1.96 * √(pq/n) <= μA = P
<= p + 1.96 * √(pq/n)
q - 1.96 * √(pq/n) <= μB = Q
<= q + 1.96 * √(pq/n)
となるので,μA,μB をそれぞれ求めて比較して,μA > μB がいえるかどうかを確認してもできます。
この方法の方が,より一般的ですね。
実際の選挙では,もっと効率も精度もいい方法を使っているのでしょうが,
基本的な考え方を勉強できて大変ためになりました。ありがとうございます。
NO2「kashiwagi」
7/30 20時26分受信
「kashiwagi」 8/03 15時53分受信
更新8/23
228回解答
【結果1の場合】
題意よりAおよびB候補の支持率を各々Pa、Pbとし、次の仮説を設定する。
仮説 H0 : P=0.5 即ち引き分けとする。
仮説 H1 : Pa=0.55>Pb
正規分布の標準偏差値を求めると、
・・・・・・@
ところで、題意よりα=0.05の両側検定であるから、正規分布表からC=1.96となる。
即ち、z=3.162 > C=1.96であるから当初の仮説H0 は棄却できるのでA候補が勝つ。
【結果2の場合】
上記と全く同様な計算を行うと、z=1.897 < C=1.96であるから当初の仮説H0 が成り立つのでA候補が勝つとは限らない。
以上より式@のPを求めればよく、
を解いて
P≧0.53099であるから、1000人のうち最低限531人のA候補への投票が必要である。