あるある大事典のデータ捏造で思いついた、サンプルサイズ問題

発掘!あるある大事典IIでの番組中で放映されたデータ偽造が話題になっているんですが。
捏造とは言い切れないものの、テレビ番組中で実験される事例の多くはわずかな人数による被験者によるものであり、また統計処理がなされていない。
だからテレビ番組中で紹介される「何々をした人」と「していない人」の対比は、パネルで司会者がどうこう述べたとしても、実はあまり説得力が無い。
(参考となった文献などの話ではなく、テレビ番組中での企画で行われるテストの話だ)


2つのグループを設定し、それぞれに異なる処理を行うとして。
違う人をそれぞれの試験区に設置するのだから、関連の無い独立2標本の比較となる(もしもクローン人間を利用するならば関連2標本となる)。


2群間の比較で量的な計数データ(体重や血糖値)と言えば、スチューデントのt検定である。
正規分布で等分散性が否定できない事例であればスチューデントのt検定でOKなのだろう。
正規分布で等分散性が論じられないならばウェルチのt検定(Welch's t test)。
分布が極端に偏っている場合、つまり一方の群が正規分布でなかったりメチャクチャな値だらけであったならばU検定なのかな。
(サンプルサイズがそれほど多くない場合は正規性にこだわらなくても良いとされるので、スチューデントのt検定でも怒られたりはしないだろう、多分)


番組中でスタッフやバイトがダイエット食品か何かを摂食したとして、それぞれの区には何人必要なのだろうか。
それぞれの群での平均値と標準偏差(データのバラツキ具合)次第で変わるので、何とも言いがたいものがあるんですが。
自分ならば各試験区で最低でも15人程度ずつは居なければ、見る気もしない。
(もしも両群で凄まじく多い被験者がいた場合、どうでもいいレベルの差であっても統計上有意な差が出てしまう場合もある)


だからあるある大辞典に限らず多くのテレビ番組にては、各群4人ずつなど極めて少人数による比較試験を行ったとしても、統計上の説得力は無いし信頼できない。