いぬおさんのおもしろ数学実験室

おいしい紅茶でも飲みながら数学、物理、工学、プログラミング、そして読書を楽しみましょう

箱ひげ図、四分位数の問題をひとつ

 次はあるデータから作った箱ひげ図です。

f:id:Inuosann:20210202154433p:plain

この図を見て、「全データの1/2以上が40以上55以下である」と言ってよいでしょうか。第1四分位数は40より大きく、第3四分位数は55未満です。なお、四分位数の定義はいくつかあるようですが、ここでは教科書流の次の定義を採用します。

www.omoshiro-suugaku.com

 例えばデータが9個なら第2四分位数(データ全体の中央値)はちょうど5番目のデータです。下組、上組のデータは4個ずつです。どちらの組にも組の中央値に対応するデータはありません。真ん中2個のデータの平均が中央値なのでした。データが7個なら下組、上組はそれぞれ3個ずつ。このときはそれぞれの組で、中央値に対応するデータが存在します。この辺、データの個数によって状況は変化します。これを考えた上で「最初の箱ひげ図で40以上55以下のデータは1/2以上ある」と言っていいのか考えてください、ということなのです。要するに、単純に「第1四分位数以上で第3四分位数以下のデータは1/2以上ある」と言ってよいのか、ということです。

 何人かの先生に聞いてみたらやはりと言うか、「うっ」と詰まっていました。多分成立はするんだろうけれど、じゃあ断言できるかというと不安なのでしょう。しかも、第1四分位数以下のデータは確かに全体の概ね1/4ではありますが、最小値の側にたくさん集まっているのかも……などと考えるとさらに分からなくなるのでは?

 

 解答ですが……もちろん成立です。説明しましょう。●や★は四分位数です。●は実際に値の存在する中央値、★はそうでない中央値です。つまり★は平均で算出する中央値です。

①9人のとき

○○★○○●○○★○○

★から★までで5個、半分以上です。

 

②10人のとき

○○●○○★○○●○○

●から●までで6個、半分以上です。

 

③11人のとき

○○●○○●○○●○○

●から●までで7個、半分以上です。

 

④12人のとき

○○○★○○○★○○○★○○○

★から★までで6個、半分以上です。

 

もちろん、ちゃんとした証明にしたければデータ数が 4k、4k+1、4k+2、4k+3 のときに場合を分けることになるでしょう。でもまあこれで十分納得できるはずです。

 

 しかしこの箱ひげ図、何年かで中学校に移るんですよね? 多分「×××は高校で勉強するとよいのだ!」と誰かが言い出してこんなことになったんですよね……。本気だったならもっと強力に「高校でやるのだ!!!」と主張すればいいのに。簡単に消えるんですね。何だったんでしょうね……。興味ないけど。