次はあるデータから作った箱ひげ図です。
この図を見て、「全データの1/2以上が40以上55以下である」と言ってよいでしょうか。第1四分位数は40より大きく、第3四分位数は55未満です。なお、四分位数の定義はいくつかあるようですが、ここでは教科書流の次の定義を採用します。
例えばデータが9個なら第2四分位数(データ全体の中央値)はちょうど5番目のデータです。下組、上組のデータは4個ずつです。どちらの組にも組の中央値に対応するデータはありません。真ん中2個のデータの平均が中央値なのでした。データが7個なら下組、上組はそれぞれ3個ずつ。このときはそれぞれの組で、中央値に対応するデータが存在します。この辺、データの個数によって状況は変化します。これを考えた上で「最初の箱ひげ図で40以上55以下のデータは1/2以上ある」と言っていいのか考えてください、ということなのです。要するに、単純に「第1四分位数以上で第3四分位数以下のデータは1/2以上ある」と言ってよいのか、ということです。
何人かの先生に聞いてみたらやはりと言うか、「うっ」と詰まっていました。多分成立はするんだろうけれど、じゃあ断言できるかというと不安なのでしょう。しかも、第1四分位数以下のデータは確かに全体の概ね1/4ではありますが、最小値の側にたくさん集まっているのかも……などと考えるとさらに分からなくなるのでは?
解答ですが……もちろん成立です。説明しましょう。●や★は四分位数です。●は実際に値の存在する中央値、★はそうでない中央値です。つまり★は平均で算出する中央値です。
①9人のとき
○○★○○●○○★○○
★から★までで5個、半分以上です。
②10人のとき
○○●○○★○○●○○
●から●までで6個、半分以上です。
③11人のとき
○○●○○●○○●○○
●から●までで7個、半分以上です。
④12人のとき
○○○★○○○★○○○★○○○
★から★までで6個、半分以上です。
もちろん、ちゃんとした証明にしたければデータ数が 4k、4k+1、4k+2、4k+3 のときに場合を分けることになるでしょう。でもまあこれで十分納得できるはずです。
しかしこの箱ひげ図、何年かで中学校に移るんですよね? 多分「×××は高校で勉強するとよいのだ!」と誰かが言い出してこんなことになったんですよね……。本気だったならもっと強力に「高校でやるのだ!!!」と主張すればいいのに。簡単に消えるんですね。何だったんでしょうね……。興味ないけど。