[logo] Web連載「数学ガールの秘密ノート」
Share

第122回 シーズン13 エピソード2
平らに均す平均値(後編)

書籍『数学ガールの秘密ノート/やさしい統計』

この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。

無料でWeb立ち読み アマゾンで購入

登場人物紹介

:数学が好きな高校生。

ユーリのいとこの中学生。のことを《お兄ちゃん》と呼ぶ。 論理的な話は好きだけれど飽きっぽい。

$ \newcommand{\TEXT}[1]{\textbf{#1}} \newcommand{\REMTEXT}[1]{\textbf{#1}} \newcommand{\ABS}[1]{|#1|} $

僕の部屋

ユーリはさまざまな代表値について話をしていた。

さまざまな代表値 $$ \newcommand{\arraycolsep}{0pt} \begin{array}{|c|cccccccccc|} \hline \REMTEXT{点数} & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 \\ \REMTEXT{人数} & 1 & 2 & 2 & 1 & 3 & 0 & 0 & 0 & 0 & 0 & 1 \\ \hline \end{array} $$

  • 最大値 $10$ 点
  • 最小値 $0$ 点
  • 平均値 $3.1$ 点
  • 最頻値 $4$ 点
  • 中央値 $2.5$ 点

ユーリ「あれ? ……でも、わかんなくなってきた。グラフで平均値ってどこになるの?」

「え? 『平均値がどこになる』ってどういう意味?」

ユーリ「さっきのこれ、グラフ描くとするじゃん?」

「うん。ヒストグラムだね。こんなふうに」

ヒストグラム

ユーリ「それそれ。 お兄ちゃんがいってた代表値って、ぜんぶグラフでわかるじゃん? たとえば、 最小値と最大値はここでしょ?」

最小値と最大値

「ああ、そういうことか」

ユーリ「それから最頻値は、人数がいちばん多い点数でしょ?」

最頻値

「そうだね。そして中央値は……」

ユーリ「わかってるよん。中央値は、ちょうど左右の面積が等しくなるところ!」

中央値

「そうそう! よくわかっているなあ」

ユーリ「中央値が $2.5$ で、それは、左側にちょうど $5$ 人いて、右側もちょうど $5$ 人いるところ」

「その通りだね。中央値でヒストグラムを左右にわけるとちょうど左右の面積が等しくなる」

ユーリ「それはいーんだけど、平均値は?  平均値はグラフのどこになるの? 一番わかってると思ってた平均値がわかんなくなった」

「なるほどなあ。この場合は平均値が $3.1$ だから、線を引くとしたらここだね。 中央値よりも平均値は右にきた。これは、 $10$ 点の一人が、平均点を引き上げたんだ」

平均値のところに線を引いてみたが……

ユーリ「違うの。平均値がそこになるのはわかっているの。 そーじゃなくて、なんてゆーか……わかんない?」

「わかるよ。中央値 $2.5$ は『グラフの面積をちょうど $\frac12$ にする位置』 といえるけど、それと同じように平均値 $3.1$ はグラフ上でどういう位置なのか、 その位置にどういう意味があるのか……って言いたいんだろ」

ユーリ「そーなの。どーゆー意味があるの?」

「確かにこれはちょっと難しい問題だな」

ユーリ「えー、お兄ちゃんにもわかんないの?」

「いや、わかるよ」

ユーリ「早く教えてよ」

「ではここで問題です」

問題

平均値 $3.1$ はこのヒストグラムでどういう意味を持つ位置か。

ユーリ「いやいやいや、問題形式にしなくていいから!」

(あなたは、気がつきますか?)

「平均値の計算方法を思い出してみるとわかるよ」

ユーリ「掛けて割った」

「……何と何を掛けて、何で割ったの?」

ユーリ「点数と人数を掛けて、ぜんぶ足してから、ぜんぶの人数で割った」

$$ \dfrac{0\times\REMTEXT{《$0$点の人数》} + 1 \times \REMTEXT{《$1$点の人数》} + \cdots + 10 \times \REMTEXT{《$10$点の人数》}}{\REMTEXT{人数}} $$

「そうだね。言い換えると、それぞれの点数に、人数を使って《重み》をつけたといえる」

ユーリ「重み……わかった! バランスするところなんだ!」

「そうだね。大正解だ。ヒストグラムの高さ分だけ《重み》があると考えたとき、 平均値はちょうど横軸の重心になるんだよ」

解答

平均値の位置は横軸の重心になる。

ユーリ「なーるほどね。そんならナットク。 $10$ 点くんは、遠くに離れているから、一人でも効くんだ」

「そういうことになるね。だから、外れ値があるときは、平均値だけじゃなくて中央値も確かめるほうがいい」

ユーリ「ふんふん……」

最頻値

「代表値にはそれぞれ使いどころがあるわけだよ」

ユーリ「あれ、でも、たとえば最頻値なんかはいつでも便利だよ。 だって、最頻値って一番大きいとこでしょ? 一番大きいところは調べる価値あるじゃん?」

「調べる価値はあるけれど、代表値としては適切じゃない場合もあるよ」

ユーリ「え? そーかなー」

「じゃあ、クイズにしてみよう」

クイズ

最頻値が代表値として不適切な場合はどんなときか。

(あなたも、考えてみましょう!)

ユーリ「最頻値が不適切な場合なんて、思いつかにゃい……」

「そうかな?」

ユーリ「……ばかばかしい答えは思いつくよ。 たとえば、全員が同点の場合! 全員が同点だったら、最頻値は決まらないもん」

「いや、全員が同点だったら最頻値は決まるよ。その点数が最頻値になる。 ユーリがいいたいのは《すべての点数が同じ人数になる場合》じゃないの?」

ユーリ「あ、そーだった」

「すべての点数が同じ人数……つまり一様分布いちようぶんぷの場合には、 最頻値は決まらない」

一様分布では最頻値は決まらない

ユーリ「これが答えなの?」

「これだけじゃないよ。 ヒストグラムがこんな形になる場合でも、最頻値は決まらない」

最頻値が決まらない例

ユーリ「そだね」

「もしも、人数がぴったり同じでなければ最頻値は決まることは決まるけど、 その場合でも、差が小さければあまり意味はない。 だって、ほんのちょっとしたことで最頻値が大きく変化してしまうから。 最頻値が代表値として意味を持つのは、はっきりした山が一つあるときだね」

ユーリ「なるほど!……むむ! 《代表値攻撃法》を思いついた!」

「なんだそりゃ」

代表値攻撃法

ユーリ「ほら、お兄ちゃんがいま言ってるのは《最頻値が代表値として意味を持たない場合》って話じゃん?」

「そうだね」

ユーリ「それって、最頻値を《攻撃》してたわけ。 でね、ユーリが考えたのは《代表値がぜんぶ意味を持たない場合》を見つけるの! じゃじゃん!」

「いや『じゃじゃん!』じゃないよ。平均値はいつでも計算できるし」

ユーリ「平均値はいつでも計算できるけど、ほら、大きな外れ値があると平均値だけじゃだめで、 中央値も合わせて調べるっていったじゃん」

「いったけど……?」

ユーリ「ユーリが考えた代表値攻撃法はこれ! じゃじゃん!」

A

B

「ほほー?」

ユーリ「ね? AとBは《最大値、最小値、最頻値、中央値、平均値》のどれを使っても区別できない! でも、 このAとBは同じとはいえないよねー。  さてさて、この攻撃に代表値くんはどう反撃するかね?」

「ユーリは何と戦っているんだ」

ユーリ「お兄ちゃんと」

「確かにAとBのどちらも、

  • 最大値 $10$ 点
  • 最小値 $0$ 点
  • 平均値 $5$ 点
  • 最頻値 $5$ 点
  • 中央値 $5$ 点
になっているな。両方おなじだ。でも、ねえ、ユーリ。 代表値は一つの数にすぎないんだから、 分布をいつも区別できるわけじゃないよ……いや、この場合にはアレが使えるな」

ユーリ「アレ?」

「こんなふうに反撃してみよう」

問題

以下のAとBを区別できるような代表値を作ってみよ。

A

B

無料で「試し読み」できるのはここまでです。 この続きをお読みになるには「読み放題プラン」へのご参加が必要です。

ひと月500円で「読み放題プラン」へご参加いただきますと、 420本すべての記事が読み放題になりますので、 ぜひ、ご参加ください。


参加済みの方/すぐに参加したい方はこちら

結城浩のメンバーシップで参加 結城浩のpixivFANBOXで参加

(2015年7月10日)

書籍『数学ガールの秘密ノート/やさしい統計』

この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。

書籍化にあたっては、加筆修正をたくさん行い、 練習問題や研究問題も追加しました。

どの巻からでも読み始められますので、 ぜひどうぞ!

無料でWeb立ち読み アマゾンで購入

[icon]

結城浩(ゆうき・ひろし) @hyuki


『数学ガール』作者。 結城メルマガWeb連載を毎週書いてます。 文章書きとプログラミングが好きなクリスチャン。2014年日本数学会出版賞受賞。

Twitter note 結城メルマガ Mastodon Bluesky Threads Home