[logo] Web連載「数学ガールの秘密ノート」
Share

第124回 シーズン13 エピソード4
散らばりの驚き(後編)

書籍『数学ガールの秘密ノート/やさしい統計』

この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。

無料でWeb立ち読み アマゾンで購入

登場人物紹介

:数学が好きな高校生。

テトラちゃんの後輩。好奇心旺盛で根気強い《元気少女》。

ミルカさん:数学が好きな高校生。のクラスメート。長い黒髪の《饒舌才媛》。

$ \newcommand{\ABS}[1]{|#1|} \newcommand{\GEQ}{\geqq} \newcommand{\LEQ}{\leqq} \newcommand{\REMTEXT}[1]{\textbf{#1}} $

高校の図書室にて

テトラちゃんミルカさんは「分散」について話している。

ミルカ「いま彼が説明してくれた通りだ(第123回参照)。 分散を知っていれば、 ある一つの数値をピックアップしたときにそれが《ありふれた数値》なのか、 《めずらしい数値》なのか、それがわかるのだ」

「なるほどなあ……」

テトラ「なるほどです。だから《すごさの度合い》《驚きの度合い》《めずらしさの度合い》がわかると……」

ミルカ「そう」

「分散が大きいとしたら、平均値から大きくずれた数値が選ばれても驚くことじゃないんだ。 ありふれた数値なんだから。確かに、平均値だけからはその《驚きの度合い》はわからないね。なるほど!」

テトラ「自分が平均点よりもすごく大きな点数を取っても、 分散がわからなければ、その点数のほんとうの価値はわからないんですね……」

ミルカ「その発想から一歩進めば偏差値へんさちに至る」

テトラ「偏差値?」

偏差値

ミルカ「うん? テトラは偏差値を知らないのか」

テトラ「いえいえっ! そんなことはありません。 もちろん高校生として偏差値は知っていますが」

ミルカ「では、テトラは偏差値の定義を述べる」

ミルカさんは、そういってテトラちゃんを指さした。

テトラ「えっ、あっ、えっと、偏差値の定義……そういう意味ではなくてですね。 偏差値という言葉は知っていますが、偏差値の定義は知りませんでした。すみません」

ミルカ「言葉は知っているが、定義は知らないと」

テトラ「えっと、あの……そうですね。 考えてみると、変な話ですね。テストを受けるとき、受験を考えるとき、 いつも気にしている数値なのに定義を知らないなんて……」

ミルカ「代わりに、君が偏差値の定義を述べる」

ミルカさんは、今度はを指さした。

「確か、こうだったかな」

偏差値の定義

あるテストを受けた人が $n$ 人いて、 それぞれの得点を $x_1, x_2, \ldots, x_n$ と表すことにする。

得点の平均値を $\mu$(ミュー)とする。

得点の標準偏差を $\sigma$(シグマ)とする。

そのとき、そのテストにおける得点 $x_k$ の偏差値を $$ 50 + 10 \times \dfrac{x_k - \mu}{\sigma} $$ と定義する。

テトラ「ええと……標準偏差?」

「標準偏差は分散のルートを取ったものだよ、テトラちゃん。 つまり、平方根のうち正のもの……あ、 $0$ の場合もあるか……負でない平方根。 分散を $V$ とすると標準偏差 $\sigma$ は $\sigma = \sqrt{V}$ だね」

テトラ「標準偏差は……偏差とも、偏差値とも違うんですよね」

ミルカ「定義を再確認」

「そうだね」

平均値

$n$ 個の数値があるとしよう。この $n$ 個の数値のまとまりをデータと呼ぶ。 データに含まれている $n$ 個の数値を $x_1, x_2, \ldots, x_n$ と表すことにする。

このとき、 $$ \mu = \dfrac{x_1 + x_2 + \cdots + x_n}{n} $$ を、このデータの平均値と呼ぶ。

テトラ「はい、すみません……」

分散

データ $x_1, x_2, \ldots, x_n$ の平均値を $\mu$ で表すことにする。

数値 $x_1$ と平均値 $\mu$ の差、すなわち、 $$ x_1 - \mu $$ を、 $x_1$ の偏差へんさと呼ぶ。 $x_1$ の偏差と同様に、 $x_2$ の偏差、 $x_3$ の偏差などを考えることができる。

$x_1, x_2, \ldots, x_n$ の偏差をそれぞれ $2$ 乗した値の平均値を分散と呼ぶ。 すなわち分散 $V$ は、

$$ V = \dfrac{(x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2}{n} $$

である。

テトラ「はい、これも大丈夫です。確認ですけれど、 $x_k$ の偏差は $x_k - \mu$ でいいんですよね?」

「そうだね。それでいいよ。そして、標準偏差はこう」

標準偏差

分散が $V$ のとき、平方根のうち負でないほうを標準偏差という。 標準偏差を $\sigma$ で表すと、 $$ \sigma = \sqrt{V} $$ である。

テトラ「偏差、標準偏差……そして、偏差値ですね?」

「そうそう」

偏差値の定義

あるテストを受けた人が $n$ 人いて、 それぞれの得点を $x_1, x_2, \ldots, x_n$ と表すことにする。

得点の平均値を $\mu$ とする。

得点の標準偏差を $\sigma$ とする。

そのとき、そのテストにおける得点 $x_k$ の偏差値を $$ 50 + 10 \times \dfrac{x_k - \mu}{\sigma} $$ と定義する。

テトラ「はい、偏差値の定義はわかりました。 いえ、わかりましたというか、得点から平均点が計算できて、 得点と平均点から分散が計算できて、 分散から標準偏差が計算できて、 そして、そこから偏差値が計算できる……ということまではわかりました」

$$ \begin{align*} x_1, x_2, x_3, \ldots, x_n &\to \mu && \REMTEXT{得点から平均値} \\ x_1, x_2, x_3, \ldots, x_n, \mu & \to V && \REMTEXT{得点と平均値から分散} \\ V & \to \sigma && \REMTEXT{分散から標準偏差} \\ x_k, \mu, \sigma & \to \REMTEXT{$x_k$の偏差値} && \REMTEXT{得点$x_k$と平均値と標準偏差から$x_k$の偏差値} \\ \end{align*} $$

「うん」

テトラ「でも、偏差値が何なのかはわかりません……」

「得点の偏差値は、平均値を $50$ にそろえた場合の得点に相当するんだよ。 ほら、テストって難しいとき・易しいとき、いろいろあるよね。 そういうときは、平均点が動いちゃう」

テトラ「それはそうですね。難しいテストは平均点が低くなります」

「あるとき《テストAで $70$ 点とった》として、 しばらくして《テストBで $70$ 点とった》とする。 単純に得点を比較すると、実力は $70$ 点から変わっていないように見える」

テトラ「はい。テストAよりもテストBのほうが難しかったら、 同じ $70$ 点でも実力はアップしていたかもしれない……ということですよね。 偏差値は《平均値を $50$ 点にそろえた》ものなので、 得点を比較するより偏差値を比較した方が、 実力アップしたかどうかはっきりわかる……?」

「そうだね」

ミルカ「付帯条件が付くからそう単純でもないが」

「え?」

偏差値の平均値

ミルカ「そもそも、偏差値の平均値が $50$ になることを、 テトラは納得したんだろうか」

テトラ「ええっと……いえ、まだです」

「証明は簡単だよ」

問題(偏差値の平均値)

あるテストを受けた人が $n$ 人いて、 得点がそれぞれ $x_1, x_2, \ldots, x_n$ であるとする。

このテストにおける各人の偏差値を $y_1, y_2, \ldots, y_n$ としたとき、 以下が成り立つことを示せ。

$$ \dfrac{y_1 + y_2 + \cdots + y_n}{n} = 50 $$

テトラ「$k$ さんの偏差値を $y_k$ とするのですね。 はい、偏差値の定義を使って根気よく計算すれば、 きっと証明できるような気がします!」

「根気はそれほどいらないと思うよ」

(あなたは、気付きましたか?)

テトラ「ともかく、やってみます」

$$ \begin{align*} \dfrac{y_1 + y_2 + \cdots + y_n}{n} &= \dfrac{\left(50 + 10 \times \dfrac{x_1 - \mu}{\sigma}\right) + \REMTEXT{うわわわ……}}{n} \end{align*} $$

テトラ「うわわわ……いっぺんに計算するのはさすがに大変ですので、 得点が $x_k$ になっている $k$ さんの偏差値 $y_k$ をまず書いてみます」

$$ y_k = 50 + 10 \times \dfrac{x_k - \mu}{\sigma} \qquad \REMTEXT{$x_k$の偏差値} $$

テトラ「そして、平均値 $\mu$ は定義から $\dfrac{x_1 + \cdots + x_n}{n}$ ですので……」

$$ y_k = 50 + 10 \times \dfrac{x_k - \frac{x_1 + x_2 + \cdots + x_n}{n}}{\sigma} $$

「いや、ここでは $\mu$ のまま進んだ方がいいよ。 まず、 $y_k$ の和を求めようよ。こうだね」

$$ \begin{align*} & y_1 + y_2 + \cdots + y_n \\ &= \left(50 + 10 \times \dfrac{x_1 - \mu}{\sigma} \right) + \left(50 + 10 \times \dfrac{x_2 - \mu}{\sigma} \right) \\ & \qquad \qquad + \cdots + \left(50 + 10 \times \dfrac{x_n - \mu}{\sigma} \right) \\ &= 50n + \dfrac{10}{\sigma}\times \left((x_1-\mu)+(x_2-\mu)+\cdots+(x_n-\mu)\right) \\ &= 50n + \dfrac{10}{\sigma}\times \left(x_1+x_2+\cdots+x_n - n\mu\right) \\ \end{align*} $$

「これをよく見ると、 $n\mu$ というのは《$n$ 倍した平均値》だから、 これは得点の総和のこと。つまり $x_1 + x_2 + \cdots + x_n$ に等しいよね。 つまり……」

$$ \begin{align*} y_1 + y_2 + \cdots + y_n & = 50n + \dfrac{10}{\sigma} \times \left(x_1+x_2+\cdots+x_n - n\mu\right) \\ & = 50n + \dfrac{10}{\sigma} \times 0 \\ & = 50n \\ \end{align*} $$

テトラ「すごいです! 一気に $50n$ だけになりました」

「$y_1,\ldots,y_n$ の総和が $50n$ なんだから、平均値は $50$ だね」

ミルカ偏差の総和を考えればいい」

「そうそう。ミルカさんのいう通り。《偏差値》の定義をよく見ると、 定義の中に《偏差》が出てきているのに気付くよ」

$$ \REMTEXT{$x_k$の偏差値} = 50 + 10 \times \dfrac{\overbrace{x_k - \mu}^{\REMTEXT{$x_k$の偏差}}}{\sigma} $$

テトラ「ははあ……確かに $x_k - \mu$ が偏差ですね。 $x_k$ から平均値を引いてますから」

「そして、偏差の総和は当然 $0$ だよね。さっきも出てきたけど」

偏差の総和は $0$ に等しい

$$ \begin{align*} & (x_1 - \mu) + (x_2 - \mu) + \cdots + (x_n - \mu) \\ &= (x_1 + x_2 + \cdots + x_n) - n\mu \\ &= (x_1 + x_2 + \cdots + x_n) - (x_1 + x_2 + \cdots + x_n) \\ &= 0 \\ \end{align*} $$

テトラ「ああ! そういえばそうですね。 だったら、偏差値の平均値が $50$ になるのって当然じゃないですか!」

ミルカ「そうなるように定義」

「だから、偏差値の定義の $50 + \cdots$ の部分は、 偏差値の平均値を $50$ にするという意図を表しているんだね」

テトラ「なるほどです」

「逆にいえば、《偏差値が $50$ の人は平均点を取っている》ともいえるんだよ」

偏差値の分散

ミルカ「《偏差値の平均値》が $50$ なのは、偏差値の定義からすぐわかる。 では《偏差値の分散》は?」

「そういえば、どうなるんだろう」

ミルカ「その答えは驚きだな」

テトラ「偏差値の平均値は $50$ で、分散は……何になるんですか?」

ミルカ「計算すればすぐにわかる」

テトラ「計算……」

問題(偏差値の分散)

あるテストを受けた人が $n$ 人いて、 得点がそれぞれ $x_1, x_2, \ldots, x_n$ であるとする。

このテストにおける各人の偏差値を $y_1, y_2, \ldots, y_n$ としたとき、 $y_1, y_2, \ldots, y_n$ の分散を求めよ。

(あなたは、計算できますか?)

「これこそ、定義式から計算すればすぐ出そうだなあ」

テトラ「あ、あたしも計算します! まずは、定義から」

$$ \begin{align*} \REMTEXT{《偏差値の分散?》} &= \dfrac{(y_1 - \mu)^2 + (y_2 - \mu)^2 + \cdots + (y_n - \mu)^2}{n} \\ &= \cdots \\ \end{align*} $$

ミルカ「定義が違う」

テトラ「え? でも、分散は、平均値を引いて $2$ 乗した値を平均すればいいんですよね?」

ミルカ「省略しすぎ」

テトラ「?」

ミルカ「《何の平均値》なのかを意識する」

テトラ「何の平均値か……でも、平均値を $\mu$ としたのですから……あっ、ちがいました。 $\mu$ は得点の平均値でした。偏差値の分散を考えるんですから、 偏差値の平均値を引くんですね。すみません。 偏差値の平均値は $50$ ですから、こうですか」

$$ \begin{align*} \REMTEXT{《偏差値の分散》} &= \dfrac{(y_1 - 50)^2 + (y_2 - 50)^2 + \cdots + (y_n - 50)^2}{n} \\ &= \cdots \\ \end{align*} $$

テトラ「あれ?  $y_1 - 50$ って、 $10\times\dfrac{x_1 - \mu}{\sigma}$ ですか?」

「そうだね。あ、わかった」

テトラ「だめです、だめです! 先に暗算しないでくださいよう!」

$$ \begin{align*} \REMTEXT{《偏差値の分散》} &= \dfrac{(y_1 - 50)^2 + (y_2 - 50)^2 + \cdots + (y_n - 50)^2}{n} \\ &= \dfrac{\left(10\times\frac{x_1 - \mu}{\sigma}\right)^2 + \left(10\times\frac{x_2 - \mu}{\sigma}\right)^2 + \cdots + \left(10\times\frac{x_n - \mu}{\sigma}\right)^2}{n} \\ &= \dfrac{10^2}{n\sigma^2}\times\left((x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2\right) \\ &= \REMTEXT{あとは$2$乗を展開して……} \\ \end{align*} $$

「そっちに進むんじゃないよ、テトラちゃん。そっちは沼地だよ」

テトラ「沼地?」

「計算の泥沼に入っちゃうってことだよ。 いまの計算で、テトラちゃんは $\dfrac{10^2}{n\sigma^2}$ をくくりだしたけど、 $n$ は残しておいたほうがいいよ」

テトラ「ということは、こうですか?」

$$ \begin{align*} \REMTEXT{《偏差値の分散》} &= \cdots \\ &= \dfrac{10^2}{\sigma^2}\times\dfrac{(x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2}{n} \\ \end{align*} $$

ミルカ「一目瞭然」

テトラ「?」

無料で「試し読み」できるのはここまでです。 この続きをお読みになるには「読み放題プラン」へのご参加が必要です。

ひと月500円で「読み放題プラン」へご参加いただきますと、 420本すべての記事が読み放題になりますので、 ぜひ、ご参加ください。


参加済みの方/すぐに参加したい方はこちら

結城浩のメンバーシップで参加 結城浩のpixivFANBOXで参加

(2015年7月24日)

書籍『数学ガールの秘密ノート/やさしい統計』

この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。

書籍化にあたっては、加筆修正をたくさん行い、 練習問題や研究問題も追加しました。

どの巻からでも読み始められますので、 ぜひどうぞ!

無料でWeb立ち読み アマゾンで購入

[icon]

結城浩(ゆうき・ひろし) @hyuki


『数学ガール』作者。 結城メルマガWeb連載を毎週書いてます。 文章書きとプログラミングが好きなクリスチャン。2014年日本数学会出版賞受賞。

Twitter note 結城メルマガ Mastodon Bluesky Threads Home