最頻値(Mo)
最頻値とは,度数の最も多い階級に対する値である。
例題:「街角に立って,通りかかる女性の服装の色を調べたところ,以下のような結果になった。最頻値は何か。」
色 | 赤 | 白 | 黄 | 緑 | 青 | 紺 | 黒 | その他 |
---|---|---|---|---|---|---|---|---|
頻度 | 12 | 3 | 2 | 8 | 24 | 16 | 11 | 6 |
解答:頻度の最も多い「青」が最頻値である。最頻値は mode の訳語であり,まれに mode を直訳として 流行値 とも呼ばれる。「このデータを得た時期の流行色は青である」ということである。
One more step!
間隔尺度・比尺度の場合には,度数の最も多い級間の中心点が用いられるが,分布が左右対称でない限り中心点とは限らない。そこで,l を中央値 Mo を含む階級の下限点,f+1 をその階級の次の級間の度数,f-1 を前の級間の度数,h を級間の幅として,以下の式で定義することもある。

例題:「426 人の女子学生の身長の度数分布が表 1 のようであった。最頻値を求めよ。」
階級(単位 cm) | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
140 以上 145 未満 | 4 | 0.94 | 4 | 0.94 |
145 以上 150 未満 | 19 | 4.46 | 23 | 5.40 |
150 以上 155 未満 | 86 | 20.19 | 109 | 25.59 |
155 以上 160 未満 | 177 | 41.55 | 286 | 67.14 |
160 以上 165 未満 | 105 | 24.65 | 391 | 91.78 |
165 以上 170 未満 | 33 | 7.75 | 424 | 99.53 |
170 以上 175 未満 | 2 | 0.47 | 426 | 100.00 |
合計 | 426 | 100.00 |
解答:「最頻値は 155 以上 160 未満である」とするのはすこし荒っぽすぎる。
その階級の真ん中の値をとって「最頻値は 157.5 である」とするのはまずまずである。
最も望ましい論述は「最頻値は 157.75 である」ということになる。
すなわち,最頻値を含む階級の下限点は l = 155,また,f-1 = 86,f+1 = 105,h = 5 であるから,これらを上の式に代入して,Mo = 157.75 となる。
最頻値(モード)
最頻値
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/01/23 07:56 UTC 版)
統計学における最頻値(さいひんち)またはモード(英: mode)とは、データや確率分布で頻度(度数、確率)が最大の値のことである[1]。(データ上で最も出てくる頻度が高い数値)日本産業規格では、「離散分布の場合は確率関数が,連続分布の場合は密度関数が,最大となる確率変数の値。分布が多峰性の場合は,それぞれの極大値を与える確率変数の値」[2]と定義している。
最頻値は平均値や中央値と併せて、データ、確率分布の代表値の一つである[3][4]。最頻値は一般に平均や中央値とは異なり、特に歪度の大きい分布では大きく異なることがある。
最頻値は一意とは限らない。一様分布は全ての値が最頻値となる。
確率分布の最頻値
離散確率分布の最頻値は、確率質量関数が最大となる値である。言い換えれば、標本として最も頻繁に出現しやすい値である。連続確率分布の最頻値は、確率密度関数が最大となる値であり、大まかに言えばそのピークとなる値である。先述の通り、最頻値は一意とは限らず、確率質量関数や確率密度関数が複数の地点で最大となることもある。
先述の定義から全域的最大値が最頻値だとわかる。若干困惑させるが、確率密度関数が複数の極値をもつとき、それぞれをその分布の最頻値とすることもある。そのような連続確率分布を「多峰性分布」、そうでないものを「単峰性分布」と呼ぶ。
正規分布などの線対称な単峰性分布では、平均、中央値、最頻値が全て一致する。例えば、線対称な分布に従っていると判明していれば、標本群の平均を母集団の最頻値の推定値として使うことができる。
標本の最頻値
標本データの最頻値は、その中で最も頻繁に出現する値を意味する。例えば [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] という標本群の最頻値は6である。[1, 1, 2, 4, 4] というデータでは最頻値は一意に定まらない。そのようなデータ群を「二峰性 (英: bimodal)」と呼び、最頻値が2つよりも多ければ「多峰性 (英: multimodal)」と呼ぶ。
連続確率分布の標本は [0.935..., 1.211..., 2.430..., 3.668..., 3.874...] のようになり、正確に同じ値が出現することはないため、そのままの定義では最頻値を求められない。この場合一般に、値の範囲を等間隔の区間に分割し、ヒストグラムを作成することで区間ごとの頻度を求め、区間の中央の値でその区間を代表させる。したがって最頻値はヒストグラムのピークの値ということになる。サンプルサイズが小さい場合、区間の幅をどう選択するかで値が大きく変わってくる。一般に各区間のサンプルをある程度以上確保するために区間数を少なくする。もう1つの手法としてカーネル密度推定があるが、これは本質的に標本値をぼやけさせて確率密度関数を連続的に推定するもので、それによって最頻値を提供できる。
次のMATLABのコード例は、標本群から最頻値を計算するものである。
X = sort(x);
indices = find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] = max (diff([0; indices])); % longest persistence length of repeated values
mode = X(indices(i));
このアルゴリズムでは、まず標本群を昇順にソートする必要がある。次いでソートされたリストの離散微分係数を計算し、その微分係数が正となるインデックス群 (indices) を求める(つまり、値が上がっている位置を求める)。次にそのインデックス列の離散微分係数を計算し、それが最大となっている位置を求める(つまり、同じ値が長く続いているほどインデックスの差が大きくなり、微分係数が大きくなる)。
平均値、中央値、最頻値の比較
代表値の比較 | ||||
種類 | 意味 | 式 | 例 | 結果 |
算術平均 | 総和をサンプルサイズで割ったもの | ![]() |
最頻値
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/09 22:55 UTC 版)
最頻値は、モード (英: mode)または 並み数 ともいい、データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値である。
※この「最頻値」の解説は、「要約統計量」の解説の一部です。
「最頻値」を含む「要約統計量」の記事については、「要約統計量」の概要を参照ください。
「最頻値」の例文・使い方・用例・文例
- 最頻値のページへのリンク