2013年10月27日

最尤法と対数尤度

世の中、webやblogが発達して、統計の勉強をしている中で疑問があったら、初歩的な部分だと大概どなたかが解説を書いていてくださって、とても助かっています!

ということで、ちょっと気になったけど、手持ちの本に書いていなかった点をメモとして残しておきます。

内容は、タイトルの通り「最尤法と対数尤度」です。
高校数学がわかれば充分な範囲です。

「最尤法」は、文字の通り「尤もらしい方法を採用しようぜ」というものです。
統計って、要は「いろんなデータ(sample)を取得して、全体としてどんな法則が隠れてるか探ってみよぉぜ」的なところが目標になっているとしましょう。
ここで、「法則」にあたるものは、母数(parameter)です。平均($\mu$), 分散($\sigma^2$)などを推定(estimate)するのがゴールです。

まぁ、平たく言えば「木を見て森を知ってしまうぞ!」的な冒険心溢れる行為ですね。

閑話休題。そのサンプルデータを$Y=\{ y_i\}$、知りたい母数を$\theta$、それぞれの確率関数を$p(y_i|\theta)$とします。このとき尤度関数(Likelihood function)は

$\displaystyle L(\theta)=\Pi_i p(y_i|\theta)$

で定義されます。何故掛け算で定義するかといえば、データが生じた事象が同時に成立する確率を考えたいからですね。両辺の対数$\log$をとると

$\displaystyle \log L(\theta)=\sum_{i} \log p(y_i|\theta)$

ですね。対数の底は自然対数$e$です。

実際のインプットは$Y=\{ y_i\}$というデータ、それに対して何かしらの基準で$\theta$を決定するわけです。その基準が「最尤」、尤もらしい、ということ。$L(\theta)$が極大になる点を探すことにたどり着きます。しかし、正規分布の場合、指数関数$e^{-x^2}$なんかが出てきているためそのままだと扱いづらいので、対数を取って見やすくした、、みたいなイメージでしょうか。

それで、実際に$L(\theta)$の振る舞いと、$\log L(\theta)$の振る舞いですが、「極大になるタイミングは一緒なのか?」という疑問が。

ここで、ちょっと複雑な形をしている$\log L(\theta)$についてですが、
$\displaystyle \frac{\partial}{\partial \theta}\log L(\theta) = \frac{\frac{\partial L(\theta)}{\partial\theta}}{L(\theta)}$
なので、分子に$L$の微分が出てきていますね。

ということで、掛け算の因子$p(y_i|\theta)$が全て$0$でなければ、$L(\theta)$と$\log L(\theta)$のそれぞれの微分が$0$になるタイミングは一致しますね♪

ちょっとしたtipsでした。

以上は、この本

 

の第11章の「推定」、下記の本の第2章「確率分布と統計モデルの最尤推定」に詳細な説明がありますが、上記の部分が明示的に書かれていませんでしたので。。
(数学科卒の本の読み方かも知れませんけども。。。)