2013年7月10日

ビッグデータとか。

昨日、統計とかデータ分析の本を読んでるよ、って記事(というかメモ)を書いたんだけども、いろいろ「思わせ振り」な文面を読んでると統計ってものに対する見え方が違ってくるんだな。

<今まで>
 どうしても数学科ってところが邪魔をしていたのか、統計でつきものの「誤差(error)」がある時点で「あまり美しくない」じゃないか、と。
 中学の時に習う「三平方の定理」てのは、まっ平らな平面(Euclid space)なら常に成立する定理で誤差なんぞありえない。

<今>
 で、ビッグデータ関連の記事を読んでみると、

  • データの前にストーリー(物語)が大事だ

とか

  • 分散処理(Hadoopなど)を使うと、いち早く結果を次の一手に使えるぞ!でもって、それがきっかけで売上が超上がったぞ!!

とかがよくある話のようで、読者諸兄はそういう文脈(含:ワタクシ)に引っかかってるわけでありますが、注目すべきは

  • どうやったら結論を得るためのゴミ情報を省くか

つまり

  • どうやって誤差/ノイズを取り除くか

っていう部分て殆ど触れられてないんですねw

こんな部分に着目してる時点で、前述の「数学科卒」って点が拭い切れてない現れなんですけども、ビジネスの文脈なら、「まぁ、突っ走ってしまおうぜ」が勝つことが多いわけでして。
敢えてそういった「誤差」を取り除いた時にどういう景色が見えるのか
ビッグデータに未来を感じている人の多くは、暗黙のうちに誤差をのけてるんじゃないかなー、なんてね。ネチッコクてすみません(大汗)