竹内啓

二〇世紀前半、フィッシャーが創設した統計的推測理論は、精密小標本理論とも呼ばれ、厳密に管理された少数の観測値から、数学的に正確に計算された不確実性をふくむ結論を導こうとするものであった。
フィッシャー・ネイマンの統計的推測理論は、二〇世紀の大量生産、大量消費、大衆社会のMASS論理の支配する時代に最もよく適合したものだったのである。
しかし、二〇世紀の最終四半期になって、IT技術が発展し普及すると、規格化された大量消費の時代から、個性的な多種少量生産の時代となり、不良率を抑えることではなく、不良品を出さないことが目的とされるようになった。それとともに古典的な統計的推測の方法が必要とされる分野は少なくなった。勿論それが有効に用いられる場合はまだ多くあるが、コンピュータの発達とともに発展した計算化学、情報科学は、統計学意外に数量的情報を処理する多くの方法を生み出したのである。
ところが最近になって、ビッグデータが重視されるようになって、統計学がまたもてはやされるようになった。長年統計学の研究に関わってきた者としては喜ぶべきことかもしれないが、統計学をビッグデータを扱うための「道具箱」として、使い易い道具を適当に使えばよいと考えられるのはよくないと思う。
ビッグデータに統計的方法を適用するに当っては、四つの段階を経なければならない。1.データの吟味、2.モデルの選択、3.手法の選択と適用、4.結果の解釈と判断、である。
データの量が膨大であっても、必ずしもそこに特定の目的のための多くの情報量が含まれるとは限らない。ビッグデータの全体を一つの標本と見なさなければならないこともある。
ビッグデータと現実とのかかわり方は多様であることに注意しなければならない。

2 thoughts on “竹内啓

  1. shinichi Post author

    ビッグデータと統計学

    by 竹内啓

    現代思想 2014年6月号
    特集=ポスト・ビッグデータと統計学の時代

    Reply
  2. shinichi Post author

    ビッグデータは時代を変えるのか?

    by 小島寛之

    http://d.hatena.ne.jp/hiroyukikojima/20140628/1403941722

    竹内先生は、次の四つの注目ポイントを挙げている。

    ビッグデータに統計的方法を適用する当たっては、四つの段階を経なければならない。
    1.データの吟味、2.モデルの選択、3.手法の選択と適用、4.結果の解釈と判断、
    である。

    これら4つの注目ポイントについて、竹内先生は、一つずつ詳しく検討をされているが、要約すれば次のようだ。すなわち、ビッグデータは量が多いと言っても、分析の目的に合う良質な情報が含まれるとは限らない。また、データに含まれるノイズを取り去るために、モデルを構築する必要があるが、モデルはシンプルであるほうが好ましい。大量のデータを複雑なモデルを想定して高度な解析を行うのは、解析手続きがブラックボックス化されてしまう、という意味で危険である。さらには、モデルの設定に即して適切な手法を選ばなければならないが、ビッグデータの場合、それが難しいことが想定される。例えば、仮説検定の方式は、帰無仮説の条件が科学的に明確な意味を持つ必要があるから、ビッグデータにはむかない、などなどである。

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *