ビッグデータとはなにか
Kindleを購入して、読んでみた本のひとつを紹介します。
この本では、これからビッグデータによって3つの変化が起きると言っています。
この中で、第一の変化として語られている「N=全部」の世界というのが自分にとって再認識できたことでした。
バスワード化している”ビッグデータ”ですが、非常にデータ量が多い数テラとかペタバイト級のデータ量を扱うから”ビッグ”であるというような感覚を持っていました。
しかし、ビッグデータとは扱うデータ量がどれだけの容量があるかということが基準ではなく、
集計、分析対象となるデータに関して標本をとるのではなく全てのデータを対象にしてその処理を行うことだと定義されています。
「一部のデータや統計的なサンプルで済まさず、すべてのデータを分析できるようになったことだ」
データを記録、保管、分析する技術の発展によってそれが可能になってきたと。
この意味でのビッグデータを活用することによって
専門家はその地位が下がり、
因果関係より、相関関係へシフトする(これが第三の変化)
データサイエンティストなんて職業ももてはやされてますが、これからはこういった変化を正しく理解して
ビッグデータを収集から分析、活用のサイクルをトータルで考えることができる能力が必要になるのだろうなと感じました。
ビッグデータのマイナス面として、マイノリティレポートのような世界を例に語られています。
データだけが絶対ってなるのは危険ですね。
データから何を手に入れて、ビジネスや生活にどう生かしていくのか、これから本当の意味での情報革命が起きるのではないかなどと考えさせられた本でした。
わたしはエンジニアなのでHadoopとか、Hive, Mahout, Solr, fluentとかのデータ収集、分析のツールやその技術的な側面ばかり追ってしまっていたところがありましたので新しい気づきがありました。