IT業界の新流行語「ビッグデータ」

現在、312/624頁とグーグルの本を読んでいるが、彼らの大きなデータに対する執着は強い。それが新しい可能性を今日、私たちにもたらしている。先月、東京のお台場にあるビッグサイトで「ビックデータ」の展示会があった。グーグルが生み出したネット検索技術が震源地である。なお、最近では、クラウドよりも、この新流行語の方が注目を浴びている。
それを実現した技術として、本では、ゲマワットとジェフ・ディーンが開発した「MapReduce」(311頁)が紹介されている。これはデータセンターに分散された大量のデータを効果的に処理する画期的な方法である。具体的には、プログラマーは多数のマシンにどうデータを分散させるかを考える必要がなく、システムが効率的に手続きを行なってくれるという。つまり、大量のマシンをまるで一台のコンピュータで処理しているかのように、したがって、プログラマーはコードを書くことだけに集中できる驚嘆のシステムである。このシステムによりクラウド環境が実現した。さらにビックデータへ。
サイトで詳しく解説されているので、その一部を下記に紹介する。具体的な応用はそのサイトの後半を参照してください。
■(引用文)
IT業界に新しい流行語がやってきた。「ビッグデータ」である。巨大なデータを、高度なデータマイニング手法によって深く分析し、その結果を活用する。そうすることで、専門家でさえ気づかない事象の変化への対応や、人を介さない意思決定が実現可能になる。ネット企業でなければ難しかったビッグデータの活用は、最近になって一般企業にも可能になってきた。そのためビッグデータの注目度が、一気に上がっている。
ビッグデータの活用は、米グーグルや米フェイスブックといったネット企業にとっては、企業競争力の源泉である。例えばグーグルは2010年6月の学会「ACM Symposium on Cloud Computing(SOCC)2010」で、同社が自社開発した分散バッチ処理基盤「MapReduce」を使って、月間94万6460テラバイト(2010年5月時点)というデータを処理していることを明らかにした。グーグルは毎月、エクサバイト(1000ペタバイト)に相当するデータを処理することで、Web検索サービスのほか、各種のクラウドサービスを実現している。
グーグルがビッグデータに挑み始めたのは1990年代後半。当時は膨大なデータ処理を実行するためのソフトが存在せず、MapReduce分散ファイルシステムGoogle File System(GFS)」などを独自に開発せざるを得なかった。今は状況が全く異なる。MapReduceやGFSを模したオープンソースソフトウエア(OSS)である「Hadoop」の成熟度は高まり、あらゆるITベンダーがビッグデータを支える製品やサービスの提供に血眼になっている。一般企業がビッグデータに挑戦するための環境は、急速に整いつつある。

http://itpro.nikkeibp.co.jp/article/Watcher/20110920/368924/