「しらなーい」って人に、何人か会ったので、ちょっと解説しながら話をすすめます。 いつも大量のデータを処理しているGoogleが、「バックエンドでこんなことやって効果を上げてます。」という論文を2004年に発表した。 そこに書かれているのは、分散処理のためのデザインパターン「MapReduce」。 大量データをいくつかの単位に分割して、キーと値に分割する処理(Map)と、それを集計する処理(Reduce)に分ける事で、処理単位同士の関連性を希薄化し、その結果分散並列処理を可能にする。というもの。 このデザインパターンを実装したオープンソース製品が、世界中にうじゃうじゃあるんだけど、一番有名なのが、Javaで実装された「Hadoop」。 Javaで実装されてるから、Javaで利用すればいいんだけど、こいつにはstreamingという機能も搭載されていて、他の言語でもMapReduceを実装でき