タグ

HadoopとAlgorithmsに関するkana321のブックマーク (2)

  • Hadoop MapReduce デザインパターン

    TOPICS Database , Java 発行年月日 2011年10月 PRINT LENGTH 210 ISBN 978-4-87311-512-2 原書 Data-Intensive Text Processing with MapReduce FORMAT PDF 大量のデータにアクセスすることによって、商業、科学、コンピューティングといった様々な分野において新たな機会が生み出されています。MapReduceは、巨大なデータセットに対する分散処理を実行するプログラミングモデルであり、安価なサーバーからなるクラスタ上で大規模データの処理を行うためのフレームワークです。 書は、自然言語処理、情報抽出、機械学習などに共通する、テキスト処理のアルゴリズムに重点を置きながら、MapReduceのアルゴリズム設計について解説します。またMapReduceのデザインパターンの概念を説明し、様

    Hadoop MapReduce デザインパターン
    kana321
    kana321 2014/10/01
    Hadoop MapReduce デザインパターン――MapReduceによる大規模テキストデータ処理
  • MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道

    2012年の現在、割と悩んでいるのでメモっておく。 年度末ぐらいに再調査の予定。・・なので暫定ですよ。 まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。 とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce

    MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道
  • 1