第4回　ビッグデータを迅速に処理するAmazon Elastic MapReduce

アマゾンデータサービスジャパン

2014.07.10

　今回はAmazon Elastic MapReduce（EMR）について解説します。Amazon EMRは、Amazonクラウド内でHadoopフレームワークを利用可能にする機能です。Hadoopフレームワークとは、分散処理を実現するミドルウエアの一つで、例えば大量のログやトランザクションデータの集計などのバッチ処理を、複数のサーバーで並列処理するアプリケーションを開発できます。

　Amazon EMRの用途は、ログ分析、ウェブインデックス作成、データウエアハウス、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスなど多岐にわたります。2009年にサービスを開始して以来、550万以上の Amazon EMR クラスターが利用者によって起動されています。

　例えば、何万人分ものゲノム情報の収集や解析、医療情報のグローバル共有など、医療や科学の発展を目的とした国際プロジェクトで、Amazon S3にデータを保管しながら、Amazon EMRによりデータを分析するといった取り組みも進んでいます。このプロジェクトでは、大量のゲノム情報をいったんAmazon S3に数時間～数日間保存。保存された情報に対して、次の処理であるAmazon EMRによるデータのハッシングとアラインメントが実行されます。アラインメント処理は、Spark/Shark/Hadoop/SNAPで効率的に実行し、アラインメント後の「DNAシーケンス」をAmazon S3に保存するという流れです。