タグ

hadoopに関するaiueo010101のブックマーク (24)

  • TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

    大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

    TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • Hadoopを用いた大規模ログ解析

    this document is for #tokyowebmining held at 2011/04/10Read less

    Hadoopを用いた大規模ログ解析
  • Hadoop conferencejapan2011

    1. Hiveを用いた Amebaサービスのログ解析共通基盤 -Hadoop Conference Japan 2011- 株式会社サイバーエージェント アメーバ事業部 プラットフォームディヴィジョン コアテクノロジーグループ 福田 一郎 2. 2 株式会社サイバーエージェント 自己紹介 名前 : 福田一郎 (フクダ イチロー) 所属 : 株式会社サイバーエージェント アメーバ事業部 プラットフォームディヴィジョン コアテクノロジーグループ (新卒入社3年目) (過去) • Ameba Pigg運用,開発 (現在) • ログ解析基盤 「Patriot」設計,開発,運用 【Twitter】 @toutou 【はてなID】 id:ICHIRO

    Hadoop conferencejapan2011
  • Hadoopのカスタマイズ

    はじめましてミツバチワークスleonです。TECHチームの一員としてブログ連載をさせていただく機会をいただきました。 テーマはHadoopカスタマイズにします。 Hadoopは既にstoneさんが現在の運用で使っているテクニックを記事にされています。そこで私はHadoopのカスタマイズについてご紹介させていいただくことにします。私自身がHadoop初心者ということもあり、私は初歩からスタートさせていただこうと思います。お付き合いのほどよろしくお願いします。 Hadoopとは?から始めるのが礼儀かと思いますが、そこはwikipediaなどにお任せします。ご容赦ください。 何はともあれ立ち上がっているサービスがないと話を始められません。そこで、最初の最初はHADOOPのセットアップ手順のご紹介です。 実際、弊社ではHadoopに十数台のサーバーを投入していますが、わかりやすいように最小限のサー

  • HadoopによるApacheのログ解析の実際

    こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行われている、Apacheのログ解析について、 ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、 その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存 以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送 当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、 と思い込ん

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    aiueo010101
    aiueo010101 2010/09/28
    本気出したらすごい
  • その分析、Hadoopなら速く安くできます

    ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

    その分析、Hadoopなら速く安くできます
  • CentOS に Hadoop, Pig, Hive, HBase をインストール - (゚∀゚)o彡 sasata299's blog

    2010年07月12日20:12 CentOS に Hadoop, Pig, Hive, HBase をインストール CentOS5.4 に Hadoop, Pig, Hive, HBase をインストールする備忘録です。まずは JDK をインストールします。JDK6 以上が必要です。 # http://java.sun.com/javase/ja/6/download.html から JDK6 をダウンロード sudo sh jdk-6u21-linux-i586-rpm.bin java -version # 1.6.0_21 次に、yum で簡単にインストールするために、リポジトリを追加します。これでインストールが格段に楽になりますね。 wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo sudo mv clo

  • 大規模なデータセットを効率的に扱うための Pig 超入門 - (゚∀゚)o彡 sasata299's blog

    2010年07月07日22:38 Hadoop 大規模なデータセットを効率的に扱うための Pig 超入門 Pig あるじゃないですか。Hadoop のラッパーで、DSL で書けるというアレです。 最近は TwitterYahoo! などで使われているらしき Pig。Hadoop を扱う場合、mapper と reducer をそれぞれ記述する必要がありますが、この Pig を使うと DSL を書くだけで内部的に処理を mapper, reducer として実行してくれます。その結果、記述量が減って開発時間が短縮できるというメリットがあります。アイコンがもう少し可愛ければ、、と思うと残念でなりません。なんだこのドヤ顔は・・ 今まで「良さそうだなー」と思いつつ触れていなかったのですが、今回触ってみる機会があったので軽くまとめておきます。※Pig を動かす環境については出来ている前提です。

  • 資料を公開いたしました(クックパッド×PFI共同勉強会) - クックパッド開発者ブログ

    先日、株式会社プリファードインストラクチャー様と共同で勉強会を開催いたしました。当日は多くの皆さまにお集まり頂き、誠にありがとうございました。 クックパッドから発表した2名について、資料をアップいたしますので、是非ご覧くださいませ。 ・マーケティングのためのHadoop利用/佐々木 達也 [slideshare id=4434680&doc=20100604hadoop-100607215457-phpapp02] ・クックパッドアプリ開発の裏側/西岡 拓人 [slideshare id=4434745&doc=2010-06-04-iphone-100607220738-phpapp01]

    資料を公開いたしました(クックパッド×PFI共同勉強会) - クックパッド開発者ブログ
  • 資料を公開いたしました!(クックパッドの裏側見せます in 京都) - クックパッド開発者ブログ

    こんにちは、クックパッドのすみです。去る4/16,17に京都で「クックパッドの裏側見せますvol.2&vol.3」を開催いたしました。 当日お越しくださった皆さま、Ustreamをご覧くださった皆さま、誠にありがとうございました! お話させて頂いたエンジニアのうち2名の資料を公開いたしますので、是非ご覧くださいませ。 ・勝間亮/アグレッシブなクラウドの使い方 [slideshare id=3827098&doc=engineer-event-100417-kyoto-100423034302-phpapp02] ・濱崎健吾/クックパッドに入って十数日働いた雑感 [slideshare id=3849703&doc=100413urapad-100425122155-phpapp01]

    資料を公開いたしました!(クックパッドの裏側見せます in 京都) - クックパッド開発者ブログ
  • hadoop-ec2でアクセス解析してみたよ!

    前回(http://d.hatena.ne.jp/lopnor/20080831/1220183688)サンプルプログラムを動かすところまで行きましたけど、今回は例のid:naoyaのhadoop streamingでアクセス解析(http://d.hatena.ne.jp/naoya/20080513/1210684438)するのをやってみます。というかなんとかたどり着いたのでまとめを書きます。 *ec2の使い方 id:rx7さんがとても丁寧に説明されている資料(http://d.hatena.ne.jp/rx7/20080528/p1)があるので、そちらを読めば完璧だと思います。僕もこれでec2が使えるようになりました。 *hadoop-ec2の使い方 https://codezine.jp/article/detail/2841がイントロダクション。http://d.hatena.n

  • Hadoop Streamingで分散処理をPHPでやってみた - Stellaqua - TOMの技術日記

    「何番煎じか分からないけど集合知プログラミングをPHPでやってみたシリーズ」で扱っている集合知プログラミングは、とかく計算量が多くなりがちで、うまくアルゴリズムを作らないとメモリ不足に陥りがちです。 現に前回の記事では、その越えられない壁を体験してしまったので、「どげんかせんといかん。」という事で、最近ちょっと興味のある、Googleのバックエンドでも使われている"MapReduce"に関して少し調べてみました。 "MapReduce"に関しては、「"Googleを支える技術"読め。以上。」でもいいんですが、id:naoyaさんが書かれている記事が非常に分かりやすかったので、その記事のリンクを貼っておきます。 →MapReduce - naoyaのはてなダイアリー "Googleを支える技術"もせっかくだからAmazonのリンクを貼っておきます。 Googleを支える技術 ?巨大システムの

    Hadoop Streamingで分散処理をPHPでやってみた - Stellaqua - TOMの技術日記
  • agilecatcloud.com

    This domain may be for sale!

  • Hadoopを使いこなす(2)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo

    Hadoopを使いこなす(2)
  • Welcome to Apache Pig!

    Apache Pig is a platform for analyzing large data sets that consists of a high-level language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. The salient property of Pig programs is that their structure is amenable to substantial parallelization, which in turns enables them to handle very large data sets. At the present time, Pig's infrastructure l

  • Hadoop, Pig, and Twitter (NoSQL East 2009)

    A talk on the use of Hadoop and Pig inside Twitter, focusing on the flexibility and simplicity of Pig, and the benefits of that for solving real-world big data problems.Read less

    Hadoop, Pig, and Twitter (NoSQL East 2009)
  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • イベントレポート(食べログ&クックパッド共催勉強会) - クックパッド開発者ブログ

    こんにちは。クックパッドでイベント運営を担当しているスミです。 去る12/17、べログさんと共催で勉強会を行いました。べログさん、クックパッドエンジニアがそれぞれ3名ずつ、お集まり頂いた約30名のエンジニアの皆さまの前でプレゼンを行いました。 インフラのお話をテーマにした今回。会場の皆さまからたくさんのご質問を頂き、とても熱い時間を過ごさせて頂きました。ご来場頂いた皆さま、どうもありがとうございました。 クックパッドエンジニアが使用した資料を公開いたしますので、是非ご覧くださいませ! ・クックパッドのスケーリング(高田悟史) [slideshare id=2756725&doc=20091214tabelog-key-091221024948-phpapp01] ・800万人の"べたい"をHadoopで分散処理(佐々木達也) [slideshare id=2735999&doc=

    イベントレポート(食べログ&クックパッド共催勉強会) - クックパッド開発者ブログ