タグ

hadoopに関するrochefortのブックマーク (13)

  • Handling not so big data

    This document summarizes Tagomori Satoshi's presentation on handling "not so big data" at the YAPC::Asia 2014 conference. It discusses different types of data processing frameworks for various data sizes, from sub-gigabytes up to petabytes. It provides overviews of MapReduce, Spark, Tez, and stream processing frameworks. It also discusses what Hadoop is and how the Hadoop ecosystem has evolved to

    Handling not so big data
    rochefort
    rochefort 2014/09/02
    とても早口でした。// hadoopとはなにか linuxみたいな位置づけ // v1は忘れて良い
  • まつもとゆきひろ氏がノーチラスのチーフアーキテクトに就任

    ノーチラス・テクノロジーズは2011年10月3日、Rubyの作者であるまつもとゆきひろ氏が同社のチーフアーキテクトに就任したと発表した。ノーチラス・テクノロジーズは、イーシー・ワン(EC-One)のソフト開発部門とウルシステムズの「Hadoop」関連部門が経営統合して発足した企業(関連記事)。 まつもと氏は分散処理の分野におけるRubyやオープンソースソフトウエアの活用に関する助言や指導を行う。ノーチラス・テクノロジーズはまつもと氏のRubyやオープンソースソフトウエアの普及活動を支援し、共同で技術研究を実施する。 まつもと氏はネットワーク応用通信研究所フェローおよび楽天楽天技術研究所フェロー、Herokuのチーフアーキテクトなど既存の活動を継続する。 ノーチラス・テクノロジーズは、基幹バッチ用Hadoopフレームワーク「Asakusa Framework(Asakusa)」をオープンソ

    まつもとゆきひろ氏がノーチラスのチーフアーキテクトに就任
    rochefort
    rochefort 2011/10/03
    なんと
  • Hadoopを使うメリットを2つ挙げてみる - (゚∀゚)o彡 sasata299's blog

    2010年09月29日19:34 Hadoop Hadoopを使うメリットを2つ挙げてみる 最近では、Hadoop を使ってるよー、という声もちらほら聞こえてきました。しかし、名前ばかりが先行していて、「一体何が凄いのかよくわからない」、「Hadoop を使うと何が嬉しいの?」という人も多いのではないでしょうか。そこで Hadoop を使うメリットとは一体なんなのかを改めて書いてみようかと思います。 Hadoop を使うメリット、僕は2つあると思っています。 (1) たくさんのサーバを使って分散処理できる これは多分ほとんどの方がご存知なのではないでしょうか?というかこれぞまさに Hadoop を使うメリットでしょ?って感じですね。大規模なデータを扱う際に、1台ではなく10台とか20台とか使えばそりゃあ早くなるよねって話です :-D とは言っても Hadoop 登場以前は、特定のサーバが壊

  • 資料を公開いたしました(クックパッド×PFI共同勉強会) - クックパッド開発者ブログ

    先日、株式会社プリファードインストラクチャー様と共同で勉強会を開催いたしました。当日は多くの皆さまにお集まり頂き、誠にありがとうございました。 クックパッドから発表した2名について、資料をアップいたしますので、是非ご覧くださいませ。 ・マーケティングのためのHadoop利用/佐々木 達也 [slideshare id=4434680&doc=20100604hadoop-100607215457-phpapp02] ・クックパッドアプリ開発の裏側/西岡 拓人 [slideshare id=4434745&doc=2010-06-04-iphone-100607220738-phpapp01]

    資料を公開いたしました(クックパッド×PFI共同勉強会) - クックパッド開発者ブログ
  • 第六回ドワンゴ技術勉強会に参加して発表してきました - (゚∀゚)o彡 sasata299's blog

    2010年07月17日01:08 勉強会 Hadoop 第六回ドワンゴ技術勉強会に参加して発表してきました ドワンゴ社にて行われた『第六回ドワンゴ技術勉強会』に参加して発表してきました。参考までに使用したスライドを置いておきます。 COOKPADでのHadoop利用View more presentations from Tatsuya Sasaki. 会社名のところがおかしかったり、スライドショーするのを忘れていたり(注:わざとですけどね!)。まぁ、そんなことは良いではないですか。記憶に残ったと思えば(笑) /) ///) /,.=゙''"/ /     i f ,.r='"-‐'つ____   こまけぇこたぁいいんだよ!! /      /   _,.-‐'~/⌒  ⌒\ /   ,i   ,二ニ⊃( ●). (●)\ /    ノ    il゙フ::::⌒(__人__)⌒::\ ,

  • 大規模なデータセットを効率的に扱うための Pig 超入門 - (゚∀゚)o彡 sasata299's blog

    2010年07月07日22:38 Hadoop 大規模なデータセットを効率的に扱うための Pig 超入門 Pig あるじゃないですか。Hadoop のラッパーで、DSL で書けるというアレです。 最近は TwitterYahoo! などで使われているらしき Pig。Hadoop を扱う場合、mapper と reducer をそれぞれ記述する必要がありますが、この Pig を使うと DSL を書くだけで内部的に処理を mapper, reducer として実行してくれます。その結果、記述量が減って開発時間が短縮できるというメリットがあります。アイコンがもう少し可愛ければ、、と思うと残念でなりません。なんだこのドヤ顔は・・ 今まで「良さそうだなー」と思いつつ触れていなかったのですが、今回触ってみる機会があったので軽くまとめておきます。※Pig を動かす環境については出来ている前提です。

    rochefort
    rochefort 2010/07/08
    アイコンがひどい
  • 第一回techlifeライトニングトークの様子を公開いたしました! - クックパッド開発者ブログ

    こんにちは。クックパッド・イベント担当のスミです。 去る11/20(金)、クックパッドオフィスにて第一回techlifeライトニングトークを開催いたしました。 当日の模様をyoutubeにて公開いたしましたので、ぜひご覧くださいませ。 最初は、クックパッドの佐々木 [youtube=http://www.youtube.com/watch?v=idouTduKPGE&feature=PlayList&p=3AF4E493FC0565B4&index=1] 続いて、GREEのkajidaiさん [youtube=http://www.youtube.com/watch?v=knzuAjkv-zg&feature=PlayList&p=3AF4E493FC0565B4&index=2] 3番手は、PFIの太田さん [youtube=http://www.youtube.com/watch?v=

    第一回techlifeライトニングトークの様子を公開いたしました! - クックパッド開発者ブログ
    rochefort
    rochefort 2010/06/14
    hadoop dfs -cat s3://xxxx/user/root/in/hoge
  • 僕が Amazon Elastic MapReduce を使わない3つの理由 - (゚∀゚)o彡 sasata299's blog

    2010年04月20日22:46 Hadoop 僕が Amazon Elastic MapReduce を使わない3つの理由 【追記】 この内容は古いです。最近はEMRを利用してます。つ 961万人の卓を支えるデータ解析 僕は日頃から Hadoop さんを使って(あと EC2 と S3 も使ってます!)色々ごにょごにょすることが多いんですが、EC2 上で Ruby でスクリプト書いて使ってるよーと言うとよく言われるのが、 「何で Amazon Elastic MapReduce 使わないの?」 という質問です。今までこれに個別に答えてたりしたんですが、めんどくさいので一度ここにまとめておきます。以前、Elastic MapReduce を実際に試してみたんですが、そのとき感じたメリット・デメリットはこんな感じです。今はそうじゃないよ!とかあったらごめんなさい>< ★ メリット ・Hado

  • Hive on AWS @ COOKPAD - クックパッド開発者ブログ

    こんにちわ。サービス開発担当の勝間です。クックパッドの1年の最大のピークであるバレンタインが終わり、少し落ち着きをとりもどした技術部からお届けします。 さて、先日秋葉原で「第0回 AWS User Group - Japan勉強会」が開催されました。100人を超す参加者の中、AWSのエバンジェリストJeff Barrさんの講演があったり、内容の濃いLTが続いたりと、非常に大盛況でした。そんなLTに僕も参加して、クックパッドのバッチシステムとAWSとの連携について話してきました。 クックパッドではAWSとしてEC2, S3をつかって分散解析環境を構築して、Hiveを使ったデイリーのログ解析を行っています。LTではそれらの話をしたのですが、5分と限られた時間では駆け足の発表になってしまったので、当日じっくり話せなかった箇所などを確認いただければと思います。 [slideshare id=328

    Hive on AWS @ COOKPAD - クックパッド開発者ブログ
  • 第30回 RubyとHadoopで分散処理 Hadoop Streamingで外部データを読み込む | gihyo.jp

    前回のおさらい 第28回ではHadoop Streamingの仕組みについて説明しました。今回は、実際にHadoop Streamingを利用してデータ解析したときの具体的な話や、利用してみて困った(ハマった)Hadoop Streaming特有の問題とその解決法について紹介していきます。 実際に利用してみて困った(ハマった)こと さて、第28回でも紹介しましたが今回Hadoopを利用したのはopen('http://tabemiru.com/2009'); return false;">たべみるのデータ解析のためです。たべみるのデータ解析では、材名や地域名といった特定の値ごとにデータをまとめる処理が多く、またその処理速度が遅いのが問題だったのですが、このような処理はHadoop上(Ruby)でも比較的簡単に実装することができました。 それで最初は「これはスムーズにHadoop上に処理を

    第30回 RubyとHadoopで分散処理 Hadoop Streamingで外部データを読み込む | gihyo.jp
    rochefort
    rochefort 2010/02/06
    hadoop dfs -cat s3://xxx/path/to/data
  • 第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp

    はじめに Hadoopとは、Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので、分散処理のフレームワークです。Hadoopを使うと、1台のサーバでは時間の掛かるような処理を、複数のサーバで分散処理させることができます。「⁠処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため、利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!はてななど、様々な企業でも利用されるようになってきています。 Hadoop導入の背景 筆者はクックパッド株式会社に勤めています。open('http://cookpad.com'); return false;">クックパッドというサイトが有名だと思いますが、他にも携帯版クックパッドであるopen('http://m.cookpad.co

    第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp
  • Hadoop Streaming - naoyaのはてなダイアリー

    id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外

    Hadoop Streaming - naoyaのはてなダイアリー
  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
    rochefort
    rochefort 2009/12/18
    果たして使う時が来るのだろうか。でもブクマ。
  • 1