タグ

hadoopに関するwata88のブックマーク (14)

  • Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較

    著者/Author: Zbigniew Branowski (Cern) 原文/Original:http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。 このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。 トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー

    Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
    wata88
    wata88 2017/07/10
    わかりやすい解説
  • Apache Kudu - Fast Analytics on Fast Data

    Home Overview Documentation Releases Blog Community GET IN TOUCH Mailing Lists Slack Channel Events and Meetups Project Committers Ecosystem How to Contribute DEVELOPER RESOURCES GitHub Gerrit Code Review JIRA Issue Tracker SOCIAL MEDIA Twitter Reddit APACHE SOFTWARE FOUNDATION Security Sponsorship Thanks License FAQ Apache Kudu is an open source distributed data storage engine that makes fast ana

    wata88
    wata88 2015/09/30
    ロゴがかわいい
  • Kuduリリース!

    オープンソースの新しいストレージエンジン、Kudu ついに日アナウンスされた Kudu (クドゥ)、次世代ハードウェアにも対応するオープンソースのストレージエンジンです。まだベータ版ですが、3年もの開発期間を経てついに公開されました! Super excited to finally talk about what I've been working on the last 3 years: Kudu! http://t.co/1W4sqFBcyH http://t.co/1mZCwgdOO5 — Todd Lipcon (@tlipcon) September 28, 2015 数日前にリークされた記事に「KuduはHDFSやHBaseを置き換えるものだ」と書かれていましたが、それは間違いです。詳細はFAQなどにも書かれていますが、HDFSとHBaseを補う新しいストレージエンジンです

    Kuduリリース!
  • MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、(DAG:Directed Acyclic Graph=有向

    MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
    wata88
    wata88 2014/08/05
    Sparkのほうが汎用的で将来性あんじゃね?それともMR2もといYARNちゃんこそ本命ってこと?って昔誰かに聞いたけど,煙に巻かれてモヤっとしたの思い出した
  • 『Prestoとは何か,Prestoで何ができるか』 - トレジャーデータ(Treasure Data)ブログ

    トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Hadoop Conference Japan 2014 以前に告知したHadoop Conference Japan 2014で,弊社Software Architectの古橋が発表しました。 テーマは,Facebookが公開した新しい分散処理基盤,Presto。実はFacebookが彼らの超大規模なデータセットに対してインタラクティブに結果を返せるようにと開発されたものです。開発が始まってまだ2年も経っておりませんが,今ではトレジャーデータを初めとして多くのハッカー達がコミッターとして参加する活発的なプロジェクトに成長しています。 PrestoはHiveやImpalaと同じ「SQL Query Engine」であり,特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを(コンマ0秒以下,遅くて

    『Prestoとは何か,Prestoで何ができるか』 - トレジャーデータ(Treasure Data)ブログ
  • cdh-twitter-exampleで遊ぶ

    この記事はHadoop Advent Calendar 2013, 13日目のエントリです。ブログなんざ書いたことないので勝手が良く分かりませんが@sudabonさん@kernel023さんのお前も何か書けやコラという圧力に負けてBloggerにページを用意してみました。 Hadoopの利用目的としてデータの分析に取り組んでいる、もしくはこれから取り組もうとしているユーザは多いのではないかと思います。中でもログ分析と並んでソーシャルメディアの分析は各社が積極的に取り組もうとしているテーマであり、私が勝手にTwitter分析3部作と呼んでいる以下のブログを読まれた方も多いのではないでしょうか: http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/ http://blog.cloudera.com/b

    cdh-twitter-exampleで遊ぶ
    wata88
    wata88 2014/05/20
    cdh-twitter-example
  • Hadoopを10分で試す(6)HueからSolrを使う

    **この記事の内容は若干古くなっています。まとめページもご覧下さい** それでは、Clouderaのブログに従い、Solrを使ってみましょう。 MapReduceによるバッチインデックス まずは、ターミナルから疑似ツイートをセットアップします。この仮想マシンにはサンプルツイートを生成するスクリプトが用意されています。以下のコマンドを実行しましょう。 $ ~/datasets/batch-tweets.sh [cloudera@localhost ~]$ ~/datasets/batch-tweets.sh Uploading configs from /home/cloudera/batch_tweets_configs/conf to localhost:2181/solr. This may take up to a minute. rm: `/user/cloudera/batch_

    Hadoopを10分で試す(6)HueからSolrを使う
  • Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan

    Cloudera は、最大規模の企業があらゆる場所に存在するすべてのデータを信頼性の高い有意義な洞察に変換できるよう支援します。 Trusted Data Today for Tomorrow’s AI (今日の信頼できるデータを、明日の AI に託す) データと AI がテーマのプレミアカンファレンスで、業界最前線の明確なビジョンを持った方々やソートリーダーから貴重な洞察を得ることができます。

    Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan
  • hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

    gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

    hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
  • livedoor Techブログ : 第2回 NHNテクノロジーカンファレンス 開催ログ

    株式会社データホテルの伊勢です。 2012年8月18日(土)に開催されました 第2回 NHN テクノロジーカンファレンス の発表資料と動画を公開致します。 ご登壇頂きました皆様、ご参加頂きました皆様、どうもありがとうございました。 また、今回「H」な技術と言う事で、オライリー・ジャパン様より「HBase」の書籍をプレゼント頂きました。アレンジしていただいた翻訳者の玉川さん、オライリー・ジャパン様ありがとうございます。 「H」当たった皆様、おめでとうございました。 それでは、以下 第2回テクノロジーカンファレンスの開催ログとなります。 ※ 登壇者の皆様と。左から 田籠氏、井上氏、中村氏、濱野氏、沈 氏、伊勢です。 「HTML5 Animation in Mobile Web Games」(沈 相旻 氏 NHN Korea、 Mobile Ajax チーム) 「日々進化するHadoopの『今

  • 日々進化するHadoop。これまでのおさらいと最近の動向(前編)

    大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。 そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

    日々進化するHadoop。これまでのおさらいと最近の動向(前編)
  • Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記

    以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。 はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は!?私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります:誰もがその命令を理解できると

  • SpringのCache Abstractionについて

    SpringのCache Abstractionについて
  • 1