タグ

hadoopに関するhiromarkのブックマーク (48)

  • 日本企業から初のApache Hadoopのコミッタ(主要開発者)就任

    電信電話株式会社(東京都千代田区、代表取締役社長:鵜浦 博夫、以下:NTT)および株式会社NTTデータ(社:東京都江東区、代表取締役社長:岩 敏男、以下:NTTデータ)から、大規模データを対象とした並列分散処理を実現するオープンソースソフトウェアApache Hadoop(以下:Hadoop)およびその関連のプロジェクトのコミッタに、2014年12月18日、小沢 健史(NTTソフトウェアイノベーションセンタ)、鯵坂 明、岩崎 正剛(NTTデータ 基盤システム事業部)の3名が就任することになりました。 コミッタとは、Hadoopの開発やメンテナンスにおいて、プログラムを書き換える権限(コミット権)を持つ主要開発者のことで、現在、Hadoopの開発に関与している全世界で約3,000名のうち、コミッタはごく一部[約100名(2014年12月)]に限られています。Hadoopにおいては、

  • NEC、米Clouderaとビッグデータ活用の大規模分散処理基盤分野で協業

    電気(NEC)は10月14日、米Clouderaとビッグデータ活用における大規模分散処理基盤ソフトウェアの分野で協業に合意したと発表した。 Clouderaは、大規模データを効率的に分散処理・管理するためのオープンソース・ミドルウェア「Apache Hadoop」のディストリビュータ。「Apache Hadoop」の効率的な導入と安定稼動を実現するため、Hadoopディストリビューション「Cloudera Enterprise」を提供する。 同ディストリビューションは、「Apache Hadoop」の導入や運用を容易にするセットモデルで、必要な修正パッチの適用やソフトウェア間の相性について動作検証した「CDH(Cloudera's Distribution including Apache Hadoop)」や、管理ソフト「Cloudera Manager」などのツール群、サポートサービ

    NEC、米Clouderaとビッグデータ活用の大規模分散処理基盤分野で協業
  • バッチの未来、どうするHadoop - ひしだまの変更履歴

    ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲーム音楽です。 ITproの『DBの未来、どうするHadoop』のタイトルに釣られてみたw (以下長々書いたけど、結局言いたいことは、DBとHadoopは関係無いってことと、タイトルについて何か勘違いしたっぽいということだけだった^^;) 僕の意見では、Hadoopはバッチ処理を分散して実行する基盤である。データを溜めるのは副次的な効果に過ぎない。(暴論w) もちろん、そもそも分散処理を行う必要があるのは処理対象データが大量だからなので、データの溜め方も必須ポイントだし、Hadoopが分散処理する原理も密接に結びついているのだが。 あらかじめ断っておくと、自分は非構造化データとか分析とか機械学習には興味が無い。 自分がHadoopに興味を持ったのは、自分が担当していた“RDBを対象にした

    バッチの未来、どうするHadoop - ひしだまの変更履歴
  • MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、(DAG:Directed Acyclic Graph=有向

    MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • Hadoopを使ったログ分析システムにおける開発、デプロイのフローについて - wyukawa's diary

    Hadoopを使ったログ分析システムっていうのを何回か経験してて、そういえば開発、デプロイのフローがあんまりうまく回せなかったよなあと思ったのでそのあたりについて今日は書きたいと思います。 まずネットワーク周りの前提から書きます。 サーバーにログインするには踏み台を経由しなければなりません。 なので、まあ例えばHadoopクラスタを構築してて、betaとrealの2つ環境があったら以下のようにログインすることになります。まあよくある話ですよね。 ローカルPC -> 踏み台 -> beta環境 ローカルPC -> 踏み台 -> real環境 でもってローカルPCとbeta,real環境との間の通信は制限されています。これもよくあるパターンだと思います。 beta,real環境からインターネットに出れない場合なんかは、ローカルPCからインターネットにアクセスしてtar ballとかrpmを持っ

    Hadoopを使ったログ分析システムにおける開発、デプロイのフローについて - wyukawa's diary
  • Private Site

  • デブサミ2014「グリーを支えるデータ分析基盤の過去と現在」講演メモ #devsumi - 元RX-7乗りの適当な日々

    どこもそれなりに苦労・工夫しているよなぁと、興味深く聞かせていただきました。 「グリーを支えるデータ分析基盤の過去と現在」 橋 泰一 氏 グリー 10年ほど東工大で助手・特任准教授した後、2012年にグリーにジョイン 過去の話(2011年) Webサーバからログをrsyncでストレージへ バッチ処理で集計してDBへ(MySQL) ストレージもDBもハードウェアはSolaris Sun Fire X4540 だんだん困ってきた データがほしい人が増えてきた サービスや人が増えてきた データ提供が正直しんどくなってきた 今の話: コンセプト Accessability だれでも自由に Scalability どれだけ貯めこんでも グリーのデータ分析基盤 ゲーム Treasure Data ベース ゲームへのアクセスログ GREE Platform Hadoopベース ゲームからAPIへのログ

    デブサミ2014「グリーを支えるデータ分析基盤の過去と現在」講演メモ #devsumi - 元RX-7乗りの適当な日々
  • asahi.com(朝日新聞社):インテック、分散処理ソフト「Hadoop」でゲノムデータを高速に分散・並列処理するシステムを開発 - e-ビジネス情報(提供:BCN) - デジタル

    印刷  ITホールディングスグループのインテック(金岡克己社長)は、遺伝子解析技術を開発する理研ジェネシスと協力し、クラウド環境を用いて、個人のゲノム(遺伝情報セット)を文字列として読み出す「ヒト全ゲノムシーケンシング」のデータ解析システムを開発した。  解析システムは、フリーウェアの分散処理ソフト「Hadoop(ハドゥープ)」を活用して、ヒトゲノムデータを分散・並列処理し、高速に解析を行うもの。分散・並列化の実現によって、一般的なクラウド環境の利用が可能となり、安価に解析を行うことができる。  インテックはこのシステムをもとに、ヒトゲノムだけでなく、大規模データ解析サービスの提供を検討している。また、理研ジェネシスは、「ヒト全ゲノムシーケンシング」の受託サービスにシステムを利用する予定だ。(ゼンフ ミシャ) 関連記事〈CNET Japan〉NTTデータが「Hadoop」戦略の最新動向を

  • MeCabで日本語WordCount on Hadoop - 自然言語処理 on Mac

    HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日語を対象にする場合、MeCabを使って単語分割を行いたいところです。 MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときのMeCabのエンコーディングはUTF-8が前提となります。 http://mecab.sourceforge.net/bindings.html このmecab-javaMacPortsを現在登録申請中です。これを使うと、/opt/local/lib/libmecab-java.dylib と /opt/local/share/java/mecab.jar がインストールされることになります。 $ sudo port selfupdate $ sudo port install mecab +utf8 $ su

    MeCabで日本語WordCount on Hadoop - 自然言語処理 on Mac
  • MongoDBで作るソーシャルデータ新解析基盤

    Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here.

  • 第1回 “データ解析請負人”─新規開発局 システムクリエイティブグループ 福田一郎 | gihyo.jp

    こうした数多くの魅力的なサービスを支えるエンジニアはどういった人たちなのでしょうか。今回は、サイバーエージェント 新規開発局 システムクリエイティブグループの福田一郎氏にお話を伺いました。 今後必要になるシステムを見極め、自らの提案で実現していく ――現在どのような分野を担当されているのでしょうか。 「私たちのチームでは、『⁠Ameba』サービスのデータ解析基盤の構築などを担当しています。直接ユーザの目に触れる部分ではありませんが、ユーザ課金を行うサービス(図1)が増えていることもあり、各々のサービスがどのような状況にあるのかなどを具体的なデータで把握できるようなしくみを構築しています。こういったデータ解析基盤の構築は、今後のサービス開発においても非常に重要な役割を担っていくと考えています」 ――特定のサービスを対象としているのではなく、「Ameba」のサービス全体で使うデータ解析基盤とい

  • overlasting.net

    overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

    hiromark
    hiromark 2011/04/20
    あとで追う。
  • Hadoopの本質は分散I/Oにあり~クラウド時代の非同期処理 - プログラマの思索

    Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の記事がとても素晴らしいのでメモ。 【元ネタ】 第1回 分散処理を隠蔽し、大規模開発を可能に - Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌:ITpro 第3回 業務の境界や並列性を見極め処理を分割 - Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌:ITpro 基幹バッチ再構築のニーズは大きい、Hadoopの課題をAsakusaで解決する - インタビュー:ITpro Twitter / @akipii: Asakusa質は分散I/O。ディスクの入出力がバッチ処理のボトルネック。クラウド時代の非同期処理の設計技法は、ジョブフローからバッチ処理をDSLで自動生成することにあり。 CobolやPLSQLで書かれた古臭いバッチ処理は、全てHadoopで代用できないものか? Cobolの生産性の

    Hadoopの本質は分散I/Oにあり~クラウド時代の非同期処理 - プログラマの思索
  • Facebookの新しいリアルタイム解析システムとは? - nokunoの日記

    Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht

  • ぷらっととPFI、「Hadoop」のアセスメントサービス提供--構築後も支援 - builder by ZDNet Japan

    A Business New Era あらゆるモノ・コトが変化している今 デジタルでビジネスは生まれ変わる オリジナルコンテンツが満載! 意外と知らないNutanix HCI の情報を集約 読めばわかる!いまHCIが注目される理由 ビジネスの推進には必須! ZDNet×マイクロソフトが贈る特別企画 今、必要な戦略的セキュリティとガバナンス 膨大なアクセスを支える屋台骨 高い安定性とパフォーマンスを両立 ZOZOTOWNが選んだストレージ基盤を解説 高い従業員満足度と安心・安全 新時代にむけた理想の業務環境こそ Anywhere Workspaceが目指す未来 勝つためのクラウド活用術 New Value on Azure ビジネスを次のステージへ! コマース広告の大変動 プライバシー保護とパーソナライズの狭間で マーケティングの効果を最大化するためには 年間5,000件の問い合わせに対応

  • 分散並列環境における機械学習 - Preferred Networks Research & Development

    もうすぐ春ですね。花粉さえ飛ばなければ最高なのに。岡野原です。 先日、Hadoop Conference Japan 2011で、”MapReduceによる大規模データを利用した機械学習”というタイトルで発表しました。 発表内容は三部構成になっています。 最初に、機械学習の基と、それがMapReduceとどのような関係にあるかを紹介しました。その中でHadoop上で動く機械学習ライブラリMahoutの簡単な紹介をしました。 次に、機械学習の最前線ではどのような問題が解かれているかを紹介し、グラフィカルモデルの例、一般の最適化(教師付き学習におけるパラメータ学習)の分散並列化についての話題をしました。 最後に、MapReduceの補完として使えるようなシステムの例としてdremelを紹介しました。このシステムはMapReduceがバッチ型処理で、全データが処理対象の場合が得意なのに対し、一

    分散並列環境における機械学習 - Preferred Networks Research & Development
  • ねんがんの Hadoop徹底入門 を手に入れたぞ! - nokunoの日記

    というわけで届いたのでざっと読みました。ともにHadoopを実際に活用するために必要な情報をコードを示しながら説明しているため、象Hadoopとかぶっている部分もありますが、いくつかの点で異なっているのでその点を挙げてみたいと思います。 Hadoop0.21系の情報がある 0.21系は使ったことがないので、hdfsコマンドが分離されたことなどは初めて知りました。 利用者の目線で書かれている 象が開発者の目線で書かれているのに対し、利用者の視点で書かれています。 コマンドオプションやログファイルの管理方法などが分かりやすいと思いました。 MapReduceのユニットテスト(MRUnit)やデバッグの方法は非常に役に立ちます。 Hiveについて詳しい 私は使ったことがないのですが、Java MapReduceの次に1章を割いてHiveについて説明されています。 「SQLに似ている」というこ

  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
  • え?Hadoopの危機?

    Tatsuya Kawano @tatsuya6502 Apache Hadoopコミッターのほとんどが米Yahoo!社員で構成されている状況は、いまではかなり危険になってきてるかも。もう、Hadoopの開発とサポートに工数を割くことは、会社からほとんど許されてないような雰囲気があるような...。 2011-01-08 12:38:15 Agile Cat @Agile_Cat ただ、MS への技術供与と引換にキャッシュが入ってくるはずなので、続くのではないかと、期待しているのですが。。。 RT @tatsuya6502: Apache Hadoopコミッターのほとんどが米Yahoo!社員で構成されている状況は、いまではかなり危険になってきてるかも。 2011-01-08 12:41:41 Shinpei Ohtani @shot6 @tatsuya6502 はい。そうなんですよ。今年は相

    え?Hadoopの危機?