タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

Hadoopに関するsonota88のブックマーク (24)

  • 2020年のApache Hadoop振り返り - Memo

    Apache Hadoopについて、2020年にどんなことがあったのかざっくりと振り返りたいと思います。Advent Calendar枠です(大遅刻)。 Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 - Qiita Apache Ozoneが分離 オブジェクトストレージを担当するOzoneはすでにHadoop体のソースコードからは分離されていましたが、新規のTLP(Top-Level Project)としてスピンオフしました。2019年にApache SubmarineがTLPになったのを見て、Ozoneもいずれそうなると思っていたので個人的には特に驚きはないです。プロジェクトが分離すると具体的に何が起こるかというと、committerやPMCなどが別々になります(他にもあるけど

    2020年のApache Hadoop振り返り - Memo
  • Hadoop DistCp実践ガイド2020年版 - 科学と非科学の迷宮

    Hadoop DistCp (distributed copy, でぃすとしーぴー、でぃすとこぴー) は、MapReduceを用いてHadoopクラスタ間でデータコピーするためのツールです。保守運用している場合を除き、おそらく2020年においても運用上の選択肢として残っている最後のMapReduceのツールです。この記事では、DistCpの紹介と実践的な使い方の基について説明していきます。内容としては以下の通りです。 Distcpの概要と原理 実践DistCp DistCpにドライランはない コピーとアップデートの挙動の違いを押さえる スナップショットを取得する ソースと宛先、どちらのクラスタでDistCpを実行するか 異なるメジャーバージョン間でのデータ転送にwebhdfsを使う -p オプションの挙動 2つのコピー戦略: uniformizeとdynamic map数の調整 転送帯域

    Hadoop DistCp実践ガイド2020年版 - 科学と非科学の迷宮
  • Bigtop – Apache Bigtop

    Apache/ Bigtop/ Apache Bigtop | Last Published: 2024-07-10 Version: 3.4.0-SNAPSHOT Bigtop is an Apache Foundation project for Infrastructure Engineers and Data Scientists looking for comprehensive packaging, testing, and configuration of the leading open source big data components. Bigtop supports a wide range of components/projects, including, but not limited to, Hadoop, HBase and Spark. Packagin

  • Apache Bigtop で Docker コンテナ上に Hadoop ソフトウェアスタックを構築する - Qiita

    Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016 の24日目です。この記事では、Hadoop クラスタを手軽に手元に構築したいときに便利な、Apache Bigtop の機能について紹介したいと思います。 Apache Bigtop とは Apache Bigtop は、Hadoop とその周辺ソフトウェアをビルドし、 deb や rpm といった形式でパッケージ化することで、各種 Linux ディストリビューションへの導入を容易にするためのプロジェクトです。それ以外にも、以下のような機能を持っています。 作成したパッケージをクラスタ内の各ノードにデプロイし、適切に設定するためのプロビジョニング機能 デプロイ結果の確認や、ソフトウェアバージョン間の相互運用性の担保に使われる、統合テスト・スモークテス

    Apache Bigtop で Docker コンテナ上に Hadoop ソフトウェアスタックを構築する - Qiita
  • Embulk を Hadoop 上で動かす - Qiita

    はじめに ここでは Embulk の plugin の 1 つである MapReduceExecutor を利用して、Embulk を Hadoop 2.6 上で動かす方法を説明します。分散処理フレームワークである Hadoop 上で Embulk を動かせると、全体として性能を向上させるためのリソース管理が容易になったたり、一時的なエラーが発生した際のリトライなどを自動で行ってくれるなど、様々な恩恵を受けられることが期待できます。 Embulk は plugin 機構をもっており、データの読み込み先と書き出し先を(plugin があれば)自由に選択できることはよく知られておりますが、実は処理を実行する部分も plugin として実装できます。MapReduceExecutor はその 1 実装です。Embulk のデフォルトの実行 plugin は LocalExecutorPlugin

    Embulk を Hadoop 上で動かす - Qiita
  • Hadoop is Dead. Long live Hadoop の所感

    数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか? @shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。 Hadoop is Dead. Long live Hadoop. Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop

    Hadoop is Dead. Long live Hadoop の所感
  • Hadoopのドキュメントを読む - Qiita

    要約 コミュニティ版 Hadoopのドキュメントを読むためのノウハウを紹介する なぜコミュニティか? 家で起こるバグは、別のDistributionでも(大抵は)起こる。だから家もウォッチしておきたい (些細な)例: ドキュメントのトップページにある謎のタイポ "Äôs" 家のサイト: http://hadoop.apache.org/docs/r2.2.0/ CDH5 beta1: http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.2.0-cdh5.0.0-beta-1/ 2 (これを引用するのは妥当じゃないかも) : http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0/ds_Hadoop/index.html https://issues.apache.org/jira/

    Hadoopのドキュメントを読む - Qiita
  • HadoopからDocker、そしてKubernetesの登場 分散システムの歴史を紐解く - ログミーTech

    2018年3月23日から24日にかけて、レバレジーズ株式会社が主催する国内最大級のエンジニア向け技術イベント「MANABIYA -teratail Developer Days-」が開催されました。同社が運営するITエンジニア向けのQ&Aフォーラム「teratail」の中で解決できない問題を解くため、一流エンジニアたちが一同に会して、プレゼンテーションやパネルディスカッションを行いました。トークセッション「分散処理とコンテナ化インフラの面白い関係」では、Treasure Dataの田籠聡氏が登場。HadoopからDockerKubernetesの登場まで、コンテナや分散処理が用いられるモダンシステムの潮流と、その問題点を語ります。 2006年、Hadoop黎明期とその衝撃 ここからはちょっと歴史の話です。タイムラインとしてはおおむねこんな感じです。 2003年から2018年、つまり今日ま

    HadoopからDocker、そしてKubernetesの登場 分散システムの歴史を紐解く - ログミーTech
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

    大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

    TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る
    sonota88
    sonota88 2017/06/29
    2011
  • 過渡期を迎えるHadoopとデータビジネス ―ゾウが消えた「DataWorks Summit 2017 San Jose」 | gihyo.jp

    過渡期を迎えるHadoopとデータビジネス ―ゾウが消えた「DataWorks Summit 2017 San Jose」 毎年6月、米サンノゼのダウンタウンにあるSan Jose McEnery Convention Centerでは、世界中のHadoop開発者/ユーザがあつまる年次カンファレンス「Hadoop Summit」が3日間に渡って開催されます。主催するのはApache Hadoopのコミッタを数多く抱え、Hadoopエコシステムとコミュニティを支える中心的存在のHortonworksと、そのHorotonworksのスピンアウト元であり、Hadoopを生み出したYahoo!です。 このHadoopの祭典が今年も6月13日 - 15日(米国時間)にかけて、サンノゼのコンベンションセンターで行われました。しかし今回はカンファレンスの名称が「DataWorks Summit 201

    過渡期を迎えるHadoopとデータビジネス ―ゾウが消えた「DataWorks Summit 2017 San Jose」 | gihyo.jp
  • 『(日本語)Hadoopは失敗した、という分析』へのコメント

    ブックマークしました ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有

    『(日本語)Hadoopは失敗した、という分析』へのコメント
  • 米Cloudera、Hadoop用の新ストレージ「Kudu」をOSSとして公開

    米Clouderaは2015年9月28日(米国時間)、オープンソースソフトウエア(OSS)の分散処理ソフト「Hadoop」用の新しいストレージである「Kudu」をOSSとして公開した。データの分析処理とオンライン処理の両方の高速化を図ったことが特徴。 Kuduは、データウエアハウス(DWH)のストレージとして一般的な「カラム(列)ストア」だ。カラムストアはデータをロー(行)単位ではなくカラム(列)単位で扱うため、データの分析処理において頻繁に発生する「特定のカラム(列)に対するデータの読み出し」を高速化できる。 これまでも「Parquet」というソフトウエアを使用すると、Hadoopの標準ストレージである「HDFS」をカラムストアとして使用できた。しかしHDFSは、データのオンライン処理に向いていないという弱点があった。 HadoopにはHDFS以外にもう一つ、データのオンライン処理が高速

    米Cloudera、Hadoop用の新ストレージ「Kudu」をOSSとして公開
  • 第7回 データ処理における並列アルゴリズム[2] | gihyo.jp

    はじめに 前回は、並列システムの性能指標について紹介し、また、データ処理におけるアルゴリズムと、選択処理の並列化方法を紹介しました。今回からは、結合処理の並列化方法について説明します。まずは、結合処理における基的な並列化方法について述べ、次に、ソートマージ結合の具体的な並列アルゴリズムを説明していきます。 結合処理の並列化方法 結合処理は、前回述べたとおり、複数のデータを、当該データを構成するレコード(タプル)における属性値を用いてある条件に基づいて連結することにより、1つのデータにする処理です。簡単のため、以降では、「⁠ある条件」は複数のデータの属性値が同一である、とします。すなわち、結合における最も一般的な方法である等結合を対象として話を進めていきます。また、特に断りがない限り、2つのデータを結合するものとします。 等結合処理における並列化の基的な方法は、次の2つのステップからなり

    第7回 データ処理における並列アルゴリズム[2] | gihyo.jp
  • “Hadoopエンジニアは年収3000万円”――「DW 2.0」とDBエンジニアのキャリア、米国エンジニア事情

    “Hadoopエンジニア年収3000万円”――「DW 2.0」とDBエンジニアのキャリア、米国エンジニア事情:Database Expertイベントリポート(1/3 ページ) “データウエアハウスの父”ビル・インモン氏が日のデータベースエンジニアを前に講演、データの性質が変わってきたいま、データウエアハウスの次の形態としてインモン氏が示したのは「DW 2.0」。その根幹を支えるテクノロジを扱うスキルを持つエンジニアが、いま北米で“引く手あまた”だという話も。 2015年6月10~12日、データベースエンジニア向けイベント「db tech showcase」(インサイトテクノロジー主催)が開催された。初日の基調講演では“データウエアハウス(DWH)の父”と呼ばれるビル・インモン(William H. Inmon)氏が登壇した。 インモン氏は、1990年代に「企業の意思決定のためのデータウ

    “Hadoopエンジニアは年収3000万円”――「DW 2.0」とDBエンジニアのキャリア、米国エンジニア事情
  • Hadoop illuminated -- Open Source Hadoop Book

    sonota88
    sonota88 2015/05/10
    CC BY-NC-SA
  • Hadoop Tutorial - YDN

    Yahoo! Hadoop Tutorial Table of Contents Welcome to the Yahoo! Hadoop Tutorial. This tutorial includes the following materials designed to teach you how to use the Hadoop distributed data processing environment: Hadoop 0.18.0 distribution (includes full source code) A virtual machine image running Ubuntu Linux and preconfigured with Hadoop VMware Player software to run the virtual machine image A

    sonota88
    sonota88 2015/05/10
    CC BY
  • Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

    Cloudera World Tokyo 2014 のライトニングセッション�で使用したスライドです。 Cloudera World Tokyo 2014: http://www.cloudera.co.jp/jpevents/cwt2014Read less

    Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
  • 分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)

    ■オープンソースカンファレンス 2015 Tokyo/Spring 講演資料(2015/02/28) 『分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向』 株式会社NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス 吉田 耕陽Read less

    分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)
  • Hadoopの概念と基本的知識

    8. なぜHadoopが必要になったか 1 ● 生み出されるデータはどんどん増える。 ● データから価値を得るためには処理をしなきゃいけない。 ● データを格納するためのハードディスクの容量はどんどん増えて値段 も下がっている。 ● ところが転送レートは容量に追随できていない。 年 容量(GB) 転送レート(MB/s) ディスク読み込み時間 1997 2.1 16.6 126秒 2004 200 56.6 59分 2014 3,000 210 3時間58分 (Cloudera Administrator Training資料から引用) 9. なぜHadoopが必要になったか 2 ● 巨大なデータを1台のマシンで処理しようとするとバス幅がボトルネックになる ● データ処理はデータを保持しているノード毎に行なって、それを集計すれば良さそ う? ● GoogleMapReduceおよびGoog

    Hadoopの概念と基本的知識