タグ

embulkに関するkimutanskのブックマーク (10)

  • Embulk - 進化するバルクデータローダ

    This document discusses Embulk, an open-source parallel bulk data loader that loads records from one source to another using plugins. It describes the pains of bulk data loading such as data cleaning, error handling, idempotency, and performance. Embulk addresses these issues through its plugin architecture, parallel execution, transaction control, and features like resuming and incremental execut

    Embulk - 進化するバルクデータローダ
    kimutansk
    kimutansk 2016/03/30
    Input>Parse>Filter>Format>Outputという流れと。似ているけどEmbulkでは機能が満たすのが厄介なものを作った結果、流れは当然ながら同じになるんですよねぇ・・・
  • Embulkに足りない5つのこと

    embulk meetup tokyoで話しました! ユースケースが書かれているので是非参考にして下さい。

    Embulkに足りない5つのこと
    kimutansk
    kimutansk 2015/12/16
    足りなかったのはジョブの共通定義&定義の多様化、ジョブの事前事後処理、ジョブキューはdigdag、並列数の設定による制御、チェックポイントと。
  • (新機能)「Data Connector for Amazon S3」によるデータロード革命 - トレジャーデータ(Treasure Data)ブログ

    はじめに トレジャーデータでは,あらゆるデータソースにリーチするデータ収集ツールを用意していますが,新しい収集機能として「Data Connector」を順次リリースする予定です。 ↑ 従来の収集ツールに関しては過去記事をご覧下さい。 何が新しいのか? さて,今回紹介する「Data Connector for Amazon S3」はその名の通り,Amazon S3上のデータをトレジャーデータに設定のみで「バルクデータロード」する機能です。この機能は先日オープンソースとしてリリースされた Embulk をベースにしたものです。 Embulk については以下の過去記事をご参照ください。 従来の Bulk Import 機能は「Client to Server」型 従来のトレジャーデータの「バルクインポート」機能は,クライアント上の巨大なデータに対して,トレジャーデータへ安全かつ効率良く実行する

    (新機能)「Data Connector for Amazon S3」によるデータロード革命 - トレジャーデータ(Treasure Data)ブログ
    kimutansk
    kimutansk 2015/06/24
    TD内でEmbulkのWorkerを起動してインポート可能になりましたか。外部からアクセス可能なものは将来的に一通りこれでカバーされる感じですかね。
  • 『Embulk』に見るモダンJavaの実践的テクニック ~並列分散処理システムの実装手法~

    1. Hiroshi Nakamura Software Engineer Treasure Data, K.K. 『Embulk』に見るモダンJavaの実践的テクニック ∼並列分散処理システムの実装手法∼ 1 #ccc_cd4 / #embulk 2. #ccc_cd4 / #embulk Today’s talk Embulkとは > バルクデータ転送の難しさ > Embulkのアプローチ > アーキテクチャ概要 Java実装技術 > Java 7ネイティブ > Guiceによるコンポーネント間の接続 > ServiceLoaderによる拡張 > Jacksonによるモデルクラス、Immutable > Nettyバッファアロケータ、Unsafe 2 3. #ccc_cd4 / #embulk Embulkとは? - http://embulk.org/ > オープンソースのバルクデー

    『Embulk』に見るモダンJavaの実践的テクニック ~並列分散処理システムの実装手法~
    kimutansk
    kimutansk 2015/04/12
    #embulk 資料だけ見るとソースをざっと読むとわかることだったのでちと残念。やはり実際に発表聞きに行きたかったですねぇ。
  • Embulk(エンバルク)組み込みプラグインの設定覚え書き - Qiita

    Embulk組み込みプラグインの設定覚え書き その他の情報はFluentdのバッチ版Embulkのまとめをご覧ください。 Embulkには組み込みでいくつかのプラグインが用意されています。この資料ではEmbukの基的な概念を説明したのち、組み込みのプラグインについて解説をおこないます。 詳細は、オフィシャルのマニュアルを参照してください。Configuration (英語) 1, レコード、カラム、そして型 Embulkは、内部でデータをレコードとして取り扱いします。 レコードは、複数のカラムから構成されるデータ1件のことを表します。 例えば住所録では、人1名の情報がレコードです。1名の情報には、氏名や 年齢といったその人固有の情報があります。この固有の情報一つ一つが カラムです。それぞれのカラムには型があります。姓や名であれば文字列、 年齢であれば数字(整数)、生年月日であれば日付(日

    Embulk(エンバルク)組み込みプラグインの設定覚え書き - Qiita
    kimutansk
    kimutansk 2015/03/14
    設定の流れが書いてあるのはありがたいですね。こうしてみると改めてguessの便利さがわかるところでもあります。
  • 並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その4:LocalExecutor概要 - 夢とガラクタの集積場

    こんにちは。 Embulkが前回の投稿から今回の投稿までの間にJava用のプラグインもサポートしていますね。 これでようやくプラグインを書けるようになった・・・のですが、 とりあえずプラグインを書くのは裏で行っておくとして、ここではソースコードリーディングを続けます。 Embulk 0.3 & 0.4 の新機能 - リジュームとJavaプラグイン - Blog by Sadayuki Furuhashi 今回はLocalExecutor、つまりローカルでデータの取得→書込処理を行うためのクラスです。 1. LocalExecutorに関連するクラス群 LocalExecutorに関連するクラス群をまとめてみますと以下のような図になります。 正確にはExecクラスによってThreadLocalな変数を生成してExecSessionを保持できるようにして実行・・ といったことも関わってくるので

    並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その4:LocalExecutor概要 - 夢とガラクタの集積場
    kimutansk
    kimutansk 2015/03/11
    #embulk EmbulkはPlugin群を統括して実行するための基盤ということがよくわかります。この手の基盤はこう作りますか。
  • 並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その3:run概要&データソース概要 - 夢とガラクタの集積場

    こんにちは。 前回で初期化部分の確認が終わったため、今回は処理の方に入ってきます。 尚、ServiceLoaderでJava製プラグインがロード出来るかについてはとりあえず一通り読んでからの方針で^^; まず、基構造としては 上記の図にあるRunnerが起動の起点となり、初期化を行った後に run/cleanup/guess/previewの各々の処理に分岐する流れとなっています。 まず今回はrun処理の流れを追ってみることにします。 1. run処理の流れ概要 run処理の流れは下記のようになっています。 設定ファイル(YAML形式)を読み込む。 出力ファイル(次回実行用の設定出力先、Resume状態の出力先)の出力可能確認を行う。 Resume状態ファイルを読み込む。 Executorクラスを生成する。 Resume状態にあわせて処理を実行する。 実行失敗した場合、Resume出力

    並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その3:run概要&データソース概要 - 夢とガラクタの集積場
    kimutansk
    kimutansk 2015/02/18
    #embulk Executor周りはもちろん、クラスのシリアライズ/デシリアライズも作りこんでありますね。読んでて面白いです。
  • 並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その2:初期化 - 夢とガラクタの集積場

    こんにちは。 前回は起動時のさわりだけでしたので、今回からまともに中身を読む形になりますね^^; 1.クラス概要構成 JRubyによる起動処理部分が終わり、 Javaに戻ったのでまずはJavaクラスの概要構成から確認してみます。 概要の構成はこれだけです。 EmbulkGuiceによるインジェクションで必要なオブジェクトを取得して 使用する形になるので、固定的に起点となるRunnerクラスから参照が行われているのは 上記の図の要素だけになります。 各クラスの解説は下記の通りです。 Runner JRubyから起動されるEmbulk来のメインクラス。 各種オブジェクトの初期化後、run/cleanup/guess/previewといった個別コマンドの処理を行うクラス。 DataSourceImpl システムプロパティに設定されたembulk関連の定義(embulk.で始まるもの)を J

    並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その2:初期化 - 夢とガラクタの集積場
    kimutansk
    kimutansk 2015/02/08
    #embulk ServiceLoaderがクラスパス上の全ファイルを読む動作であればJVM系言語のプラグインも現状で何とかなるんでしょうか・・?
  • 「データ転送ミドルウェア勉強会」レポート #dtm_meetup | DevelopersIO

    こんにちは、虎塚です。 1月27日(火)に「データ転送ミドルウェア勉強会」に参加してきましたのでレポートします。イベントは、SAPジャパンさんで開催されました。 今回のテーマは、まず、当日リリースされたばかりのOSSツールEmbulkの解説、次に、データ転送業界のドンHULFTの紹介、そして、今年リリース予定のfluentd v1について、最後に、HTTP/1とHTTP/2両対応のHTTPサーバH2Oの紹介でした。盛りだくさんですね。 懇親会ではトレジャーデータさんからピザが提供されました。SAPジャパンさん、トレジャーデータさん、ありがとうございます。 データ転送ミドルウェア勉強会 - dots.[ドッツ] 「バルクデータロードツール『Embulk』リリース 〜 fluentdの柔軟性と堅牢性をバルクでも」 最初のセッションは、トレジャーデータの古橋貞之さんによるEmbulkの思想やアー

    「データ転送ミドルウェア勉強会」レポート #dtm_meetup | DevelopersIO
    kimutansk
    kimutansk 2015/01/28
    embulkはBulk転送を行うフレームワーク・・と。JavaでプラグインかけるようになればBulk転送で同じ立ち位置にいるのは無いのでありがたいですが・・
  • Embulk, an open-source plugin-based parallel bulk data loader

    1. Sadayuki Furuhashi Founder & Software Architect Treasure Data, inc. EmbulkAn open-source plugin-based parallel bulk data loader that makes painful data integration work relaxed. Sharing our knowledge on RubyGems to manage arbitrary files. 2. A little about me... > Sadayuki Furuhashi > github/twitter: @frsyuki > Treasure Data, Inc. > Founder & Software Architect > Open-source hacker > MessagePack

    Embulk, an open-source plugin-based parallel bulk data loader
    kimutansk
    kimutansk 2015/01/27
    #embulk バルクデータをシステム間で転送するためのEmbulk。Javaプロセスがコアになってプラグインを統括し、guessによる設定生成やpreviewも可能?プラグインはJVM言語では・・書けないんでしょうか
  • 1