TECH PLAY Conference 2017 の発表資料となります ビッグデータを活用したWebサービスの技術 #techplayconf2017 #techplayjp https://techplay.jp/event/628968 株式会社DMM.comラボ 鈴木 翔太 / 吉田 …
Gobblin is a data integration framework that can handle both batch and streaming data. It provides a logical pipeline specification that is independent of the underlying execution model. Gobblin pipelines can run in both batch and streaming modes using the same system. This allows for cost-efficient batch processing as well as low-latency streaming. The document discusses Gobblin's pipeline specif
AWS re:Invent 2016のDAY2キーノートにて、フルマネージドなデータカタログとETLサービスとなる『AWS Glue』のリリースが発表されました! これまでの状況 AWSのデータ分析における各種サービスはこれまでに数多くリリース・展開されて来ていましたが、一連の流れで見てみると幾つかピースが欠けている部分がありました。 今回新たにリリースされた『AWS Glue』を適用する事で、その欠けたピースを全て埋める事が可能となります。 AWS Glueとは AWS Glueは、完全に管理されたETLサービスで、データストア間でデータを簡単に移動できます。 AWS Glueは、困難で時間のかかるデータの発見、変換、マッピング、およびジョブスケジューリングのタスクを簡素化し、自動化します。 AWS Glueは、使いやすいコンソールでデータを移動するプロセスをガイドし、データソースの理解
こんにちは、インフラ部データ基盤グループの小玉です。 データ基盤グループでは、Amazon Redshift(以下、Redshift)へ継続的にデータをロードする仕組みを、約半年に渡り構築・運用してきました。この記事では、その中で学んだことを共有させて頂きます。 弊社では情報系システムの一部に、AWSが提供するRedshiftという分散データベースを利用しています。情報系システムとは、データ分析を主な用途とするシステムのことです。なかでもRedshiftはSQLを使った大量データの高速な分析に最適化されているため、DWH(データウェアハウス)としての利用に適しています。 DWHの構築に必要なタスクとしては、データソースの特定、モデリング、データの抽出・変換・ロード(ETL)、クエリツールやBIツール導入、パフォーマンス・チューニング、メタデータの管理、バックアップ・リストアなど、があります
In summary, the Keystone pipeline is a unified event publishing, collection, and routing infrastructure for both batch and stream processing. We have two sets of Kafka clusters in Keystone pipeline: Fronting Kafka and Consumer Kafka. Fronting Kafka clusters are responsible for getting the messages from the producers which are virtually every application instance in Netflix. Their roles are data co
6. niconicoの概要 動画 生放送 静画 電子書籍 マンガ チャンネル アプリ ブロマガ 立体 コミュニティ ニコニ広告 ニュース ニコナレ nicobox ファミリーサービ ス PC SP web iOSアプリ Androidアプリ FP web PS Vita 3DS WiiU PS4 Xbox One Viera Bravia LGテレビ Amazon Fire TV Windowsアプリ GearVR 対応デバイスサービス概要 2006/12開始 MAU 約895万 登録会員 約5,124万 有料会員 約253万 - コンテンツ投稿 - コメント - マイリスト - タグ編集 7. niconicoの概要 動画 生放送 静画 電子書籍 マンガ チャンネル アプリ ブロマガ 立体 コミュニティ ニコニ広告 ニュース ニコナレ nicobox ファミリーサービ ス PC SP
まだ本格的な運用は始まっていないけどログ分析環境を少しづつ作ってるのでメモっておく。 ETL処理は既存資産の活用を考慮してPython 2.7でやっています。 hiveserver2との接続はpythonからhiveserver2につなごうとしていろいろハマったのでメモっておく - wyukawa’s blogに書いた通りだいぶ苦労したけど独自にpatchあてて対応した。 sqoop imortもやりつつある。最初はsqoop2を使おうかなと思ったけどhiveとの連携がまだみたいなのと、既存資産の活用もあって古いsqoopのまま処理を進めている。 Hiveからselectして結果をMySQLへinsertする部分はMySQL-Python使っています。この辺も既存資産があるからですね。 Python 3は使っていないので下記にあるような事情は今回特に関係ないです。とはいえPython 3も
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く