データには逆算が必要だ吉本:すごく共感します。僕らのシステムの中には、自治体の人だけでなく市民向けの可視化の機能もあります。そこのプロダクトマネージャーには、「『週刊文春』だったらどう書くか?」を考えるように言っています。何がバズるのかということを箇条書きして、そこに、正確さや誠実さ、みたいなものも加味して、体系化して整理すると何をやるべきかが見えてくるよ、と。 樫田:面白い。
データには逆算が必要だ吉本:すごく共感します。僕らのシステムの中には、自治体の人だけでなく市民向けの可視化の機能もあります。そこのプロダクトマネージャーには、「『週刊文春』だったらどう書くか?」を考えるように言っています。何がバズるのかということを箇条書きして、そこに、正確さや誠実さ、みたいなものも加味して、体系化して整理すると何をやるべきかが見えてくるよ、と。 樫田:面白い。
こんにちは。Ubieでアナリティクスエンジニア/データアナリストをやっているむらなかです。 2024年5月に入社し、2ヶ月半の育休を挟んで10月に復帰しました。 医療ドメインは想像以上に奥深く、プロダクトの幅広さやデータの複雑性も相まって、毎日が新たな学びと挑戦の連続です。入社して間もない私にとって、新しい概念や膨大な情報を整理する作業は、大きな認知負荷となりがちでした。 Ubieでは全社的に生成AIの活用に力を入れており、BIチームでも互いの生成AI活用事例を共有しながら生産性向上を図っています。生成AIをうまく使うことで、前述の認知負荷も軽減できそうだと感じていて、実際、プロンプトの工夫次第でSQLやデータモデルの理解、分析要件整理など、日常的な業務をスムーズに進められるようになりました。 私のチームではスクラムを採用し、story pointを振ってベロシティを計測しているのですが、
はじめに こんにちは。データエンジニアリンググループの森下です。今回は、私がプロジェクトマネージャーとして約3年間かけて実施した、TreasureDataからBigQueryへの全社データ活用基盤移行プロジェクトについてお話します。このプロジェクトは、全社で1日あたり数千件のクエリが実行されるデータ基盤を移行するという大規模なもので、関係者の数は200〜300人に上りました。プロジェクト期間中は、データ活用基盤の技術調査から始まり、関係者への説明や調整、データ移行、クエリ移行、ETLやReverse ETLに使用する各種ツールの導入など、本当に多くのタスクがありました。 プロジェクト背景: TreasureData導入とその課題 TreasureData導入の背景 2024年時点ではGoogle BigQueryを使用していますが、その前の環境が導入された背景を説明します。 2018年12
はじめに 本ドキュメントは、Dagsterのシステムコンセプトについて基本的な内容を要約・再整理した、Dagster導入のガイドです。 Dagsterの概念は、データオーケストレーションに特化されているところから独特のコンセプトを用いているところがあります。そのため、特に難しく重要な内容を要約し、理解の助けにするところを目指しました。また、公式ドキュメントの構成も十分に整理されていない部分もあり私なりに再構成してあります。用途に応じ目次を参照しつつ拾い読みしながらご活用いただけると幸いです。 Dagsterのシステム概要 以下は公式から引用したDagsterのシステム概要図です。Dagsterのサービス(Long-runnning services) とサービスから生成される Job(Ephemeral Process) の関係を示します。 図にはk8s(Kubernetes)とありますが
通常マスターデータは個々の情報管理アプリケーション内で定義されるが、マスターデータが適切に管理されていない場合や、複数の情報管理システムで同じマスターデータを使用する場合には、マスターデータ間の整合性が保たれない、または重複が存在するという事態が発生しうる。マスターデータの重複や不整合は、そのマスターデータと関連するデータが検索・同定できなくなる、といった不都合を生むため、マスターデータ自体を管理する必要からMDMという概念が生まれている。 MDM は、メインフレーム時代から続く古い課題であり、システム開発の度にそのアプリケーションにおいて整合性をとり品質を保つ仕組みを実装してきた。情報システムにおけるパッケージソフトウェアの適用が拡大することで、アプリケーション側でのマスターデータ管理が困難になってきたことから、MDMを行うためのパッケージソフトウェア製品も開発されてきた。 以下で行う
はじめに こんにちは。レバレジーズのデータ戦略室の辰野です。いつの間にか5回目の投稿を迎えました。 今回は、私が2024年度上半期に注力した「DMBOKに基づくデータマネジメント成熟度アセスメントの実施」についてご紹介できればと思います。 レバレジーズでは初めての実施ということもありかなり苦労したので、これからデータマネジメント成熟度アセスメントを実施してみよう!と思われている方にとって、参考になれば幸いです。 ※ベースとなるDMBOKに関する情報は、既に多くの記事が出ているかと思いますので本記事では割愛させていただきます なぜやることになったのか 例えば、皆さまの周りでこんなことは起きていないでしょうか? 「テーブル定義書はあるけど、実際のテーブルと内容が違う…」 「この指標の定義を知りたいけど、どこを見ればいいのか分からない…」 「このツールの使い方がどこにまとまっているか分からない…
データベーススペシャリストに落ちまくってるので権威性ゼロです。こんにちわ。誰も扱いに困ってないと思いますが、自分の中で決着がついたので。 いつものように散らかってます。すんません。書きなおす気力ないです。 要約: サロゲートキーを使うか・使わないかではない。必要なときは使えばよい サロゲートキー サロゲートキーとは メリット デメリット DB設計の観点 論理設計 物理設計 アプリの観点 フレームワークの都合でサロゲートキーを採用する/しないがある サロゲートキーじゃないと条件漏れが怖い? サロゲートキーがあっても結局使えないこともある 「じゃあずっと複合主キーでやっていくのかよ!うちは5カラムもあってやってられんわ!実装側に入力ミスさせるような設計してんのか!DB設計しただけでいい気になりやがって!!」 「複合主キー許すまじ!サロゲートキーを一律に振れ!!」 サロゲートキーに関する様々な意
はじめに 先日DB初心者(DWHですらない)から、2か月の勉強でSnowPro Coreを取得しました。 勉強にあたりやってよかったことなどをまとめておきます。資格取得記事は最近無限に生産されているので、あまり他では言及がなさそうなことを中心にしようと思います。 こんな方におすすめ SnowPro Coreに興味はあるが、実務経験がない データエンジニアリングを学んでみたいが、どこから手をつけるといいかわからない 簡単なバックグラウンドと経緯 Tableauによるクロス集計中心のデータ分析職(他業務も兼務)から、2023年2月にデータ分析基盤およびBIダッシュボード構築を行うデータアナリストに転職 前職では、ほぼ編集してはいけないテキストファイルのSQLを、あるフォルダに格納するとCSVでデータが抽出されるという謎環境だった エンジニアのいない組織だったので実務的には役立たなかったが、Da
▍イベントレポートはこちら https://blog.trocco.io/event-report/data-engineering-study-vol-5 ▍視聴後は... ・データエンジニアのためのニュースまとめ「Data Engineering News」はこちら https://blog.trocco.io/category/data-engineering-news ▍イベント参加方法🐦 ・Twitter ハッシュタグ「#DataEngineeringStudy」 ハッシュタグを付けてツイート → https://twitter.com/intent/tweet?hashtags=DataEngineeringStudy ハッシュタグのツイートを見る → https://twitter.com/search?q=%23DataEngineeringStu
RDBMS(PostgreSQL)のデータを、DWH(Snowflake)に入れる時に、再考したPrimary keyの重要性 PostgreSQL Advent Calendar 2022 の25日目の記事です。 RDBMS(以下、データベース)のデータをデータウェアハウスに入れたいというニーズは、データ統合を進めていくと発生すると思います。筆者は、実際にPostgreSQLのデータを、Snowflakeに取り込みを行いました。その際に、テーブルにPrimary keyがついておらず困りました。なぜPrimary keyが必要なのかについて、自分なりの見解をまとめてみました。 ※現在は、Primary keyをつける方針になり、事なきを得ました。 解決したかったこと 社内に存在しているデータベース。今回だとPostgreSQLに入ってるデータを、Snowflakeにさくっと入れたい。 な
データ基盤チームに所属しているデータエンジニアの吉田(id:syou6162)です。10X社内のデータマネジメントの仕事をしています。 最近、社内でディメンショナルモデリング勉強会を行なったですが、なぜ勉強会を行なったのか、どのように行なったのか、勉強会を行なった結果何が得られたかについてまとめます。 ディメンショナルモデリング勉強会開催の背景 勉強会の進め方やスコープ 勉強会の参加者 勉強会で学んだ内容 Four-Step Dimensional Design Process キーの設計について 複数スタースキーマを適切に利用し、ファントラップを避ける コンフォームドディメンション まとめ: 勉強会で得られたもの ディメンショナルモデリング勉強会開催の背景 前回のエントリにまとめた通り、10Xのデータマネジメントの課題の中でも「データウェアハウジングとビジネスインテリジェンス」は優先度が
経営管理の定型業務を全て自動化し、 AIにより経営の意思決定の加速化を 実現する クラウドサービス
Parquetは便利なファイル形式で、列志向のフォーマットとしてはデファクトの1つと言っても過言ではないでしょう。 ですが、jsonやcsvとは違い、ファイルを見ただけでどんな構造かわかるものではありません。 この記事は、Parquetの具体的な構造について記述します。 はじめに この投稿は、Parquetの構造について、バイナリを見ながら確認するものです。 ただし、Parquetの大枠に注目した投稿なので、delta encodingやrun-lengthなど、個別の圧縮方法については取り扱いません。 ※ Parquetの作成には https://github.com/parquet-go/parquet-go を使用していますが、goの知識は必要ありません tldr Parquetは以下の構造を持っています。 ファイルはRowGroupとメタデータに分かれている RowGroupの中に
About AirbyteAirbyte is the leading open-source ELT tool, created in July 2020. Airbyte has more than 300 data connectors, and have 40,000 companies using them to sync data, syncing more than 1PB per month. Their ambition is to commoditize data integration by addressing the long tail of connectors through their growing contributor community. Airbyte released a Cloud offer in April 2022 with a new
【BigQuery・Geo Viz】地理情報をPythonでBigQueryにデータを入力したり、可視化してみる BigQueryってなんですか?概要Google Cloudの列志向なデータウェアハウス データウェアハウスってのはデータを保存したり、検索したりできるサービスのことです データベースと比べるとデータの蓄積に主眼が置かれていて、ビッグデータ志向なサービスになっています SQL文をサポートしている 爆速で検索できる データウェアハウスだけどACID特性がある(Google Cloud) 何に使える?一般的にはData Analytics用途に使われることが多いようです とにかく爆速なので理にかなった使い方ですね 使ってみる・前準備Python側の準備次の環境で作業しました python = "^3.9" Flask = "^3.0.1" numpy = "^1.26.3" goo
様々な場所に散在しているデータを統合して分析に活用したいという要望は、非常に多いです。 今回はそのような要望に対して、Matillionをご紹介し、簡単なデータ連携の手順についてご説明したいと思います。 Matillionとは Matillionはクラウドデータウェアハウス向けに構築されたデータインテグレーションツールで、Amazon Redshift、Google BigQuery(以下BQ)、Snowflake、Azure Synapseなどのクラウドデータベースプラットフォーム用に特別に構築されています。 様々なオンプレミスやSaaSのデータをクラウド上へロードするフローを簡単に作成することが可能で、分析等に向けて、散在しているデータを統合し一元管理したいという方におすすめのツールとなっています。 公式ドキュメントはこちら 構築 今回はGoogle Cloud Platform(以下
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く