タグ

bigqueryに関するmichael-unltdのブックマーク (328)

  • 【BigQuery】増分フラット化テーブルを作成する | CCI Analytics

    こんにちは。CCIのアナリティクス担当の寺田です。 さっそくですが、GA4とBigQueryを連携するとBigQueryに日次で「events_YYYYMMDD」テーブルがexportされ、「日」単位に分割されたテーブルが作成・追加されていきます。 この「events_YYYYMMDD」テーブルをいわゆる「フラット化」し、SQL文で扱いやすく加工するわけですが、こんな悩みを抱えたことはないでしょうか? 新しくexportされてきた「events_YYYYMMDD」テーブル(増分データ)だけを「フラット化」して、既存のフラット化テーブルに追加(INSERT)したい。 新しくexportされてきた「events_YYYYMMDD」テーブルデータ(増分データ)を既存のフラット化テーブルに追加する際、毎回「events_YYYYMMDD」テーブルを全期間フルスキャン&フラット化していては、なかなか

    【BigQuery】増分フラット化テーブルを作成する | CCI Analytics
  • 2024年お世話になったBigQueryクエリ3選

    クエリ レビューID毎の最新状態を取得したいので、以下の流れでクエリを記述します。 review_id でグループ化 取得したい列を STRUCT で集約 created_at の降順でソート LIMIT 1 OFFSET(0) で1件のみ取得 latest列で1段ネストするので SELECT latest.* で展開 SELECT review_id, latest.*, FROM ( SELECT review_id, ARRAY_AGG(STRUCT( star, content, created_at ) ORDER BY created_at DESC LIMIT 1) [OFFSET(0)] latest, FROM reviews GROUP BY ALL ) ちなみに、QUALIFY + ROW_NUMBER を使っても同様の結果を得ることができます。最新の1件と言うと R

    2024年お世話になったBigQueryクエリ3選
    michael-unltd
    michael-unltd 2024/12/20
    “最新の1件と言うと ROW_NUMBER が有名ですが、ARRAY_AGG の方が計算量は少ないため、ARRAY_AGG を利用する方が好ましいです。”
  • BigQueryのARRAYとSTRUCTを理解して使いこなす - G-gen Tech Blog

    G-gen の杉村です。BigQuery は通常の RDBMS と異なり分析用データベースであることから、非正規化したテーブルを扱うことが多くなります。そのための独特のデータ型として、ARRAY (配列) と STRUCT (構造体) があります。これらについて解説します。 概要 ARRAY (配列) ARRAY とは サンプルテーブル SELECT SELECT 〜 WHERE SELECT 〜 CROSS JOIN SELECT (SELECT ~ UNNEST) CREATE TABLE / INSERT 制限 STRUCT (構造体) STRUCT とは サンプルテーブル SELECT SELECT 〜 WHERE CREATE TABLE / INSERT 制限 ARRAY<STRUCT> (ネストされた繰り返し列) ARRAY<STRUCT> とは サンプルテーブル SELEC

    BigQueryのARRAYとSTRUCTを理解して使いこなす - G-gen Tech Blog
  • BigQueryでデータセットを再作成することなくリージョン変更する

    はじめに こんにちは、Miotavaです。 最近では社内でBigQueryに触れる機会や連携されたデータも増えて、データ関連が好きな自分としてはハッピーな今日この頃です。 その反面、連携データが増えるにつれ、データセットリージョンが統一されていないことが困りごとを生んでしまいました。 困りごととは、USリージョンとAsiaリージョンなど異なるリージョンにあるデータセット間ではテーブルのJOINができないという問題です。これは分析観点では痛い問題となり得ます。 そして残念なことに、現在BigQueryではコンソール上の通常の操作では一発でリージョンを変更する機能はサポートされていません。 しかしながらコンソール上で"とある手順"を踏むことで比較的簡単にリージョンを変更することができましたのでご紹介します。 方法 概要 結論、BigQueryのクロスリージョンデータセットレプリケーション機能を

    BigQueryでデータセットを再作成することなくリージョン変更する
  • cross-region dataset replicationとanalytics hubを使ったリージョンをまたぐデータ共有の話 - Qiita

    はじめに 弊社では利用している外部SaaSの機能としてBigquery連携のコネクタをいろいろ利用しています。その場合、稀に起こる問題として特定のリージョンのみ連携を行うことができるサービスが存在します。このような場合、弊社ではデータ取得用のプロジェクト(Project A)からサービスへの連携プロジェクト(Project B)にデータを送り、外部SaaSへのデータ連携を行っています。このプロジェクト間でのデータ連携方法として、BQ Datatransfer Serviceを利用しています。 最近では新しくcross-region dataset replicationが利用可能となり、これによりリージョンを超えたデータセットの利用が可能になりました。この機能を見ていて上記のようなプロジェクトとリージョンを跨いだ場合にも利用できるのでは?と考え、Analytics Hubと組み合わせてDa

    cross-region dataset replicationとanalytics hubを使ったリージョンをまたぐデータ共有の話 - Qiita
    michael-unltd
    michael-unltd 2024/12/18
    “手順は以下のように行います。 Project A内でUSマルチリージョンのレプリカを作成 Project AのデータセットをAnalytics HubでProject Bに共有 Project B内でUSマルチリージョンのレプリカを作成 Project BのデータセットのPrimaryとSecondary
  • BigQueryのクロスリージョン・データセットレプリケーションを解説 - G-gen Tech Blog

    G-gen の杉村です。BigQuery の可用性を高めるための クロスリージョン・データセットレプリケーション (Cross-region dataset replication) について解説します。 クロスリージョン・データセットレプリケーションとは 仕組み BigQuery の可用性 データのレプリケーション セカンダリ・レプリカの昇格 料金 制限 ロケーションの考慮事項 その他の制限 セカンダリ・レプリカへのクエリ 仕様 スロット 障害時の挙動 利用方法 レプリカの作成 クエリの実行 昇格 レプリカの削除 クロスリージョン・データセットレプリケーションとは クロスリージョン・データセットレプリケーション (Cross-region dataset replication) は、BigQuery のデータセットに読み取り専用のセカンダリ・レプリカを追加することで、別のリージョンにデ

    BigQueryのクロスリージョン・データセットレプリケーションを解説 - G-gen Tech Blog
  • Dataplexのデータリネージ機能を導入した話 - pixiv inside

    はじめに 初めまして。プラットフォーム開発部にてデータ基盤を整備しているkashiraと申します。 ピクシブではデータガバナンス強化のために、Google Cloud Platform(GCP)のDataplexのデータリネージ機能を番運用で使い始めました。 この記事では、「どのように導入したのか?」「導入によってどんな効果が出たのか?」について話していきます。 cloud.google.com データリネージとは? データリネージとは、データの流れを可視化する機能です。 BIやDWHで分析するデータは、各所に散らばった複数の処理を経て生成されます。 複数の散らばった処理を1つずつ追いかけるのには時間がかかり、何かデータに障害が発生した場合のデバッグや、データ変更をしたい場合の調査に対するコストが大きくなります。 こうした課題を解決するための仕組みの1つがデータリネージです。 具体的には

    Dataplexのデータリネージ機能を導入した話 - pixiv inside
  • BigQueryでBigLakeテーブルを作ってみた | DevelopersIO

    Google Cloudデータエンジニアのはんざわです。 今回の記事では、Cloud StorageをデータストアとするBigLakeテーブルを作ってみたいと思います。 そもそもBigLakeテーブルとは? BigLakeテーブルは、従来の外部テーブルと同様に外部のデータストアのデータにアクセス可能なテーブルです。 従来の外部テーブルと比較するとアクセス権の委任により、「ユーザーがBigLakeテーブルにアクセスする権限」と「BigLakeテーブルがデータストアを参照する権限」が分離されている点で異なります。 BigLakeテーブルは、Cloud StorageにアクセスするためにBigQuery Connectionを使用します。 このConnectionには、データストアを参照する権限を割り当てることができ、これによりBigLakeテーブルへのアクセス権限とデータストアの参照権限を分離

    BigQueryでBigLakeテーブルを作ってみた | DevelopersIO
  • Data Catalogのポリシータグを使いBigQueryにて列レベルでのアクセス制限を設定する

    Data Catalogのポリシータグを使いBigQueryにて列レベルでのアクセス制限を設定する方法について紹介します。 背景 BigQuery単体においてもデータセット単位、テーブル単位でアクセス制御が可能でしたがData Catalogの「ポリシータグ」という機能を使うことによってより「きめ細やかな管理」が可能になります。 ありそうな具体的事例としては以下でしょうか。 How to 大雑把に以下の手順です。 Data Catalogのポリシータグを作成 ポリシータグに対し、権限を付与したいアカウントに「きめ細かい読み取り」のロールを付与 BigQueryにて制限したいカラムに作成したポリシータグを設定する 動作確認 今回はとあるテーブルのPIIカラム(実際はPII要素ないですが)に閲覧制限を加えたいというシチュエーションで組み立ててみます Data Catalogのポリシータグを作成

    Data Catalogのポリシータグを使いBigQueryにて列レベルでのアクセス制限を設定する
    michael-unltd
    michael-unltd 2024/12/16
    “PII(個人情報)を含むusersテーブルではあるがマスタとして分析に頻繁に使用するテーブルかつPIIに業務上アクセスする必要のある人もいるので、可用性と機密性の観点から 個人情報を含むテーブル(your_dataset.users_pii) 個人情
  • GoogleSQL の pipe syntax と Spanner Graph GQL を比較する

    この記事では BigQuery に追加された pipe syntax そのものについては他の記事に任せて pipe syntax と Cloud Spanner に追加された GQL の対応関係について書きます。 pipe syntax についてより知りたい人はここからリンクされている Google Cloud 公式のドキュメントや論文や Medium などのコミュニティの記事を読むと良いかもしれません。 導入 BigQuery に追加された pipe syntax 2024年10月8日付のリリースノートで BigQuery の pipe syntax の Preview が発表されました。 You can now use pipe syntax anywhere you write GoogleSQL. Pipe syntax supports a linear query struct

    GoogleSQL の pipe syntax と Spanner Graph GQL を比較する
    michael-unltd
    michael-unltd 2024/12/16
    “GoogleSQL Pipe Syntax”
  • GitHub - LucasHild/mcp-server-bigquery: A Model Context Protocol server that provides access to BigQuery

  • よくわかるGoogleCloud#3_BigQuery remote functionsを使って分かち書きと感情分析する|(株)カホエンタープライズ

    皆様こんにちは。 日もカホエンタープライズのnoteをご覧いただきありがとうございます! 4月からお届けしている、Google Cloudの活用方法をお伝えするシリーズ。日は第3弾となります! 今回使用するツールは、Google BigQueryのremote frunctionsです。 こちらは、Cloud Functions、Cloud Runの関数をBigQueryから呼び出す機能となっております。 Natural Language APIを使用したCloud Functionsを作成し、分かち書きと感情分析を同時にBigQueryから実行してみます。 外部接続の作成BigQueryとCloud Functionsとをつなぐために外部接続という機能を使います。以下に従って外部接続を作成します。 BigQueryのエクスプローラーのメニューから追加をクリックします。外部データソース

    よくわかるGoogleCloud#3_BigQuery remote functionsを使って分かち書きと感情分析する|(株)カホエンタープライズ
  • Gemini 2.0 Flash から MCP を利用して BigQuery を操作する

    Google Cloud Champion Innovators Advent Calendar 2024 の 12 日目の記事です。 はじめに LLM が広く普及し、活用範囲が急速に拡大してきたことで、ツール連携機能を活用した AI エージェントを構築する機会も増えてきています。このような LLM とツールの連携により、チャットインターフェースから様々なシステムやサービスを制御・自動化できるようになりました。 しかし、AI エージェントの開発には2つの困りごとがあると感じています。1つ目は、複雑な指示を処理するために必要な高性能モデルの応答速度が遅い点、2つ目は複数のプロジェクトでツールを再利用する際の実装効率の問題です。 記事では、これらに対する解決策の一例を紹介します。LLM から BigQuery を操作するユースケースにおいて、応答速度が遅い点については Gemini 2.0

    Gemini 2.0 Flash から MCP を利用して BigQuery を操作する
  • Datastream による Cloud SQL と BigQuery 同期:直面した課題と対応策 - JX通信社エンジニアブログ

    こんにちは、データ基盤担当の @mapler です。今回は DataStream を活用して、Cloud SQL から BigQuery へのデータ同期についてお話しします。 Datastream の設定は基的に Google Cloud のドキュメント従って行えますので、この記事では、実際の設定時に直面した課題や対策を中心に説明します。 背景: データを BigQuery に同期することで得られるメリット JX通信社の「FASTALERT」は、日国内外の緊急情報をリアルタイムで配信するサービスです。災害情報や事故、事件、気象警報など、幅広い分野の緊急情報を網羅しており、長年にわたって膨大な災害データを蓄積しています。 社内や顧客から、蓄積したデータへのアクセス需要が高まってきました。 BigQuery からデータを利用できるようにすることで、次のような利点があります。 過去の特定の時

    michael-unltd
    michael-unltd 2024/12/15
    “max_staleness が設定されていない場合、デフォルト値の 0 が設定されます。この状態では、クエリを実行するたびに BigQuery は最新の結果を返すため、目標のパーティションだけでなく、Stream Buffer にあるデータも含めてスキ
  • Claude MCPとVertex AIで遊戯王のルールを生成AIに理解させる

    LLM・LLM活用 Advent Calendar 2024 7日 ヤプリ #1 Advent Calendar 2024 9日 の記事です。 はじめにお断り タイトルや文で生成AIが「文脈を理解する」や「文脈を捉える」という表現を使っていますが、厳密には実行環境では行列計算で次の単語の出現確率を計算して予測しているのでAIが理解することはないです。ただ話として伝わりやすいようにそういう表現を使っています。 概要 遊戯王デュエルモンスターズというカードゲーム(以下遊戯王とする)があります。 そしてこのカードゲームのルールは非常に複雑です。 複雑さを増している要素として、日語の意味、文法だけでは捉えられない遊戯王特有の文脈が存在するからです。 今回はこの遊戯王特有に文脈を生成AIに捉えさせることを試みました。 また、11月に発表されたModel Context Protocol(MCP)

    Claude MCPとVertex AIで遊戯王のルールを生成AIに理解させる
    michael-unltd
    michael-unltd 2024/12/10
    "日本語の文脈理解だけでは把握できないカードゲームのルールを題材にClaudeで正しい回答が買えるような仕組みをModel Context Protocol (MCP) + Vertex AI ベクトル検索 + BigQueryで実現" "MCP Serverのbaseを用意する 以下の公式documentとReadm
  • わずか数名と数ヶ月で実現した、金融機関のデータ基盤リプレイスとデータドリブンな組織への貢献 - Coincheck Tech Blog

    コインチェック株式会社(以下、コインチェック) データ基盤グループの岩瀬です。今回は、暗号資産交換業者であるコインチェックで実施したデータ基盤のリプレイス事例と、そこから連続するデータ基盤拡充の取り組み、データドリブンな組織への貢献についてご紹介します。 TL; DR 暗号資産取引所を運営するコインチェックでは、運用されていたデータ基盤を、限られた技術リソースと短期限でモダンにリプレイスし、結果 インフラコスト90%削減 を実現しました。 Treasure Data で構築されていたデータ基盤の移行先として Google Cloud を選定し、3ヶ月で既存と同等のシステムを構築 して並列運用を実現し、システムのリプレイスが可能であることを示しました。 以後データ基盤の拡充を進め、社内で生成される各種データのデータレイクへの集約、それらを活用したダッシュボードの構築、データ分析環境の整備、デ

    わずか数名と数ヶ月で実現した、金融機関のデータ基盤リプレイスとデータドリブンな組織への貢献 - Coincheck Tech Blog
  • Articles

  • 【Streamlit × Vertex AI】自然言語でBigQueryのデータをクエリするチャットアプリを作成してみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 今回は、Streamlitを使って、Vertex AIを利用したチャットアプリを作成する方法を紹介します。このアプリでは、自然言語での質問に対してGeminiがSQLクエリを生成し、BigQueryに対してデータベース操作を行ってくれます。また、取得した結果に対してGeminiがデータの傾向などの考察も行ってくれるため、ユーザーはSQLクエリを記述しなくても、自然言語でチャット画面からデータ分析をインタラクティブに進めることができるようになります。 記事では、今回使用するStreamlitやVertex AIなどの技術に触れ

    【Streamlit × Vertex AI】自然言語でBigQueryのデータをクエリするチャットアプリを作成してみた - Qiita
    michael-unltd
    michael-unltd 2024/11/26
    “Streamlitを使って、Vertex AIを利用したチャットアプリ”
  • Looker Studio、BigQuery、Vertex AI を利用した生成 AI チャットボット搭載ダッシュボード | CTC 提供 Google Cloud サービス | 伊藤忠テクノソリューションズ

    はじめに 記事では、Google の提供する BI ツールLooker Studioと、データウェアハウスBigQuery、及び ML プラットフォームVertex AIを利用して、生成 AI チャットボットを搭載したダッシュボードを作成する手順について解説します。 全体イメージ

    michael-unltd
    michael-unltd 2024/11/25
    “Looker Studio、BigQuery、Vertex AI を利用した生成 AI チャットボット搭載ダッシュボード”
  • BigQueryの大本命!BigQuery データクリーンルームを実際に触ってみた

    こんにちは!Acompanyのマッケイです! 今回は、2023年8月にプレビュー版リリースされたBigQueryのデータクリーンルームについて、その概要を調べ、実際に触ってみたのでまとめてみました。 データクリーンルームとは データクリーンルームとは、プライバシーを保護しながら複数事業者のデータを連携できる環境のことです。 データの中でも特に個人情報といったセンシティブデータを連携するための環境として利用されることが多く、データクリーンルーム内ではデータは完全に保護されており、データを公開することなく共有、統合、分析などに行われます。 Analytics Hubとは? Analytics Hubは、組織間での大規模なデータ共有を可能とするデータ交換プラットフォームです。 Analytics Hubを利用することで、組織は煩雑なIAM管理やプロジェクト管理から解放され、「誰に」「どのようなデ

    BigQueryの大本命!BigQuery データクリーンルームを実際に触ってみた
    michael-unltd
    michael-unltd 2024/11/20
    “DataCleanRoom”