ビッグデータは死んだっぽい
「ビッグデータは死んだ(Big Data is Dead)」というが波紋を広げている。AIトレンドが興隆する中、エンタープライズITや事業戦略を牽引するバズワードの賞味期限切れが迫っているようだ。
「ビッグデータは死んだ(Big Data is Dead)」というブログが波紋を広げている。AIトレンドが興隆する中、エンタープライズITや事業戦略を牽引するバズワードの賞味期限切れが迫っているようだ。
ブログの著者は、Google BigQueryのプロダクトリーダー、エンジニアリングリーダー、創業エンジニアを務めたJordan Tigani。Google BigQueryの創業エンジニア。いわゆる「ビッグデータ」を扱うBigQueryに長く関わった人物である。
彼はビッグデータというバズワードが喧伝される一方で、ほとんどのプレイヤーはビッグデータを実際に扱っていなかった、と述べている。「私が学んだ最も驚くべきことは、『Big Query』を使っている人のほとんどが、実際にはビッグデータを持っていないことでした」。
Tiganiの論旨は以下の通り。
彼がBigQueryのチームに在籍していたとき、「大半の顧客は、データストレージの総容量が1テラバイト以下だった。サービスを多用する顧客の間では、データ保存サイズの中央値は100GBをはるかに下回っていた」と言う。「数年前、私はBigQueryのクエリを分析し、年間1000ドル以上使用する顧客を対象にした。90%のクエリが100MB以下のデータしか処理していませんでした」「巨大なデータサイズを持つ顧客は、ほとんど膨大な量のデータをクエリすることはありません」
また、彼が業界アナリスト(Gartner、Forresterなど)と話したとき、彼がBigQueryを通じて持っていた洞察は強化されたようだ。大半の企業は1テラバイト以下のデータウェアハウスしか持っていない、とアナリストは言ったようだ。データウェアハウスのデータサイズは100GBが適正というのが「一般的な意見」だったようだ。
彼は投資家のリサーチも参照した。「投資家のポートフォリオに含まれる最大のB2B企業は約1テラバイトのデータを持ち、最大のB2C企業は約10テラバイトのデータを持っていることがわかった。しかし、大半はもっと少ないデータ量だった」。
ここから分かることは、ほとんどの事業会社は大量のデータを必要とせず、明確で信頼できるデータを収集して手元で分析できれば十分である、ということだ。本当にデータの使用を改善したいのであれば、データの入り口での品質を改善する方が効果的なようだ。
他方、現在ブームのさなかにある機械学習(ML)は大量のデータを扱わなければメインストリームのゲームをプレイできない。ほとんどのプレイヤーにとってはビッグデータは無縁なものの、競争の先端にいるプレイヤーにとっては依然としてビッグデータは必要不可欠なピースである。
ビッグデータブーム時代に様々な企業の中でデータ組織が作られた。コンサルティング・ファームのような外注先でも同様だ。だが、事業会社が実際にはビッグデータを扱っていないことを踏まえ、さらにMLのブームにさらされていることを考えると、「一時代の終焉」の臭いがする。そんなブログだった。