生成AI時代にあえて「手を動かしてデータを見る」必要性とは?
様々な企業で「データ利活用」が課題として取り上げられる中、現場では「データは確かにあるしツールも導入したが、何をどうすればよいかわからない」というお悩みを持つ方も少なくないかと思います。
一方、ChatGPTをはじめとする生成AIが急速に発展している中で、「データ分析も生成AIに任せてしまおう」という主張も見られます。確かにChatGPTをはじめとする大規模言語モデルや生成AIは、私たちの質問にすぐに答えてくれますし、要件を揃えて指示を与えれば、それに沿った結果を返してくれます。
ビジネスでよく用いられるスプレッドシート形式のデータ(表形式データ・テーブルデータ)は、現在のAIの能力であれば簡単に理解し、そこから示唆を出すように指示すれば「それっぽい」示唆を出してくることもあるでしょう。
反面、生成AIが出す答えの中には、必ずしも正しいとは言えない内容が含まれることがあります。ハルシネーションと呼ばれるこの現象は、十分な知識や明確な判断基準を持った人間でないと、生成AIの回答が正しいかどうかわからないということでもあります。また、私たちが「正しさ」を判断できるような問題であったとしても、「AIが出した回答」をより「正しいもの」として錯覚してしまう現象も報告されています。
実際に教育関連の研究では、「算数」の問題を解いた生成AIの答えを生徒に見せたところ、本当は正しくない回答に対して「正しい」と答えてしまう生徒が一定数現れうる、という実験結果が出たという報告があります。また、学術論文誌によっては生成AIを使った論文投稿を避ける声明を出している場合もあります。
【例】「生成AIは事実ベースや計算に関するタスクでは優れているべきだ」と考えている様子がうかがえる論文
The learners were particularly surprised when the genAI output was incorrect for the multiplication problem, since they thought it should at least be capable of what a calculator could do. One learner commented, “It probably is [correct], but it is a very big number for me to be sure. Anyways, calculators can easily get the answers and have for many years.” After the answer was revealed, another student found it “very shocking, [because she] thought there was no chance it would get a math question wrong.”
(学生たちは、自分たちが少なくとも電卓で正しく計算できると思っていた掛け算の問題について、生成AI(genAI)の出力が誤っていたことに特に驚いていた。ある学生のコメントでは、「たぶん正しいと思うが、値が大きすぎて自信が持てない。とにかく、何年も前から電卓で簡単に答えを出せる問題のはずだ」とコメントしました。答えが間違っていることが明らかになると、別の学生は「(生成AIが)数学の問題を間違えるなんて可能性があると思わなかった」とショックを受けていた。)
『Children’s Overtrust and Shifting Perspectives of Generative AI』(Jaemarie Solyst, Ellia Yang, Shixian Xie, Jessica Hammer, Amy Ogan, Motahhare Eslami)より
このようなリスクを鑑み、教育・研究領域では、生成AIの「利便性」と「危険性」の両方を評価しながら、慎重な見方・方針をとる事例が見られます。実ビジネス、とりわけデータの分析においても、指示した通りの分析を生成AIが実施できているのか、その結果が正しいのかを、プロセスを含めて確認・検証ができるようになるためには、多少時間がかかってでも、人が自ら手を動かしてデータを紐解いていく必要があると私は考えています。
ダッシュボードを眺めていても、データは何も語らない
読者の皆さんも、なんらかの形で日々データに触れているかと思います。たとえば日々、Webサイトのコンバージョン率やSNSのインプレッション、販売売上の日次推移などをモニタリングしている方もいるのではないでしょうか。
同時に、皆さんの仕事はただデータに触れる、データを眺めることではないはずです。日々更新されるデータから、なんらかの意思決定の根拠を導き出すことが必要になってきます。昨今はBIツールも充実し、ビジネスサイドでも一定のリテラシーを持てば自由にダッシュボードを作成できるようになりました。これ自体は素晴らしい変化だと思うのですが、筆者の受けたご相談の中には、社内で積極的にダッシュボードを開発した結果、ダッシュボードが乱立した状態になってしまい「どのダッシュボードから何がわかるのか、わからない」という本末転倒な状態となってしまったお客様もいらっしゃいました。

こうした事態を避けるためにも、ビジネス現場それぞれで成すべき意思決定が何か、その意思決定をするために見るべきデータとは何かを、しっかりと見定めたうえで、分析やダッシュボードの設計を進める必要があると私は考えています。
「分析」とは「比較」である
では、どうすればデータからビジネスインパクトのある結果を見出すことができるでしょうか。そのヒントはビジネス書にもあるようです。安宅和人さんの書籍『イシューからはじめよ』では「分析」というアプローチについて、以下のように述べています。
「分析とは何か?」
僕の答えは「分析とは比較、すなわち比べること」というものだ。分析と言われるものに共通するのは、フェアに対象同士を比べ、その違いを見ることだ
安宅和人『イシューからはじめよ 改訂版』英治出版 P158より
私はこの点について、データを分析するときには、興味のある対象を「適切な比較基準」を設けて比べる、ということが重要と解釈しています。実務のデータ分析では、この「比較基準」をいかに定めるかが、データ利活用の大局を左右します。この視点があって初めて、冒頭で述べた「生成AI」をデータ分析の領域で正しく活用することができます。
市場分析を例にデータを「分析」する
そこで本連載では、質の高いデータソースを例として「データを分析=比較する」ことをテーマに、皆さんの企業で保有しているデータでは何をどのように「分析」できるのか、自身の持っている仮説は、どのようなデータを測定・取得することで検証できるのか、それを使ってどのように意思決定をするべきか等について、ヒントをお伝えできればと思います。
なお、連載内でデータソースとして使用するのは、マクロミルの消費者購買履歴データ「QPR」です。QPRは全国3.5万人の消費者モニターに、実際に購入した商品を記録してもらい、幅広い業種業態の購入情報を「いつ、どこで、誰が、何を、いくつ、いくらで、誰のために」という粒度で把握することができます。総務省統計局の人口推計に合わせた消費者サンプルで設計されており、消費者の「購買」という行動について、国内有数の情報の量・質を揃えています。
次回以降、QPRを用いて下記のようなデータ分析についてご紹介していきます。
次回から紹介する分析
第2回 「時系列の変化」を比較する「トレンド分析」
第3回 「買われ方」を比較する「間口・奥行き分析」
第4回 「1回きりの人と買い続ける人」を比較する「トライアル&リピート分析」
第5回 「購入量によるブランドの特徴」を比較する「購入量層分析」
第6回 「一緒に買われる商品」を比較する「期間併買分析」
第7回 「買っている商品の変化」を比較する「スイッチ分析」