SlideShare a Scribd company logo
事業の進展と
データマネジメント体制の進歩
(+プレトタイプの話)
Tech x Marketing Conference 2021 #データマネジメント
2021/12/10
中山ところてん
1
自己紹介
• 中山心太(ところてん)
• @tokoroten
• 株式会社NextInt 代表
• 著書
• 仕事ではじめる機械学習
• データサイエンティスト養成読本ビジネス活用編
• お仕事
• 機械学習システム構築に関する技術顧問
• 各種スポットデータ分析業、ビジュアライズ
• 業務改善コンサルティング、DX支援
• 新規事業コンサルティング、PoC構築
• ゲームディレクター
2
宣伝
• 最近は大企業向けにDXの研修や講演をしています
3
問:データ分析者だけで稼げますか?
• No
• データ分析は既存ビジネスのサポート
• データ分析はそれ単体では稼ぐことはできない
• データ分析の人売りビジネスや、分析システムの販売を除く
• データ分析インフラも同様、それ単体では稼ぐことはできない
• あくまでも既存ビジネスのサポート
• どんなにすごいデータインフラを作ったとしても、
本業の売上が小さければ貢献額も小さい
4
問:データ分析の最適なコストは?
• データ分析による売り上げ増は30%程度が限度(感覚値)
• 個人の感想です、何かエビデンスがあるわけではありません
• ただし、伸びた売上が再投資されることで、複利で効いてくる
• データ分析者は事業担当者に対して5~10%(感覚値)
• 10人~20人に1人程度がどうしても現実的な数値
• それ以下の人数であれば、開発者が片手間で分析を行うことになる
• データ分析インフラの費用は、インフラ費の10%程度(感覚値)
• サーバが10台あるなら、1台が分析用、という感覚
• それ以下のビジネスであれば、本番環境に潜り込んで分析を行う
• このバランスを欠くと、とたんに費用体効果が悪くなる
• これがこの発表で言いたいことの80%くらいです
5
事業の進展段階
• プレトタイプ期
• スタートアップ期
• グロース期
• テックベンチャー期
• 大企業期
6
プレトタイプ期
• プレトタイプ=プレ+プロトタイプ
• プレプロトはリーンスタートアップよりも手前の手法
• プレプロトタイプは「何を作るべきか?」
• リーンは「どう作るべきか?」
• プロトタイプを作る前に、プロトタイプのモックを作る
• プレトタイプ作成をワークショップ化したものがSPRINT
• 製品を「作らないで売る」ことにより、
「顧客に痛み(支出)を感じても解決したい課題がある」こと
を確認する
• いくら市場調査をしても、市場調査は間違える
• 通称マクドナルドサラダ問題
7
マクドナルド サラダ問題
• マクドナルドは2006年に「サラダマック」を販売、大失敗
• https://www.itmedia.co.jp/business/articles/2007/25/news010.html
• 顧客アンケートを実施
• マクドナルドにヘルシーなサラダがあったら買いますか?
• 人はアンケートでは「ありたい姿」を想像して答える
• アンケートの回答は「実際の行動」とは異なる
• 市場調査による回答には「嘘」が含まれる
• 人間は合理的ではない、人はマックにジャンク・背徳感を求める
• だからこそ顧客が自分の意思で財布を開く「痛み」を伴う市場調査が必要
• アンケートの回答者は「観客」、身銭を切らない限り「顧客」ではない
8
プレトタイピング
• 様々な手法で「身銭」を切らせて、顧客がいることを確認する
• メカニカルターク型
• ピノキオ型(割愛)
• ニセの玄関型
• ファサード型
• YouTubeビデオ型(割愛)
• 一夜限り型(割愛)
• 潜入者型
• ラベル張替え型(割愛)
9
メカニカルターク型
• 機械仕掛けのトルコ人、チェスを指すロボットが18世紀に流行
• 実態は中に人が入って操作していた
• 転じて、「機械が行っているように見えるが実際は人手」
• Fold4U社
• 自動折り畳み機能付き乾燥機の市場テストをしたかった
• コインランドリーの乾燥機に、裏側から洗濯物を取り出せるよう改造
• 追加料金が支払われると、社長が洗濯物を折りたたむ
• 「顧客は2ドルを支払ってでも、洗濯物を畳んでほしい」と確認
• 翌日には「故障」の張り紙、社長は腕が上がらなくなる
10
ニセの玄関型
• あたかもその商品が存在するかのごとく広告やLPを出し、
それに反応した人の多さで、その製品を作るかどうかを判断
• 低予算旅行ガイドブック
• 雑誌の広告スペースに「低予算旅行向けガイドブックのカタログを1ド
ルで送る」という広告を出した
• その時点ではガイドブックも、カタログもなかった
• 十分な反応があったため、カタログを作り配布、実際に書籍も作成
• 現代ではクラウドファンディングがこの役割を一部担う
11
ニセの玄関型 Autify
• AutifyというAIを用いたソフ
トウェアテストの会社
• 「顧客のBurning needsを解
決する」という記事で有名に
• https://chikathreesix.com/bur
ning-needs
• 製品を作らないで、デモを
作ることで契約を取り付け
ることに成功
• 顧客ニーズを確認し、PMF
を実現
12
ファサード型(素晴らしい玄関型)
• ファサードとは、都市景観における玄関の重要性に関すること
• 機能する入口を作り、機能はするが裏側には何もないこと
• 「ニセの玄関」との違いは、購入ボタンが機能するかどうか
• 「ニセの玄関」の場合「売り切れです」と表示される
• カーズダイレクト
• 実際にクレジットカードで車が購入できるサイトを作ってみる(1999年の話)
• 一晩で4件の注文があり、サイトを即閉鎖
• 自動車をディーラーから4台仕入れて顧客に届けた(輸送費で赤字)
• 「ディーラーで車の実物を見なくとも購入する顧客がいること」を確認
• 一台も車を仕入れることなく、オンライン自動車販売事業が有望であることを確認
• グルーポンのMVP
• Wordpressでブログを作り「購入希望の方は電子メールをください」と書く
• 人数が集まったら、メールで割引クーポンを送付、これで市場があることを確認
13
潜入者型
• Upwell DesignのWalhub
• フックが付いた利便性の高いスイッチカバーを
発明
• 実際にIKEAに「勝手に」置いてみて、顧客の
反応をテスト、実際にレジに持ち込まれること
で、顧客に購入意思があることを確認
• 実際にIKEAに置いてみて実証実験を行った際
のビデオも存在
• https://vimeo.com/79313674
• 合法的に行うには?
• 個人経営のホームセンターや、書店、ネット
ショップなどに謝金付きでテストマーケティン
グの協力を依頼する
14
https://www.core77.com/posts/25912/upwell-
designs-ikea-hack-is-as-well-designed-as-the-
product-theyre-promoting-with-it-25912 より引用
製品を勝手にIKEAに置く
15
https://vimeo.com/79313674
プレトタイプで購入前に「身銭」を切らせる
• 「身銭」を切らせることで、顧客が本当に
解決したい課題を持っていることを確認す
る
• 「身銭」は必ずしも金銭でなくともよい
• メールアドレス、電話番号、デポジット、時間
• 余談:クラウドファンディングは何故流行
るのか?
• ニセの玄関+YouTube型のプレトタイプによる、
市場調査とマーケティングの融合
• デポジット、メールアドレスによる身銭の確認
• これで利用手数料で30%持っていくなら安いと
考えることもできる
16
プレトタイプ期の環境
17
• プレトタイプ期のデータ分析屋の仕事
• マーケットリサーチ、市場ボリュームの推定
• ビジネスを成立させるには、何が検証できればよいか?
• システムを作らないための実験計画
• 裏側でAIが動いている風の人力作業
• ユーザの反応の分析
• プレトタイプ期の分析システム
• そもそも事業のためのシステムすら無い
• ExcelやGoogle Spreadsheetで十分
プレトタイプ期のサービス構成図
18
スタートアップ期
• 月商100万円未満
• リーンスタートアップの中では、登
録ユーザをコホート分析することで、
ボトルネックを探すことを紹介
• ファネル分析を行いボトルネックを
見つけ、ボトルネックを叩き潰して
いく
• CPAと継続率、サービス利用率を監
視して、サービスをグロースさせて
いく
19
スタートアップ期の環境
• スタートアップ期のデータ分析屋の仕事
• コホート分析によるボトルネックの発見、継続率改善のための提案
• 広告管理画面に潜ってCPAの計算、広告経路別の行動分析
• サービス開発にともない、データベーススキーマがコロコロ変わるの
で、その追従
• スタートアップ期の分析システム
• 分析のために別のシステムを構築することが難しいので基本的にない
• 本番DBに直接潜って、SQLを直接叩く
• 本番環境に直接接続されたRe:dashやMetabase等の簡易なBIツール
• クソクエリでサービスが死んでも笑って許せる環境
20
スタートアップ期のサービス構成図
21
インターネッツ
本番サーバ
本番DB
本番環境
データ分析者
SQL直叩き
tail –f /var/log/hoge
BIツール
本番DBへ
直接接続
グロース期
• 月商1000万~5000万円くらい
• サービスを落とすことが許されなくなる
• 「分析クエリを流したら、DBが死にました」は許されない
• 負荷対策でフロントサーバが分散するようになる
• 開発者・デザイナ10~20人、データ分析者1人くらい
• データインフラに強いインフラエンジニアが1人
• 本番環境から分析環境への隔離が行われる
• 本番DBのリードレプリカの利用
• 本番DBのデイリースナップショットの利用
• ロードバランサが入り、サーバのアクセスログがログ専用DBへ
• AmazonのAthenaやRedshift、GCPのBigQuery等の利用
22
グロース期の環境
• データ分析屋の仕事
• BIツールを利用したダッシュボードの作成、モニタリング
• ユーザの離脱ポイントの分析、離脱予測から離脱原因の分析
• サービスのリアルタイム分析
• 他社レコメンドツールの導入や、マーケティングタグの導入
• 経路別LTVの計算、キャンペーンの効果測定
• 分析システム
• 本番DBのリードレプリカを利用したり、スナップショットDBを利用して、
本番環境に影響が出にくい分析環境を構築
• 本番DBへのSQL単体で収まらない複雑な分析をするために、分析用のサーバ
ができる
• 計算時間が長くなってくると、分析サーバ上での簡易的な中間テーブル(計算キャッ
シュファイル)の作成が行われ始める
23
グロース期のサービス構成図
24
インターネッツ
ロードバランサ
本番DB
本番環境
フロントサーバ
分析環境
Snapshot
DB
log DB
データ分析者
リードレプリカ
ディレクター
BIツール
分析サーバ
テックベンチャー期
• 1サービスあたり、月商で1億円以上
• 1チームの開発者25人、データ分析2人、マーケ2人程度 × nチーム
• データインフラ専門が2人程度(サービスあたり0.5人程度)
• プロダクト部門、分析部門とは別にマーケ部門ができる
• マーケ部門を前提としたツールの導入が必要になる
• 分析のためのクエリが書けない、プログラムの書けない人向けの、
リッチなBI、リッチなETLツール、他社と連携するための仕組みが必要
• マーケが他社と連携するためのETLツールの整備などが必要になる
• サービスの管理画面やユーザサポートへのデータ提供なども発生
• 中間テーブルの整備が必要になる
• 複数のサービスを同時に見る必要が出てくる
• RDB以外のデータが増えてくるので、表の形式にしたい
25
テックベンチャー期の環境
• データ分析屋の仕事
• 複数のサービス間の比較が可能なKPIやモニタリングの定義
• レコメンドシステムの構築
• データ分析そのものが価値を生み始める
• ネガティブデータの記録(表示したけどクリックされなかった)
• データパイプラインの安定性が要求される
• 分析システム
• 各サービスの生データを置くためのデータレイク層が整備
• S3やGCSなどの、オブジェクトストレージ
• 各種中間テーブルがDWH層として整備
• データレイクに対して、クソクエリを流して、クラウド破産を経験し、
コスト削減のために中間テーブルの整備を始めることが多い(と思われる)
• 分析サーバの中で動いていたバッチ類がETLツールに取り込まれ、
依存関係を考慮したパイプライン管理され始める
26
テックベンチャー期のサービス構成図
27
生データ
生データ
生データ
取り扱いやす
い中間データ
サービスA
サービスB
ETLバッチ
ETLバッチ
分析ストレージ環境
データレイク層
他社システム
DWH層
ETLバッチ
コピー
コピー
コピー
分析環境
BIツール
分析用サーバ
他社連携システム
マーケティング部門
ディレクター
データ分析者
大企業期
• 1サービスあたり月商10億円以上、それが複数
• データの使い方が極めて多岐になってくる
• ユーザの接点の多様化、オンラインデータとオフラインデータ
• 他社へのデータ提供、顧客への提供
• サービス管理画面、サポートセンターへのデータ提供等
• DWH層の肥大化でクラウド破産を経験
• DWH層に対して、直接操作をさせたくなくなる
• ユーザをランダムサンプリングした統計用の小規模なDWHの構築を模索
• 財務・経理・監査・アクセスコントロールがシステム化される
• 個人情報保護のためにETLの段階で氏名等の重要な個人情報は潰す
• データの不変性、一方向性が強く要求される
• データのアクセスコントロールが要求
誰が何を見るべきなのかを厳密に管理、不必要なデータにアクセスさせない
• データ分析インフラの予算を事業ごとに費用分配したい
28
大企業期のシステム構成
29
生データ
生データ
生データ
取り扱いやす
い中間データ
サービスA
サービスB
分析環境
データレイク層
他社システム
DWH層
コピー
コピー
コピー
用途別
データ
用途別
データ
用途別
データ
他社連携システム
BIツール
会計システム
データマート層
ETL
ETL
ETL
ETL
ETL
ETL
バックオフィス
ディレクター
データ分析者
3層構造のデータ基盤は何故必要なのか?
• 入力元の多様化
• 分析対象が1つのサービスではなくなる、横断分析が求められる
• 入力データがRDBだけではなくなる、文章、画像や音声など
• 利用方法に応じた出力形式の多様化
• BIツール用、単発分析用、レコメンド用、他社連携用……
• 利用者のスキルレベルの多様化
• SQLを叩けない人が増えてくる
• 利用者のアクセス権の多様化
• 見てはいけないものが人や部門によって異なる
• こういった多様性を吸収するには、3層構造が必要になる
30
データマネジメント体制の進展、まとめ
• 現在の理想像としては、データレイク、DWH、データマートの3層
構造があるが、ビジネスの状況によっては冗長すぎるし、維持コス
トがかかりすぎる
• これが必要なのは月商10億円(感覚値)を超えるようなサービスを
複数運営しているような企業
• ≒東証一部上場の企業
• だいたいはデータレイク+DWHで事足りる
• 中小ベンチャー企業はログDBとスナップショットDBをBQでホスティング、
BQ上で中間データを作成するだけで十二分なケースが多い
• 本当にそこまで重厚なシステムが必要ですか?
• データ分析による売り上げ増分に対して、適切な投資額ですか?
31
• 以下時間が余ったとき用の余談
32
余談:スタートアップと大企業どっちがいいの?
• データ分析がしたいなら大企業へ行け
• データ分析のためのインフラがちゃんとそろっている
• データ分析が成功したときのレバレッジが大きい
• 最先端の複雑な技術を使ってでも、1000億円の事業を1%改善しよう
• 何でも屋やマルチタレントになりたいならスタートアップ
• 簡単な技術を使って最速で成果を叩き出すことが求められる
• 何もないから全部やることになる
• データ分析で30%のサービス改善が求められるし、
結局、30%以上の改善が求められるので、企画業をやることになる
• 最先端の技術は求められない、売り上げを上げろ
33
余談:採用の順番
• データ分析回りは仕事のパイプラインが深く、専門性が高いので、分業が必要
• インフラ→アナリスト→コンサル→データサイエンティストの順での採用を推奨
• レポートの定常化、自社の分析、施策設計、機械学習による分析、機械学習の利用の順
• 逆順で採用すると、インフラが無いので何もできなくて、成果が何も出ないことになる
34
コンサルタント
集計・ビジュアラ
イズアナリスト
データ
サイエンティスト
アプリケーション
エンジニア
データインフラ
エンジニア
自社の事業分析 〇
改善箇所の特定、費用対効果検討 〇 〇
現在取れているデータの収集 △ △ 〇 〇
課題の定義 〇 〇 〇
データ収集基盤の構築 △ 〇
プロトタイプの作成 〇 〇 △ 〇
機械学習チューニング 〇 △
運用のための各種システム構築 〇 〇 〇
本番環境での機械学習の利用 〇 〇

More Related Content

事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)