SlideShare a Scribd company logo
坪坂正志
mail : m.tsubosaka(at)gmail(dot)com
紹介論文
   Finding the right consumer : Optimizing for
    conversion in display advertising campaigns
     Yandong Liu(Carnegie Mellon), Sandeep Pandey,
     Deepak Agarwal, Vanja Josifovski(Yahoo!
     Research)
 ユーザの過去の行動履歴からコンバージョ
  ンを起こしそうなユーザを発見する
 コンバージョンを起こしそうなユーザを発
  見することにより、適切なユーザに対して
  広告を届けることができる
コンバージョンとは
   ECサイトで物を購入する、不動産サイトで
    資料請求を行うなどのウエブサイトで獲得
    できる最終的な成果
Web広告について
   2011年で8000億ドルの売上見込み (論文よ
    り)
     日本では約8062億円
      ○ http://www.dentsu.co.jp/news/release/2012/pdf/201
        2017-0223.pdf
   主にブランディング目的のものとダイレク
    トマーケティングの2つが存在する
ブランディング広告
   多くのユーザに対して新商品やブランドを
    認知してもらうために行われる広告
     ポータルトップなどで主に出稿される
     従来のテレビCM的な使われ方をする
ダイレクトマーケティング
   ユーザに対して、商品購入などの直接的な反応を
    獲得する
     CTR (クリック率), CVR (コンバージョン率)などが重視さ
      れ、商品に対して興味を持っているユーザに対して配信
      を行う
     商品に対して興味を持っているユーザを推定することが
      重要になる
興味ユーザに対しての配信
   商品に興味を持つユーザに対して広告を配信するには2つ
    の方法がある
   その商品に対して興味を持っている人が行いそうな行動
    を現在起こしているユーザに配信する
     例えばファッションの広告であれば
     ファッション系のサイトを訪れているユーザに出稿する
     ファッション関連の記事に対して広告を配信する(コンテンツ連
      動型広告)
     ファッション関係の検索を行なっているユーザに対して配信す
      る(検索連動型広告)
   ユーザの過去行動をもとに広告を配信する
     例えば過去にファッションサイトを訪れて、検索を行ったこと
     のあるユーザに対してはニュースサイトでも広告を配信する
     (ターゲティング広告)
   これら2つの方法は両方を合わせることもできる
ターゲティング広告
 ユーザの過去行動をもとにその広告に興味を
  持つであろうユーザに対して広告を配信する
 既存の手法としては“Finance, Investment”など
  のカテゴリベースでの興味を推定するもの
     ex Large-scale behavioral targeting, KDD 2009
   広告レベルで推定するものがある
     ex How much can behavioral targeting help online
     advertising, WWW 2009
従来研究
   クリックを最大化するもの
     Large-scale behavioral targeting, KDD 2009
     How much can behavioral targeting help online advertising,
      WWW 2009
     Learning relevance from a heterogeneous social network
      and its application in online targeting, SIGIR 2011
   コンバージョンを最大化するもの
     Large-scale customized models for advertisers, ICDM
      2010
     Learning to Target: What Works for Behavioral Targeting,
      CIKM 2011
従来研究の課題
 従来の研究ではカテゴリごと、広告キャン
  ペーンごとなど独立にモデルを作成してい
  た
 多くの場合はコンバージョンしたユーザと
  しなかったユーザの二値分類の問題に落と
  す
 このため新規の広告キャンペーンに対して
  はモデルの作成ができないという欠点があ
  る
本研究の成果
   本研究では広告キャンペーンごとのlocal
    modelに加えて、他のキャンペーンの情報も
    用いたglobal modelを用いることにより、コ
    ンバージョンの推定精度が向上した
Notation
 𝑥 𝑢 ∈ 𝑅 𝑚 : ユーザ𝑢を表すベクトル
 𝑧 𝑐 ∈ 𝑅 𝑛 : キャンペーン𝑐を表すベクトル
 𝑓(𝑥 𝑢 , 𝑧 𝑐 , 𝑐) : ユーザ𝑢がキャンペーン𝑐に関し
  てコンバージョンする傾向
     𝑓(𝑥 𝑢 , 𝑧 𝑐 , 𝑐)を学習するのがこの論文での課題
User representation
   クエリ、ページ閲覧、広告クリックなどを
    テキストに変換してBOW表現する。
     ただし頻度情報は無視して0/1で表す
Campaign representation
   広告キャンペーンは2つの要素から構成され
    る
     広告のランディングページ(メタデータ)
     キャンペーンでコンバージョンしたユーザ群
Modeling approaches
 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑔 𝑥 𝑢 , 𝑧 𝑐 + 𝑓𝑐 (𝑥 𝑢 )
 と分解する
     𝑔はキャンペーンのメタデータにしかよらない関
      数であり
     𝑓はキャンペーン𝑐に固有の値である
   𝑓の学習法としては以下の3つが考えられる
     Linear SVM
     Logistic regression
     Naive Bayes
Local model using seed sets
 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑓𝑐 (𝑥 𝑢 )の場合を考える
 これはキャンペーンのメタ情報を使わずに、
  キャンペーン𝑐に対してコンバージョンした
  ユーザとしなかったユーザを使って学習す
  ることに相当する
 SVM, Logistic regressionの場合は
                 𝑇
     𝑓𝑐 𝑥 𝑢 = 𝑥 𝑢 𝛽となり、この𝛽を学習する
Global model using the campaign
metadata
 キャンペーンのランディングページなどの
  メタ情報を使って、最適化を行う
 手法としては以下の2つを考える
 Merge-based global model
 Interaction-based global model
Merge-based global model
 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑥 ′𝑢 𝛽とモデル化する
 キャンペーンごとの差異を無視して、一般
  的にコンバージョンしやすいユーザを選択
  することになる
Interaction-based global model
 𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑥 ′𝑢 𝐷𝑧 𝑐 + 𝑥 ′𝑢 𝛽とモデル化する
 ここで行列𝐷は𝑚 × 𝑛行列でユーザ特徴量と
  キャンペーン特徴量間の重みを表す


   このままでは𝑚が大きすぎるので変数選択する
     𝑞 𝑖𝑐 を特徴量𝑖を持ったユーザがキャンペーン𝑐にコン
      バージョンする確率とする
     𝑞 𝑖. を特徴量𝑖を持ったユーザがコンバージョンする確
      率とする
                             𝑞
     KLダイバージェンス 𝑐 𝑞 𝑖𝑐 log 𝑖𝑐 の上位を選択する
                            𝑞 𝑖.
Global + Local model



 Interaction-based global modelとLocal modelを
  合わせる
 学習法としては
     𝜆 𝑐 = 𝜆として同時学習を行う
     初めにglobal modelを学習して、個別にlocal modelを
     学習する
   の2つが考えられる
Experiments
 2011年のAdnetworkからランダムに選んだ
  10個のキャンペーンを利用
 コンバージョンの予測対象となったユーザ
  は300,000以上
 コンバージョンしなかったユーザはした
  ユーザに比べて非常に多いので、各キャン
  ペーンにつきランダムに30000ユーザを選択
  して負例とする
キャンペーンのサイズ
   キャンペーン中のコンバージョンの数は数
    十個から数千個とキャンペーンごとに大き
    く異なる
学習アルゴリズムによる違い
   Local modelに関して3つの学習アルゴリズムの比較を
    行った
   SVMとLogisticはほぼ同じ性能、Naive-Bayesはあまりよ
    くない
     この後の実験ではSVMを利用する
学習器のSensibility
   SVM, Logisticは正則化定数によって精度が
    大きく変わる
     Naive Bayesの方はそれに比べてRobust
データサイズと精度の関係




   同一サイズのキャンペーンにおいてはデータを
    増やすほど精度が高くなる
     Smallキャンペーンの方がLargeキャンペーンより精
     度が高いのはSmallの方がコンバージョンの定義が商
     品を注文するなど厳格でありLargeに比べてノイズが
     少ないため
Global model
   Medium, Largeサイズのキャンペーンにおいては
    データが少ないときにはmergeモデルの方が高い精
    度となった
     smallに関してはデータが少ない時もLocalの方が精度が高
      い
     ただ既存のキャンペーンのコンバージョンデータをデー
      タがないときに利用することによって初期のcold-start問
      題を防げる
Global model (Large)
Interaction-based global model
 ユーザの特徴量は特徴選択により3000に絞っ
  た
 キャンペーンの方はキャンペーンごとに50個し
  かないので特に特徴選択は行わなかった
 いずれのサイズにおいてもInteraction-based
  modelの方が高い精度になった
Global + Local モデル
   いずれのキャンペーンにおいてもGlobal +
    Localモデルの方がGlobalモデルよりも高い
    精度となった
まとめ
 本研究では広告キャンペーンのランディン
  グページなどのメタ情報を使うことにより、
  広告キャンペーンのコンバージョンデータ
  がないときにも有効なモデルを提案した
 今回の研究は広告に注力したが、この手法
  はコンテント推薦、検索のパーソナライズ
  などに利用できると考えられる
その他広告に関する話題
   Stanford大学においてYahoo! Researchの研
    究者がComputational advertisingの講義を行
    なっている
     http://www.stanford.edu/class/msande239/
   カンファレンスで言うと
     WSDM, WWW, KDD, CIKM, SIGIR, ICDM
その他広告に関する話題
(検索連動型広告)
   検索単語に対して、入札され
    た広告を表示する
   検索エンジン側の期待収益と
    しては(期待CTR) * (bid価格)と
    なる
   収益を高めるためCTRの予測
    を高い精度で行う必要がある
     広告の表示位置や同時に表示され
      ている物同士の関係を考慮したク
      リックモデルの構築が必要
     Relational click prediction for
      sponsored search, WSDM 2012
     Web-scale bayesian click-through
      rate prediction for sponsored
      search, ICML 2011
その他広告に関する話題
(コンテンツ連動型広告)
 広告が表示されている面と関連している広
  告を表示する
 面と類似性が高い広告を高速かつ高い精度
  で取得できる必要がある
     Fast top-k retrieval for model based
      recommendation, WSDM 2012
     A hidden class page-ad probability model for
      contextual advertising, WWW 2008 (Workshop)
     A semantic approach to contextual advertising,
      SIGIR 2007
その他広告に関する話題
   ユーザに対して広告を配信する際に1impsにい
    くらまで支払ってよいかを決定して、なるべく
    収益が多くなるようにする
     Real-time bidding algorithms for performance-based
     display ad allocation, KDD 2011
   複数のアドネットワークおよび検索連動型広告
    などに対して広告を配信した時に、各媒体がコ
    ンバージョンにどの程度寄与したかをデータか
    ら分析する
     Data-driven multi-touch attribution models, KDD 2011

More Related Content

WSDM 2012 勉強会資料

  • 2. 紹介論文  Finding the right consumer : Optimizing for conversion in display advertising campaigns  Yandong Liu(Carnegie Mellon), Sandeep Pandey, Deepak Agarwal, Vanja Josifovski(Yahoo! Research)  ユーザの過去の行動履歴からコンバージョ ンを起こしそうなユーザを発見する  コンバージョンを起こしそうなユーザを発 見することにより、適切なユーザに対して 広告を届けることができる
  • 3. コンバージョンとは  ECサイトで物を購入する、不動産サイトで 資料請求を行うなどのウエブサイトで獲得 できる最終的な成果
  • 4. Web広告について  2011年で8000億ドルの売上見込み (論文よ り)  日本では約8062億円 ○ http://www.dentsu.co.jp/news/release/2012/pdf/201 2017-0223.pdf  主にブランディング目的のものとダイレク トマーケティングの2つが存在する
  • 5. ブランディング広告  多くのユーザに対して新商品やブランドを 認知してもらうために行われる広告  ポータルトップなどで主に出稿される  従来のテレビCM的な使われ方をする
  • 6. ダイレクトマーケティング  ユーザに対して、商品購入などの直接的な反応を 獲得する  CTR (クリック率), CVR (コンバージョン率)などが重視さ れ、商品に対して興味を持っているユーザに対して配信 を行う  商品に対して興味を持っているユーザを推定することが 重要になる
  • 7. 興味ユーザに対しての配信  商品に興味を持つユーザに対して広告を配信するには2つ の方法がある  その商品に対して興味を持っている人が行いそうな行動 を現在起こしているユーザに配信する  例えばファッションの広告であれば  ファッション系のサイトを訪れているユーザに出稿する  ファッション関連の記事に対して広告を配信する(コンテンツ連 動型広告)  ファッション関係の検索を行なっているユーザに対して配信す る(検索連動型広告)  ユーザの過去行動をもとに広告を配信する  例えば過去にファッションサイトを訪れて、検索を行ったこと のあるユーザに対してはニュースサイトでも広告を配信する (ターゲティング広告)  これら2つの方法は両方を合わせることもできる
  • 8. ターゲティング広告  ユーザの過去行動をもとにその広告に興味を 持つであろうユーザに対して広告を配信する  既存の手法としては“Finance, Investment”など のカテゴリベースでの興味を推定するもの  ex Large-scale behavioral targeting, KDD 2009  広告レベルで推定するものがある  ex How much can behavioral targeting help online advertising, WWW 2009
  • 9. 従来研究  クリックを最大化するもの  Large-scale behavioral targeting, KDD 2009  How much can behavioral targeting help online advertising, WWW 2009  Learning relevance from a heterogeneous social network and its application in online targeting, SIGIR 2011  コンバージョンを最大化するもの  Large-scale customized models for advertisers, ICDM 2010  Learning to Target: What Works for Behavioral Targeting, CIKM 2011
  • 10. 従来研究の課題  従来の研究ではカテゴリごと、広告キャン ペーンごとなど独立にモデルを作成してい た  多くの場合はコンバージョンしたユーザと しなかったユーザの二値分類の問題に落と す  このため新規の広告キャンペーンに対して はモデルの作成ができないという欠点があ る
  • 11. 本研究の成果  本研究では広告キャンペーンごとのlocal modelに加えて、他のキャンペーンの情報も 用いたglobal modelを用いることにより、コ ンバージョンの推定精度が向上した
  • 12. Notation  𝑥 𝑢 ∈ 𝑅 𝑚 : ユーザ𝑢を表すベクトル  𝑧 𝑐 ∈ 𝑅 𝑛 : キャンペーン𝑐を表すベクトル  𝑓(𝑥 𝑢 , 𝑧 𝑐 , 𝑐) : ユーザ𝑢がキャンペーン𝑐に関し てコンバージョンする傾向  𝑓(𝑥 𝑢 , 𝑧 𝑐 , 𝑐)を学習するのがこの論文での課題
  • 13. User representation  クエリ、ページ閲覧、広告クリックなどを テキストに変換してBOW表現する。  ただし頻度情報は無視して0/1で表す
  • 14. Campaign representation  広告キャンペーンは2つの要素から構成され る  広告のランディングページ(メタデータ)  キャンペーンでコンバージョンしたユーザ群
  • 15. Modeling approaches  𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑔 𝑥 𝑢 , 𝑧 𝑐 + 𝑓𝑐 (𝑥 𝑢 )  と分解する  𝑔はキャンペーンのメタデータにしかよらない関 数であり  𝑓はキャンペーン𝑐に固有の値である  𝑓の学習法としては以下の3つが考えられる  Linear SVM  Logistic regression  Naive Bayes
  • 16. Local model using seed sets  𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑓𝑐 (𝑥 𝑢 )の場合を考える  これはキャンペーンのメタ情報を使わずに、 キャンペーン𝑐に対してコンバージョンした ユーザとしなかったユーザを使って学習す ることに相当する  SVM, Logistic regressionの場合は 𝑇  𝑓𝑐 𝑥 𝑢 = 𝑥 𝑢 𝛽となり、この𝛽を学習する
  • 17. Global model using the campaign metadata  キャンペーンのランディングページなどの メタ情報を使って、最適化を行う  手法としては以下の2つを考える  Merge-based global model  Interaction-based global model
  • 18. Merge-based global model  𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑥 ′𝑢 𝛽とモデル化する  キャンペーンごとの差異を無視して、一般 的にコンバージョンしやすいユーザを選択 することになる
  • 19. Interaction-based global model  𝑓 𝑥 𝑢 , 𝑧 𝑐 , 𝑐 = 𝑥 ′𝑢 𝐷𝑧 𝑐 + 𝑥 ′𝑢 𝛽とモデル化する  ここで行列𝐷は𝑚 × 𝑛行列でユーザ特徴量と キャンペーン特徴量間の重みを表す  このままでは𝑚が大きすぎるので変数選択する  𝑞 𝑖𝑐 を特徴量𝑖を持ったユーザがキャンペーン𝑐にコン バージョンする確率とする  𝑞 𝑖. を特徴量𝑖を持ったユーザがコンバージョンする確 率とする 𝑞  KLダイバージェンス 𝑐 𝑞 𝑖𝑐 log 𝑖𝑐 の上位を選択する 𝑞 𝑖.
  • 20. Global + Local model  Interaction-based global modelとLocal modelを 合わせる  学習法としては  𝜆 𝑐 = 𝜆として同時学習を行う  初めにglobal modelを学習して、個別にlocal modelを 学習する  の2つが考えられる
  • 21. Experiments  2011年のAdnetworkからランダムに選んだ 10個のキャンペーンを利用  コンバージョンの予測対象となったユーザ は300,000以上  コンバージョンしなかったユーザはした ユーザに比べて非常に多いので、各キャン ペーンにつきランダムに30000ユーザを選択 して負例とする
  • 22. キャンペーンのサイズ  キャンペーン中のコンバージョンの数は数 十個から数千個とキャンペーンごとに大き く異なる
  • 23. 学習アルゴリズムによる違い  Local modelに関して3つの学習アルゴリズムの比較を 行った  SVMとLogisticはほぼ同じ性能、Naive-Bayesはあまりよ くない  この後の実験ではSVMを利用する
  • 24. 学習器のSensibility  SVM, Logisticは正則化定数によって精度が 大きく変わる  Naive Bayesの方はそれに比べてRobust
  • 25. データサイズと精度の関係  同一サイズのキャンペーンにおいてはデータを 増やすほど精度が高くなる  Smallキャンペーンの方がLargeキャンペーンより精 度が高いのはSmallの方がコンバージョンの定義が商 品を注文するなど厳格でありLargeに比べてノイズが 少ないため
  • 26. Global model  Medium, Largeサイズのキャンペーンにおいては データが少ないときにはmergeモデルの方が高い精 度となった  smallに関してはデータが少ない時もLocalの方が精度が高 い  ただ既存のキャンペーンのコンバージョンデータをデー タがないときに利用することによって初期のcold-start問 題を防げる
  • 28. Interaction-based global model  ユーザの特徴量は特徴選択により3000に絞っ た  キャンペーンの方はキャンペーンごとに50個し かないので特に特徴選択は行わなかった  いずれのサイズにおいてもInteraction-based modelの方が高い精度になった
  • 29. Global + Local モデル  いずれのキャンペーンにおいてもGlobal + Localモデルの方がGlobalモデルよりも高い 精度となった
  • 30. まとめ  本研究では広告キャンペーンのランディン グページなどのメタ情報を使うことにより、 広告キャンペーンのコンバージョンデータ がないときにも有効なモデルを提案した  今回の研究は広告に注力したが、この手法 はコンテント推薦、検索のパーソナライズ などに利用できると考えられる
  • 31. その他広告に関する話題  Stanford大学においてYahoo! Researchの研 究者がComputational advertisingの講義を行 なっている  http://www.stanford.edu/class/msande239/  カンファレンスで言うと  WSDM, WWW, KDD, CIKM, SIGIR, ICDM
  • 32. その他広告に関する話題 (検索連動型広告)  検索単語に対して、入札され た広告を表示する  検索エンジン側の期待収益と しては(期待CTR) * (bid価格)と なる  収益を高めるためCTRの予測 を高い精度で行う必要がある  広告の表示位置や同時に表示され ている物同士の関係を考慮したク リックモデルの構築が必要  Relational click prediction for sponsored search, WSDM 2012  Web-scale bayesian click-through rate prediction for sponsored search, ICML 2011
  • 33. その他広告に関する話題 (コンテンツ連動型広告)  広告が表示されている面と関連している広 告を表示する  面と類似性が高い広告を高速かつ高い精度 で取得できる必要がある  Fast top-k retrieval for model based recommendation, WSDM 2012  A hidden class page-ad probability model for contextual advertising, WWW 2008 (Workshop)  A semantic approach to contextual advertising, SIGIR 2007
  • 34. その他広告に関する話題  ユーザに対して広告を配信する際に1impsにい くらまで支払ってよいかを決定して、なるべく 収益が多くなるようにする  Real-time bidding algorithms for performance-based display ad allocation, KDD 2011  複数のアドネットワークおよび検索連動型広告 などに対して広告を配信した時に、各媒体がコ ンバージョンにどの程度寄与したかをデータか ら分析する  Data-driven multi-touch attribution models, KDD 2011