こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com 目次 目次 BERTopic とは 文書の埋め込み 文書のクラスタリング トピック表現 手法の概要まとめ BERTopic を試してみる インストール モデルのロード クラスタリングの実行 結果の確認 トピックごとの単語の重要度 トピックごとの文書を眺めてみる 次元削減手法・クラスタリング手法の変更 使ってみての所感 BERTopic とは BERTopic はいわゆるトピックモデリングを行うための OSS です。 トピックモデルは、文書集合から「トピック」は何が含まれ
電通の「事業グロース実践ウェビナー」では、日々進化するビジネスの最新の知見を発信しています。本連載では、事業グロース実践ウェビナー2022 by 電通People Driven Marketingから、注目のセッションをピックアップ!登壇者に改めてお話を伺います。 今回のテーマは、今注目を浴びつつある「MMM」(マーケティング・ミックス・モデリング)。「統計技術」を用いて、さまざまなマーケティング施策の効果を可視化し、将来のメディア施策の予算配分を最適化するアプローチです。 今回は電通グループの知見を踏まえた、実践的MMM導入のアプローチの解説です。統計プロフェッショナルである田中悠祐氏、MMMにマーケティングのプロとして向き合っている福田博史氏、グローバルで豊富なMMM実績を持ち、現在はデータ活用のソリューションカンパニーである電通クロスブレインで代表取締役を務める川邊忠利氏という、電通
以前「Ads carryover & shape effects付きのMedia Mix Modeling」という記事で取り上げたベイジアンMMMのtechnical report (Jin et al., 2017)ですが、当時RStanで実装されていたものが4年の時を経て時代の趨勢に沿う形でPythonベースのOSSとしてリリースされています。 それがLightweight MMM (LMMM)です。ベイジアンモデリング部分はNumPyroによるMCMCサンプラーで実装されており、さらにはモダンなMMMフレームワークにおいて標準的とされる予算配分の最適化ルーチンも実装されています。全体的な使い勝手としては、まだ開発途上の部分もあるので時々痒いところに手が届かない感があるものの、概ねRStanで実装したものと似たような感じに仕上がっているという印象です。 ということで、LMMMがどんな感
ビジネス系データサイエンスの多くは、時系列データです。 RのTSstudioパッケージを使うと、サクッと時系列解析できます。「TSstudio」の「TS」はTime Series(時系列)の略です。 RのTSstudioパッケージには、時系列データを分析する上で嬉しい機能がてんこ盛りです。 今回は、「時系列データならRのTSstudioパッケージでサクッと分析」というお話しをします。 TSstudioとは? RのTSstudioには、ざっくりした次のような機能があります。 時系列データの可視化 時系列データの分析 時系列の予測モデル構築 例えば、現在(2021年3月5日現在)は次のような時系列モデルを作ることができます。 ARIMAモデル(auto.arima含む) ETS(Error-Trend-Seasonality, Exponential smoothing state space
電通デジタルでデータサイエンティストをしている中嶋です。 この記事では、これまで紹介したLiNGAMの派生形であるVAR-LiNGAM(Vector AutoRegression-LiNGAM)について紹介したいと思います。これは通常のLiNGAMにベクトル自己回帰モデル(Vector AutoRegression Model: VAR Model)の考え方を取り入れ、時系列性の因果も考慮した因果探索を行うものです。 今回の記事では分量の関係からGoogle Colabでの実装は割愛し、元論文[1]を参考にしながら主に理論的な部分の紹介を行います。 定式化VAR-LiNGAMの定式化を説明する前に論文の形式に倣ってまずはLiNGAMとVARそれぞれの定式化をおさらいします。個別の説明に入る前に全体像を以下に示します。 LiNGAM LiNGAMとはLinear Non-Gaussian A
近年、広告施策における効果検証のニーズが高まっています。「本当にこの広告は効果があるのか?」とシビアに問われるようになり、データサイエンスのアプローチを用いた分析を導入する企業も増えています。 その際に問われるのは、データサイエンスの「質」です。より緻密で高度な効果検証を実現するために、どのようなアプローチが必要なのか。本連載では、社内のデータサイエンティストや研究者と共に統計や機械学習を用いた分析・ソリューション開発に注力してきた電通データ・テクノロジーセンターが、広告効果検証におけるデータサイエンスの活用法を紹介します。 初回は電通が長年研究を重ねてきた「因果推論(※1)を用いた広告効果検証」について、アドバイザーを務める慶應義塾大学の中村知繁研究員と、電通クロスブレインの永田大貴氏が語り合います。 ※1 因果推論:統計的なアプローチを用いて施策などの効果を推定する手法のこと。 因果推
こんにちは、リブセンスでデータサイエンティストをしている北原です。今回は平均処置効果の推定方法について紹介します。より具体的にはマッチングや重み付けといった共変量のバランシングを利用してバイアスの小さい推定をする方法を使い、複数得られた推定結果を絞り込んで意思決定に使える結論を得るまでの流れを扱います。サンプルデータを使って実際に推定を行い結果を解釈するところまで行います。コードはRです。完全にコンセンサスのとれた因果推論方法・手順はおそらく存在しないので、現時点でよいのではと考えている方法の紹介になります。 今回紹介する方法のポイントは、共変量のバランシングによってモデル依存性が低下することを利用して信頼できそうな推定結果を絞り込んでいるところにあります。手法やモデルによって様々な推定値が得られますが、バイアスの評価方法がないため採用すべきものがわからないという問題があります。しかし、共
この記事は、別にちょっとした理由があってR版Kerasで自前のDNNモデルをfine-tuningしたいと思ったので、調べて得られた知識をただまとめただけの備忘録です。既にやり方をご存知の方や、興味がないという方はお読みにならなくても大丈夫です。ただし「このやり方間違ってるぞ」「その理解は誤っている」的なご指摘は大歓迎どころか大募集中ですので、コメントなどでご一報ください。 Fine-tuningとは R版Kerasのドキュメントに書いてあること Rコードと実験結果 Fine-tuningとは 前々から雰囲気では理解していたんですが*1、雰囲気しか知らないが故に適切なまとめ方が分からないのでこちらのブログ記事から引用させていただくと、 ファインチューニングとは、学習済みモデルの一部もしくはすべての層の重みを微調整する手法です。転移学習では、学習済みモデルの重みを固定して用いますが、ファイン
Marketing mix modeling (MMM) is a process used to quantify the effects of different advertising mediums, i.e. media. It is also used to optimize the spend budget over these different mediums. The popular method of choice is multiple regression analysis. The model also takes into account other variables such as pricing, distribution points, and competitor tactics. This article will explain the math
RobynRobyn is an experimental, AI/ML-powered and open sourced Marketing Mix Modeling (MMM) package from Meta Marketing Science. A New Generation of Marketing Mix ModelingOur mission is to democratise modeling knowledge, inspire the industry through innovation, reduce human bias in the modeling process & build a strong open source marketing science community. Automated hyperparameter optimization w
What is Robyn?: Robyn is an experimental, semi-automated and open-sourced Marketing Mix Modeling (MMM) package from Meta Marketing Science. It uses various machine learning techniques (Ridge regression, multi-objective evolutionary algorithm for hyperparameter optimization, time-series decomposition for trend & season, gradient-based optimization for budget allocation, clustering, etc.) to define
この記事では、FacebookExperimentalのRobynの最初の概要を説明します。Facebookのマーケティングサイエンスチームはすでに優れたクイックスタートガイドと非常に詳細なページを作成しているので、記事を短く簡潔に保つようにしています。詳細な説明のために、あなたはより多く見つけることができるここで情報を。 tl; dr Facebook ExperimentalのRobynは、自動化されたマーケティングミックスモデリング(MMM)コードであり、現在ベータ版です。 これは、特徴変換のための2つのアドストック(幾何学的およびワイブル)およびS曲線変換(収穫逓減)手法を提供します。 時系列機能を考慮に入れるために、RobynはFacebookProphetを利用します。 FacebookのNevergrad勾配のない最適化プラットフォームを利用して、一連のパレート最適モデルソリ
背景 しつこいようですが、Marketing Mix Modeling(MMM)の話題です。 先日、こんな面白い論文を見つけました。 GoogleのResearcherによるMMMの論文(彼らはMedia Mix Modelingと呼んでいます)なのですが、ヒルの式を用いて広告のShape効果(Carveture効果)を推定するということをやっています。ここでShape効果・carveture効果とは、メディアの露出量に対する目的変数の反応を示す曲線を指すようで、ヒルの式とは: $$ H(x; K, S) = \frac{1}{1 + (\frac{x}{K})^{-S}} $$ であり、$K > 0$や$S > 0$となるパラメータによってLogやSigmoidの形状を表現することができるようです。 ヒルの式によってxがどのような形状となるか、実際に確認してみましょう。まずはヒルの式を以
せっかく手に入れた、ThinkPad 右クリックしづらいまま、使ってませんか? ThinkPad 5点トラックパッド(タッチパッド)の右クリックやスクロールボタンをやりやすくするには・・・ トラックパッドのドライバをアップデートする → ThinkPad トラックパッド ドライバ ダウンロード (レノボ公式サイト) 対応機種:X240,X240s,T440S,T440P,T540P,Yoga,Helix 対応OS:WINDOWS 8.1/ 8/ 7 私の周りにはThinkPad X240を使ってる友人が10人以上いますが トラックパッドの右クリックができなくていらいらする スクロールボタンがうまく認識してくれない と、ほとんどの友人が口をそろえて話していました。 そこで、トラックパッドのドライバを更新してもらったところ、 ものすごく、右クリックがしやすくなった。 ThinkPad X240
これは単なる備忘録です。「論文とサンプルコード読みながら試しました」以外に何も内容のない記事ですのでご注意ください。特に個々の式の変数の説明については個人的な備忘録ゆえ大半を端折りますので、仮に興味を持たれた方は適宜論文の本文をご参照下さい。読んだ論文はこちら。 Bayesian Methods for Media Mix Modeling with Carryover and Shape Effects – Google Research なお、この記事を書くに当たってid:ushi-goroshiさんのこちらのブログ記事シリーズを参考にさせていただきました。分かりやすくて大変助かりました、有難うございます。 それでは適当にやっていきます。 Ads carryover & shape effectsについて いわゆるMedia Mix Modeling (MMM)の肝は「広告が投下される
The Python Tutorial¶ Python is an easy to learn, powerful programming language. It has efficient high-level data structures and a simple but effective approach to object-oriented programming. Python’s elegant syntax and dynamic typing, together with its interpreted nature, make it an ideal language for scripting and rapid application development in many areas on most platforms. The Python interpre
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く