タグ

Data-Analysisに関するmasa8aurumのブックマーク (13)

  • 保守性と生産性を両立する分析用SQL構造化の4原則 〜 構造化プログラミングの考え方をSQLに適用する

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータマーケティングソリューション(以下、DMS)を開発しているデータアナリストの薄田です。 みなさんは、中間テーブル同士が複雑に絡み合い変更しようにも影響範囲を推定できず、手がつけられない分析パイプラインの保守で苦労された経験はないでしょうか? 私のチームでは数千行におよぶ分析用SQLをリファクタリングして、保守性と生産性を両立する分析パイプラインに生まれ変わらせることができました。 この記事ではリファクタリングを通して確立した、分析用SQLを構造化するための4原則を紹介します。4原則を意識しながらSQLを書くことで、高凝集・疎結合な分析パイプラインを作ることができます。 この記事では凝集度と結合度

    保守性と生産性を両立する分析用SQL構造化の4原則 〜 構造化プログラミングの考え方をSQLに適用する
  • ブログ解析による日向坂46メンバの相関図作成 - myaun’s blog

    はじめに 記事でやったこと 解析方法 解析に使用したコード 1. ブログを収集 2. 各メンバのブログ文章から他メンバへの言及を抽出 3. メンバ間の関係を可視化 考察 4. メンバーから番組MCオードリーへの関係を可視化 考察 終わりに はじめに 日2019/7/28 25:05-より放送予定の日向坂46の冠番組「日向坂で会いましょう」にてメンバーの関係性を確認する企画が放送されます。 この企画は、以前欅坂46の番組でも同じ企画が放送されたことがあるファン注目の人気企画です。 www.tv-tokyo.co.jp 様々なエピソードをもとに、最新の日向坂46メンバーの関係性を確認! 謎のユニット名が続々登場で、メンバー同士の新たな関係性が明らかに! 珍エピソードの数々に、オードリーも巻きこまれる!? 今回は、メンバーのブログを解析することにより、 その放送に先駆けてメンバー間の関係性や

    ブログ解析による日向坂46メンバの相関図作成 - myaun’s blog
  • YouTuber同士の繋がりを可視化する - 見返すかもしれないメモ

    最近ある YouTuber に急にハマった。その人は音楽系やゲーム系などいろんな YouTuber たちとコラボしていて、誰と誰が繋がっているのか把握するのが難しかったので、図にしてみようと思った。 方法 YouTuber 同士の繋がりやコラボレーションを可視化しているプロジェクトはいくつかあったので、参考になる方法がないか探してみた。 おすすめチャンネル欄を使う www.gugelproductions.de この記事では、あるチャンネルが別のチャンネルをおすすめチャンネル欄で紹介していれば、そこに繋がりがあると判定して、その繋がりを可視化していた。 こういうやつ けれどおすすめ欄には大抵サブチャンネルやグループのメンバーのチャンネルくらいしか入っておらず、逐一コラボ相手を載せる人は少ないので、この方法では不十分そうだった。 Twitter を使う datalion.com ここに載って

    YouTuber同士の繋がりを可視化する - 見返すかもしれないメモ
  • イミュータブルデータモデル - kawasima

    はじめに CRUDのうちUPDATEがもっともシステムを複雑化する。更新には複雑なルールが伴うからだ。業務的に複雑なルールが存在するのは仕方ないこともあるが、システム、設計で複雑さを更に増さないようにしたい。UPDATEに着目し、その発生をできるだけ削ることによって複雑さをおさえるためには、まずデータモデルをそのように設計しておかなけれなならない。このイミュータブルデータモデルは、それを手助けする手法で、手順に沿って実施すればある程度のスキルのバラつきも吸収できるように組み立てられている。 手順 Step1. エンティティを抽出する まずエンティティを抽出するところから始める。 5W1Hがエンティティの候補 従業員,患者,プレイヤー,顧客,生徒,... 製品,サービス,コース,曲,... 時間,日付,月,年,年度,... 送付先,URL,IPアドレス,... 注文,返品,入金,出金,取引,

    イミュータブルデータモデル - kawasima
  • 「雑用扱いで名前もない」 データ分析の土台を支える“SQLを叩く人”の重要性を問い直す

    「雑用扱いで名前もない」 データ分析の土台を支える“SQLを叩く人”の重要性を問い直す:これからのAIの話をしよう(データ整備人編)(3/3 ページ) しんゆう:特に収集フェーズは「データがあればすぐにできるでしょ」と思っている人が多過ぎますね。今まで日企業がデータ分析に真剣に取り組んでこなかったツケといえます。ビッグデータや人工知能など特定の言葉がはやると、経営層が「何かやれ」と現場に命令して、「できませんでした」となるのが毎回のオチです。言葉だけはやって、おのおのが自分のイメージで好きなようにその言葉を語っているんです。 データ分析については「そもそも何をするのか」という部分が抜け落ちている人が多いです。それは意思決定者だけでなく、分析者にも当てはまります。「データを使って何かやる」という所だけにフォーカスするのは、何か違うなと思っています。 松料理を作るシーンを見て「僕も何かの

    「雑用扱いで名前もない」 データ分析の土台を支える“SQLを叩く人”の重要性を問い直す
    masa8aurum
    masa8aurum 2020/01/30
    「データ整備人」
  • UXとかデータ分析とかその辺の勉強の仕方

    仕事柄、UXとかデータ分析とか、その辺が少し強いと思われているらしい。 職場の人からその辺の勉強の仕方を聞かれたので答えようとしたら、意外と長くなりそうだったのでメモがわりに書く。 これを書いている人のスペックUXとかの専門家ではない(専門家=大学の教授等々の研究者)美大や情報系の大学院等でUXデザイン等々を専門的に勉強してきたわけではないデータ分析も、大学・大学院等で難しい数式などを専門的に勉強してきたわけではない 日々の仕事の中で諸々やってきた結果、何やらその辺が強いと思われるようになってしまった人専門家からの指摘等々大歓迎 UXの勉強方法とかの話そもそも、UXという言葉が流行りだしたのは最近の話だと理解していて、バズワードに近いと思っている。概念自体は遥か昔からあるものだし、何を今更世の中がUXというワードを使いたがっているのかが良くわからない。(が、ここでは面倒くさいので、定義が曖

    UXとかデータ分析とかその辺の勉強の仕方
  • データ分析の成否が事業の成否に直結するような会社を選べよ まず戦うフィ..

    データ分析の成否が事業の成否に直結するような会社を選べよまず戦うフィールドが間違ってる。 予測モデルの精度改善がそのまま売上の改善につながるような業態の会社を選ぶんだよ。 そうすれば元増田みたいに冷遇はされない。 例えばGoogle. Googleでは売上の90%が広告収入から上がっている。 ここで言う広告とは、GoogleやらYoutubeやらに訪れたユーザーのデータを詳しく分析した上でもっともコンバージョンレートが高くなりそうな広告を予測して表示するタイプの広告だ。 「誰にどんな広告を表示したらもっともコンバージョンレートが上がるか」というのは、当然データ分析機械学習の範疇だ。 想像してみてほしい 1. 毎日GoogleとかYoutubeとかに何億人だかのユーザーが訪れる。 2. 世界トップクラスのデータサイエンティスト達が作り上げた、Googleのコンバージョンレート予測モデルはも

    データ分析の成否が事業の成否に直結するような会社を選べよ まず戦うフィ..
  • データサイエンティストが働いて嫌だったなと思う人たち

    コンサルにてアナリストをやった後、データサイエンティストを名乗りながら仕事をしています。そんな中で嫌だったなと思った人たちとプロジェクト 1.医療統計の周りの人 最近はアウトカムでの評価の流れにはなってきたが、まだまだモデルの評価をする事は少ない。 でも何故か相変わらずロジステックとCox回帰をやれればおっけーであり、モデルの精度が当たらなくてもオッズ比と説明変数の 有意差だけでていれば上手く行く分野。 当に心が痛む上、まだまだ「医者でなければ人であらず」が通ってしまい、モデルの説明よりもお医者様のお言葉が1stにきてしまう。また分析プロジェクトの 設計らしい設計があまり出来ないのもつらいところ(モデルの精度が出ていないのにそのオッズ比・有意差に何の意味があるんだと思う)。後日の製薬企業から「何とか工夫で有意差がでないのか!!」 という謎おしかりを受ける・・・いやそんなん無理ですやんと

    データサイエンティストが働いて嫌だったなと思う人たち
  • 統計的因果推論のためのPythonライブラリDoWhyについて解説:なにができて、なにに注意すべきか - Unboundedly

    機械学習など主に予測を目的とした統計手法に強いイメージのPythonでしたが、統計的因果推論を行うためのライブラリ、“DoWhy”がついにリリースされました。 DoWhy | Making causal inference easy — DoWhy | Making Causal Inference Easy documentation これまで因果推論があまり浸透してこなかった*1データサイエンス界に新しい風が吹くのではと期待が高まります。 一方でこのパッケージが何を可能にし、逆に何ができないのかを理解しなければ、雑なデータ分析が増えて逆に有害なのではと思い、今回ブログを書くことにしました。 先に言っておくと、私自身はPythonをメインに使っているわけではありません(使ったことはあるので一応コードを読んで何が起こっているかくらいはわかります)。したがって記事の目的は、DoWhyライブ

    統計的因果推論のためのPythonライブラリDoWhyについて解説:なにができて、なにに注意すべきか - Unboundedly
  • データサイエンスだらけの桃太郎 - oscillographの日記

    昔々あるところに分析からの示唆出しが趣味のおじいさんと特徴量生成が得意なおばあさんがいました。 おじいさんはオンプレサーバーへ定時確認に、おばあさんはクラウドサーバーへ重要指標のモニタリングに行くと、フルマネージドなデータベースから外れ値の桃群が現れました。 「こんな桃群は見たことがない。gzip圧縮してローカルで中身を見てみよう」 持ち帰った桃群をローカルで解凍してみると、中からメモリに乗り切らないサイズの赤ん坊が出てきました。 赤ん坊はExcelで開けなかったので、おじいさんとおばあさんはBig Queryで分析しました。 二人はこの赤ん坊を 「桃.gzから生まれたので桃太郎と名付けるのが妥当だろう。」 と考えて桃太郎と名付けました。 桃太郎はPRML片手にPythonでプログラミングをしながらすくすく育ち、立派なデータサイエンティストになりました。 成長がサチった桃太郎はある日おじい

    データサイエンスだらけの桃太郎 - oscillographの日記
    masa8aurum
    masa8aurum 2018/07/15
    よくわからないけど
  • 興味がない時には沢山見かけるがいざ欲しい時に限って見つからない:日本のデータサイエンティスト&機械学習エンジニアブーム - 渋谷駅前で働くデータサイエンティストのブログ

    我らが業界の雄*1、てつろーさんが新たなweb連載記事を始められたようです。 このタイトルが、流石は業界経験の長いお方だけあって非常に鋭いところを突いているなと個人的には感じています。で、完全に奇遇ながら実は6月8日に旧知の友人の依頼でプレイベートな講演会に登壇してきたのですが、その時も「あれから日のデータサイエンティスト(そして機械学習エンジニア)ってどうなったんだっけ」という話題をしてきたということもあり。。。ということで、久しぶりに与太話でもしてみようかと思います。 首都圏のデータサイエンティストと機械学習エンジニアは合わせて大体500人ぐらいいる(私見) 大多数の「自称」データサイエンティストはこの4年間のブームの栄枯盛衰の中で現れては消えるというのを散々繰り返してきたように思いますが(笑)、現実に日々の業務として明確にデータ分析を、しかも統計学や機械学習のスキルを駆使して行って

    興味がない時には沢山見かけるがいざ欲しい時に限って見つからない:日本のデータサイエンティスト&機械学習エンジニアブーム - 渋谷駅前で働くデータサイエンティストのブログ
  • データサイエンティスト(本物)は決して幻の職業などではない - 渋谷駅前で働くデータサイエンティストのブログ

    かつて拙著出版の際に大変お世話になった技術評論社(技評)さんから、『データサイエンティスト養成読』改定2版のPRとして以下の記事がリリースされていました。この記事がもう何と言いますか、「読めばそのままデータサイエンティスト(物)もしくはグローバルにおけるData Scientistのスキル要件になっている」ほどの素晴らしい記事なので、ぜひ皆様にはご一読をお薦めいたします。 ちなみにここであえて「物」と銘打ったのは、少し前にもどこかで論じられていた記憶があるのですが、要は「なんちゃってデータサイエンティスト」は含まないということです。僕の知る限り、日国内でデータサイエンティストと言うと「データサイエンティスト(カナ)」と方々から侮られるのが常なのですが、それはそもそも後述するように数年前に大量に発生したデータサイエンティスト(物)でも何でもない専門的スキルに乏しい人々のことが世間で

    データサイエンティスト(本物)は決して幻の職業などではない - 渋谷駅前で働くデータサイエンティストのブログ
  • 探索的データ解析における正しい可視化手法の選び方と描き方 - Qiita

    データ分析における関数の使い方については様々な記事が上がっています。関数を知らなかったり使い方が分からないときは調べればだいたい答えが見つかります。 一方で、実際に分析を始めようとすると、たとえ関数の使い方がわかっていても、データをどのような切り口から何を分析・可視化していけば良いのか困ってしまうことがよくあります。 この記事では、あんちべさんが書いたデータ解析の実務プロセス入門というをベースに、どのようなデータから何を見たいときにどのような可視化手法を使えばよいのかを、具体例を交えながら整理していきます。 探索的データ解析とは データ解析のアプローチは、大きく分けて仮説をデータで検証する「仮説検証型」とデータから仮説を生み出す「探索型」に分けられます。 実際にデータ解析を行うときは、仮説検証型と探索型を行き来しつつ知見を見出していきます。 データ解析には検証すべき仮説を設定することが必

    探索的データ解析における正しい可視化手法の選び方と描き方 - Qiita
  • 1