The woefully complete guide¶ by Alex Reinhart If you’re a practicing scientist, you probably use statistics to analyze your data. From basic t tests and standard error calculations to Cox proportional hazards models and propensity score matching, we rely on statistics to give answers to scientific problems. This is unfortunate, because statistical errors are rife. Statistics Done Wrong is a guide
ニュースアプリSmartNews(https://www.smartnews.be/)の背景のアルゴリズムについてTokyoWebMining30th(http://tokyowebmining30.eventbrite.com/)で話させていただいた際の資料です。 •SmartNews iphone版: https://itunes.apple.com/jp/app/id579581125 •SmartNews Android版 https://play.google.com/store/apps/details?id=jp.gocro.smartnews.android •SmartNews開発者ブログ http://developer.smartnews.be/blog/Read less
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
2. 実は • Tokyo.R#05ですでにアソシエーション分析は取り上げられて いる! • http://www.slideshare.net/hamadakoichi/r-r-4219052 3. アソシエーション分析とは? • POSデータやECサイトの取引データから一緒に買われやす い商品の組み合わせを探す探索的データ分析の手法。 • 商品同士の組み合わせだけでなく、顧客の属性や購買時間帯などとの 組み合わせも分析可能。 • 「おむつとビール」の事例で有名。 • 「商品Aを買うと商品Bも買う確率が高い」というようなルール を見つけ出すための手法。 • もちろん、そこにそのようなルールがなければ何も出てこない。 4. アソシエーション分析とは? • いわゆるデータマイニングの代表的な手法の一つで、単に 「データマイニング」と言って、アソシエーション分析を指してい るケースも散見される
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
2010/12/13 第9回 平滑化法、一般化加法モデル 東京の平均気温 1876年~2007年 (単変量)回帰モデル y 0 1 year 統計関連学会連合 統計教育推進委員会 教材教育サイトより 傾向を、もっと柔軟に表現したい 1 2010/12/13 第9回 移動平均法 (2m+1)項移動平均:当期と前後m期の合計(2m+1)期の 平均を当期の移動平均値とする 東京の平均気温 21項移動平均 1876年~2007年 2 2010/12/13 第9回 局所重み付き回帰法 移動平均法:局所的な平均 局所重み付き回帰法 局所的に多項式回帰モデルをあてはめる x の近傍で局所的に = x に近いほど大きな重み、 遠い値には0の重み、を付けて 多項式を最小2乗法であてはめる w xi x y f ( xi ) i 2
典型的なローレンツ曲線 平成17年度国勢調査速報を元に作成したローレンツ曲線(都道府県別) ローレンツ曲線(ローレンツきょくせん、英: Lorenz curve)とは、ある分布を持つ事象について、確率変数が取り得る値を変数とし、確率変数の値が与えられた変数の値を超えない範囲における確率変数と対応する確率の積の和(あるいは確率変数と確率密度関数の積の積分)を、その分布に対する確率変数の期待値で割って規格化したものとして与えられる関数の幾何学的な表現のことである。言い換えると、ある集団に含まれる下位集団に対する期待値を全体の期待値で割ったものをその下位集団ごとにプロットしたものとも言える。 あるいは、確率変数の値がある値を下回る集団の割合はそれらがとり得る確率変数の値の上限と一対一に対応付けられるため、全体に対する下位集団の割合を変数とする関数としても表すことができる。 ローレンツ曲線は下位集
ジニ係数(ジニけいすう、英: Gini coefficient)とは、データの不均等さを表す統計値である。これは、社会における所得の不平等さを測る指標として使われることが多い。0から1で表され、各人の所得が均一で格差が全くない状態を0、たった一人が全ての所得を独占している状態を1とする。ローレンツ曲線をもとに、1912年にイタリアの統計学者、コッラド・ジニによって考案された。それ以外にも、富の偏在性やエネルギー消費における不平等さなどに応用される。 ジニ係数がとる値の範囲は0から1で、係数の値が大きければ大きいほどその集団における格差が大きい状態であるという評価になる。特にジニ係数が0である状態は、ローレンツ曲線が均等分配線に一致するような状態であり、各人の所得が均一で、格差が全くない状態を表す。逆にジニ係数が1である状態は、ローレンツ曲線が横軸に一致するような状態であり、たった1人が集団
シャピロ–ウィルク検定(シャピロ–ウィルクけんてい、英語: Shapiro–Wilk test)とは、 統計学において、標本 x1, ..., xn が正規分布に従う母集団からサンプリングされたものであるという帰無仮説を検定する検定である。この検定方法は、サミュエル・シャピロ(英語版)とマーティン・ウィルク(英語版)が1965年に発表した[1]。 定義[編集] 検定統計量は、 ただし、 x(i)(括弧で囲まれた添え字「i」のついた)は、i番目の順序統計量、つまり、標本の中でi番目に小さい数値である。 は、標本平均である。 定数aiは、次の式によって与えられる。 ただし、 m1, ..., mnは、標準正規分布からサンプリングされた独立同分布の確率変数の順序統計量の期待値であり、V はこの順序統計量の分散共分散行列である。 帰無仮説は、Wが小さすぎる場合に棄却される。 参考文献[編集] Al
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く