タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

statisticsに関するsessanのブックマーク (17)

  • RPubs - メタ分析

    sessan
    sessan 2014/06/22
    メタ分析をするために、フォレスト・プロットというのが使えるらしい。
  • guyon03a.dvi

    sessan
    sessan 2014/05/27
    変数選択や特徴選択に関する入門的なことを説明した2003年の論文。Doing Data Scienceで引用されていた。
  • Welcome — Statistics Done Wrong

    The woefully complete guide¶ by Alex Reinhart If you’re a practicing scientist, you probably use statistics to analyze your data. From basic t tests and standard error calculations to Cox proportional hazards models and propensity score matching, we rely on statistics to give answers to scientific problems. This is unfortunate, because statistical errors are rife. Statistics Done Wrong is a guide

    sessan
    sessan 2014/04/21
    統計学誤用ガイド。
  • pbdR - Programming with Big Data in R

    pbdR - Programming with Big Data in R

    sessan
    sessan 2013/10/20
    Rでビッグデータを扱うプロジェクトの公式サイト
  • SmartNewsを支える機械学習

    ニュースアプリSmartNews(https://www.smartnews.be/)の背景のアルゴリズムについてTokyoWebMining30th(http://tokyowebmining30.eventbrite.com/)で話させていただいた際の資料です。 •SmartNews iphone版: https://itunes.apple.com/jp/app/id579581125 •SmartNews Android版 https://play.google.com/store/apps/details?id=jp.gocro.smartnews.android •SmartNews開発者ブログ http://developer.smartnews.be/blog/Read less

    SmartNewsを支える機械学習
    sessan
    sessan 2013/10/20
    SmartNewsが使っている機械学習の話
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
    sessan
    sessan 2013/10/16
    このブログエントリはすごい。いろんな機会学習系のサンプルコードと簡潔な解説が載っている。ランダムフォレストも載っていた。
  • UCI Machine Learning Repository

    Welcome to the UC Irvine Machine Learning Repository We currently maintain 668 datasets as a service to the machine learning community. Here, you can donate and find datasets used by millions of people all around the world!

    sessan
    sessan 2013/10/14
    UCIのMachine Learning Repository。機械学習用の260のデータ・セットが公開されている。
  • Bringing you the state-of-the-art in Data Science

    sessan
    sessan 2013/10/14
    アソシエーション分析用の有名なツール、らしい。
  • 青木繁信氏:おしゃべりな部屋 (統計学ほか)

    アクセスしていただき,ありがとうございます。 このページへのアクセスは,通算 6356686 回目です。 (1995年8月31日 からカウント開始) フォト蔵ふ つれづれなるままに ときどき一枚 狛犬ギャラリー 道祖神ギャラリー

    青木繁信氏:おしゃべりな部屋 (統計学ほか)
    sessan
    sessan 2013/07/21
    群馬大の青木先生のwebサイト。トップページ
  • Tokyo.R #22 Association Rules

    2. 実は • Tokyo.R#05ですでにアソシエーション分析は取り上げられて いる! • http://www.slideshare.net/hamadakoichi/r-r-4219052 3. アソシエーション分析とは? • POSデータやECサイトの取引データから一緒に買われやす い商品の組み合わせを探す探索的データ分析の手法。 • 商品同士の組み合わせだけでなく、顧客の属性や購買時間帯などとの 組み合わせも分析可能。 • 「おむつとビール」の事例で有名。 • 「商品Aを買うと商品Bも買う確率が高い」というようなルール を見つけ出すための手法。 • もちろん、そこにそのようなルールがなければ何も出てこない。 4. アソシエーション分析とは? • いわゆるデータマイニングの代表的な手法の一つで、単に 「データマイニング」と言って、アソシエーション分析を指してい るケースも散見される

    Tokyo.R #22 Association Rules
    sessan
    sessan 2013/07/21
    アソシエーション分析をTokyoRで発表した人の資料
  • 総務省、政府統計データをAPIで6月上旬から試験提供開始

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    総務省、政府統計データをAPIで6月上旬から試験提供開始
    sessan
    sessan 2013/06/08
    政府統計データ公開のニュース
  • アンケート結果をもとに、缶コーヒーを効果的に陳列せよ! データから「新たな軸」を見つける主成分分析とは?

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    アンケート結果をもとに、缶コーヒーを効果的に陳列せよ! データから「新たな軸」を見つける主成分分析とは?
    sessan
    sessan 2012/12/20
    主成分分析の記事。多変量解析の一覧が載っている。
  • 大阪電気通信大学西尾様.ppt

    sessan
    sessan 2012/12/01
    一般化加法モデルで個人ローンデータを分析した人の研究発表資料
  • Microsoft PowerPoint - DS_Lec9_20101213.ppt [互換モード]

    2010/12/13 第9回 平滑化法、一般化加法モデル 東京の平均気温 1876年~2007年 (単変量)回帰モデル y   0  1  year   統計関連学会連合 統計教育推進委員会 教材教育サイトより 傾向を、もっと柔軟に表現したい 1 2010/12/13 第9回 移動平均法 (2m+1)項移動平均:当期と前後m期の合計(2m+1)期の 平均を当期の移動平均値とする 東京の平均気温 21項移動平均 1876年~2007年 2 2010/12/13 第9回 局所重み付き回帰法 移動平均法:局所的な平均 局所重み付き回帰法 局所的に多項式回帰モデルをあてはめる x の近傍で局所的に =   x に近いほど大きな重み、 遠い値には0の重み、を付けて 多項式を最小2乗法であてはめる  w xi  x  y  f ( xi ) i 2

    sessan
    sessan 2012/12/01
    データを平滑化するための幾つかのアルゴリズム。一般化加法モデルの説明。
  • ローレンツ曲線 - Wikipedia

    典型的なローレンツ曲線 平成17年度国勢調査速報を元に作成したローレンツ曲線(都道府県別) ローレンツ曲線(ローレンツきょくせん、英: Lorenz curve)とは、ある分布を持つ事象について、確率変数が取り得る値を変数とし、確率変数の値が与えられた変数の値を超えない範囲における確率変数と対応する確率の積の和(あるいは確率変数と確率密度関数の積の積分)を、その分布に対する確率変数の期待値で割って規格化したものとして与えられる関数の幾何学的な表現のことである。言い換えると、ある集団に含まれる下位集団に対する期待値を全体の期待値で割ったものをその下位集団ごとにプロットしたものとも言える。 あるいは、確率変数の値がある値を下回る集団の割合はそれらがとり得る確率変数の値の上限と一対一に対応付けられるため、全体に対する下位集団の割合を変数とする関数としても表すことができる。 ローレンツ曲線は下位集

    ローレンツ曲線 - Wikipedia
    sessan
    sessan 2012/11/26
    ローレンツ曲線。ジニ係数で使われている理論。
  • ジニ係数 - Wikipedia

    ジニ係数(ジニけいすう、英: Gini coefficient)とは、データの不均等さを表す統計値である。これは、社会における所得の不平等さを測る指標として使われることが多い。0から1で表され、各人の所得が均一で格差が全くない状態を0、たった一人が全ての所得を独占している状態を1とする。ローレンツ曲線をもとに、1912年にイタリアの統計学者、コッラド・ジニによって考案された。それ以外にも、富の偏在性やエネルギー消費における不平等さなどに応用される。 ジニ係数がとる値の範囲は0から1で、係数の値が大きければ大きいほどその集団における格差が大きい状態であるという評価になる。特にジニ係数が0である状態は、ローレンツ曲線が均等分配線に一致するような状態であり、各人の所得が均一で、格差が全くない状態を表す。逆にジニ係数が1である状態は、ローレンツ曲線が横軸に一致するような状態であり、たった1人が集団

    ジニ係数 - Wikipedia
    sessan
    sessan 2012/11/26
    ジニ係数。所得の不平等さを測る指標
  • シャピロ–ウィルク検定 - Wikipedia

    シャピロ–ウィルク検定(シャピロ–ウィルクけんてい、英語: Shapiro–Wilk test)とは、 統計学において、標 x1, ..., xn が正規分布に従う母集団からサンプリングされたものであるという帰無仮説を検定する検定である。この検定方法は、サミュエル・シャピロ(英語版)とマーティン・ウィルク(英語版)が1965年に発表した[1]。 定義[編集] 検定統計量は、 ただし、 x(i)(括弧で囲まれた添え字「i」のついた)は、i番目の順序統計量、つまり、標の中でi番目に小さい数値である。 は、標平均である。 定数aiは、次の式によって与えられる。 ただし、 m1, ..., mnは、標準正規分布からサンプリングされた独立同分布の確率変数の順序統計量の期待値であり、V はこの順序統計量の分散共分散行列である。 帰無仮説は、Wが小さすぎる場合に棄却される。 参考文献[編集] Al

    sessan
    sessan 2012/11/26
    シャピロ-ウィルク検定。正規分布であるかどうかをテストする。
  • 1