タグ

bayesに関するteddy-gのブックマーク (14)

  • 機械学習ナイーブベイズ分類器のアルゴリズムを理解したのでメモ。そしてPythonで書いてみた。 - Qiita

    概要 ナイーブベイズ分類器(ベイジアンフィルター)のアルゴリズムを具体的な数値を使って説明します。また、Pythonで実装してみました。自分の勉強メモのつもりで書いたのですが、他の方の役にも立てたら嬉しいです。 #ナイーブベイズ分類器って? あるデータ(文章)をどのカテゴリーに属するのかを判定させる、機械学習の教師あり学習の手法の一つです。 スパムメールフィルターやWEBニュース記事のカテゴライズによく使われています。 難易度 ベイズの定理を利用した単純な手法で、難易度は低です。 なるべく数式を使わないで説明してみました。 ナイーブベイズ分類器の計算 対象文章がどのカテゴリーに分類されるかを決めるための計算ロジックを、具体的な数値を使って説明します。 学習データが以下である場合、対象文章がどのカテゴリーに分類されるか計算します。 学習データ サッカー  [ ボール | スポーツ | ワール

    機械学習ナイーブベイズ分類器のアルゴリズムを理解したのでメモ。そしてPythonで書いてみた。 - Qiita
    teddy-g
    teddy-g 2020/07/06
    Pythonでナイーブベイズを実装する方法について。
  • 尤度の解説

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2024年5月時点の調査。

    teddy-g
    teddy-g 2017/01/03
    ある観測データの下での仮説の確からしさが尤度。H0とH1の尤度の比がロッド値で、どっちが確からしいかを見るのに使う。
  • RPubs - Rでベイジアンネットワークメモ

    Hide Comments (–) Share Hide Toolbars

    teddy-g
    teddy-g 2015/02/15
    たしかにこの通りにやるとベイジアンは作れる。さて、その中身はと…。
  • マルコフ確率場 (MRF) と条件付き確率場 (CRF) の違い | LESS IS MORE

    一番の違いは、生成モデルか識別モデルか、ということ。それぞれ、 Markov Random Fields (MRF) は生成モデル Conditional Random Fields (CRF) は識別モデル です。 What is exactly the difference between MRF and CRF ここを見ると割とすっきりする。 ただ、少しスムーズに納得できないことがありまして…それは、MRFもCRFもグラフィカルモデルで書くと無向グラフとなること。識別モデルは無向グラフで生成モデルは有向グラフなんじゃ…?と思ってしまう人もいるんじゃないかと思う(いなかったらごめんなさい)。 グラフィカルモデルとしての表現 一般に、生成モデルは有向グラフの形で記述され、識別モデルは無向グラフとして記述される。例えば、隠れマルコフモデル (HMM) は有向グラフで、条件付き確率場 (CR

    マルコフ確率場 (MRF) と条件付き確率場 (CRF) の違い | LESS IS MORE
    teddy-g
    teddy-g 2015/02/09
    MRFは生成モデルでCRFは識別モデルだが両方とも無効グラフ。RBMはMRFの一種。条件付き確率がよくわからなくなってきた。
  • 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei

    最近では機械学習の認知度も上がってきていて専門家でなくてもナイーブベイズやSVMなどの名前を知っている人も増えてきたように思う。 そんなわけでちょっと機械学習をはじめてみようかな、と思っている人も多いのではないだろうか。とはいえ「数式よくわからない」「確率嫌い」といった理由で尻込みしているケースも多いのでは。 そこで予備知識ゼロでもわかるような機械学習の入門記事を書いてみたよ。 機械学習を「作りたい」のか「使いたいのか」 まず最初に確認したいのがこれ。使いたいだけならまずはSVMを使ってみれば良い。世の中にはlibsvmやsvmlightという良いツールがあるのでそれを使おう。以下の記事は機械学習を「作りたい」「仕組みを知りたい」人向けの内容になっている。 「最も簡単な機械学習はナイーブベイズ」という幻想 機械学習といえばナイーブベイズという話がよくある。ナイーブ(単純)という名前からいか

    機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei
    teddy-g
    teddy-g 2015/01/27
    機械学習のほとんどは線形識別器であり線形識別できるようにする技術がメインだったりするな。コメントにある通り主観的な部分も多く、流行のDeep Learningなんて識別関数なのか識別モデルなのか生成モデルなのか。
  • 最大エントロピーモデルについて(CRF への前振り) - アスペ日記

    最大エントロピーモデルについての解説。 既存の資料としては、A Simple Introduction to Maximum Entropy Models for Natural Language Processing や「言語処理のための機械学習入門」(通称高村)が詳しい。 記事中でもその用語を適宜使ったり、内容を引用したりする。 ここでは、できるだけ直感的に理解できるような説明を目指す。 まず、最大エントロピーモデルとは何か。 最大エントロピーモデルは、分類を行う時に使われる。 たとえば、あるレビューに出てきた単語(good とか bad とか)から、そのレビューがポジティブなのかネガティブなのか分類する、というようなもの。 この分類先のことをクラスと呼ぶ。 最大エントロピーモデルは識別モデルの一種。 識別モデルの他には生成モデルというものもある。 これらの違いは、レビューの例で言う

    最大エントロピーモデルについて(CRF への前振り) - アスペ日記
    teddy-g
    teddy-g 2015/01/27
    識別モデルの代表格・CRFを理解する為にエントロピーを調べてたら行き当たった。途中まではフムフム、と読み進める。
  • ベイジアンネットワークを使ったウェブ侵入検知

    はじめに 私たちが提供しているSaaS型のWAFサービス、Scutum(スキュータム)では、より高精度な攻撃検知を実現するために、ベイジアンネットワークの技術を利用しています。今回は「ウェブセキュリティ」「不正検知」「異常検知」「攻撃検知」といった観点から、ベイジアンネットワークについて解説します。 ベイジアンネットワークとは? ウィキペディアによると、ベイジアンネットワークは次のようなものです。 ベイジアンネットワーク(英: Bayesian network)は、因果関係を確率により記述するグラフィカルモデルの1つで、複雑な因果関係の推論を有向グラフ構造により表すとともに、個々の変数の関係を条件つき確率で表す確率推論のモデルである。 非常に的を射た説明ですが、「わかっている人にはわかるし、わかっていない人にはわからない」という感じもするかもしれません。基からしっかり理解したいという場合

    ベイジアンネットワークを使ったウェブ侵入検知
    teddy-g
    teddy-g 2014/05/16
    ベイジアンネットワークを侵入検知に使う案。ベイズの説明として分かりやすい内容。
  • ベイジアンネットワーク:株式会社日立総合計画研究所

    ベイジアンネットワークとは ベイジアンネットワーク(Bayesian Network)とは、「原因」と「結果」の関係を複数組み合わせることにより、「原因」「結果」がお互いに影響を及ぼしながら発生する現象をネットワーク図と確率という形で可視化したものです。過去に発生した「原因」と「結果」の積み重ねを統計的に処理し、『望む「結果」に繋がる「原因」』や『ある「原因」から発生する「結果」』を、確率をもって予測する推論手法ともいえます。この考え方は人がさまざまな出来事や他人の振る舞いを予測するときの考え方に倣ったものといえます。近年、IT、特にインターネットがより人間的に使いやすくなってきている背景には、ベイジアンネットワークを活用した推測エンジンの活用が盛んになってきたことがあります。 ベイジアンネットワークの成り立ち ~ベイズの定理とは~ ベイジアンネットワークの起源を遡るとイギリスの確率論研究

    teddy-g
    teddy-g 2014/05/03
    日立総研によるベイジアンの説明。わりと分かりやすい。
  • Developer: Tutorials: Building a BN

    teddy-g
    teddy-g 2014/04/03
    Huginのチュートリアルだが、ベイジアンネットワークの説明としてもわかりやすい。
  • Netica Help

    teddy-g
    teddy-g 2014/04/03
    Neticaのヘルプ。
  • Norsys - Netica Visual Basic API

    teddy-g
    teddy-g 2014/04/03
    NeticaのVB用API説明。
  • 綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み

    単純ベイズ法を2つの蛇口でとらえる いままで見てきたように、単純ベイズ法を用いたスパム判定では、すでに手元にあるスパムメール中に含まれている単語の出現頻度と、非スパムメール中に含まれている単語の出現頻度を計算することで、スパムメールの判定を行いました。 この計算の過程を、もう少し大ざっぱなモデルで説明してみましょう。 まず、無限の単語を含んだ蛇口を2つ考えます。1つは、スパム発生源の蛇口で、もう1つは通常メールの発生源の蛇口です。 そして、蛇口から流れ出た単語が袋に入りメールを生成するとします。それぞれの蛇口に含まれている単語の割合はもちろん違います。おそらく、スパムの蛇口に「無料」が含まれる割合は、非スパムの蛇口に「無料」が含まれる割合よりずっと大きなはずです。 スパム判定問題は、この蛇口を使うと次のようにモデル化できます。 いま、どちらか一方の蛇口から単語をばらばらと(有限個)こぼしま

    綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み
    teddy-g
    teddy-g 2014/03/18
    ベイズ理論の説明はこれが一番わかりやすかった。
  • 眠る開発屋blog » PHPでベイズ推定の習作

    もしもこの世から「残業」が完全になくなったら 3年ぐらい前に読んだを思い出した。 1980−90年代の話ですが、残業について、 「時間外・休日労働の弾力的運用が我が国の労使慣行の下で雇用維持の機能をはたしている」(1985年労働基準法研究会報告)とか、「我が国の労働慣行の実情に合うような上限設定が可能かどうか定かでない」(1992年同報告)と、雇用維持の為のコストとして恒常的な長時間労働を是認する考え方が主流でした。 需要の低下に応じて、生産水準を下げなくてはならなくなっても、バッファがあるから解雇せずに大丈夫でしょ、という。。。 まぁ、 ところが、その後、労働法政策が内部労働市場の雇用維持から外部労働市場における移動促進に徐々にシフトしていったにもかかわらず、この長時間労働哲学には疑問が呈されないまま21世紀に至っているのです。 と著者は問題視しているわけだけど。 話変わって、最近友人

    teddy-g
    teddy-g 2014/03/18
    PHPでベイジアン。ロジックもちゃんと説明されてる。
  • 棚からパルチャギ

    実践編です。 ベイジアンフィルタを使ったアプリケ-ションの流れは、大きく分けて以下の3段階になります。 カテゴリ(クラス)定義 パターン学習 文書分類 単純ベイズ分類器(Naive Bayes classifier)ではクラス毎に単語の出現頻度を記憶して、その情報をもとに文書がそれぞれのクラスに属する確率を求めます。 SPAMフィルタなどでは「spam」と「nospam」のように2つのクラスだけで使用されることが多いです。多分。 パターン学習は、特定の文書(単語のセット)がどのクラスに所属するかを指定します。 これにより出現頻度のデータベース(コーパス)が更新されて、次回以降の分類精度を向上させることができます。 通常は、クラスを最初に設定して、以降は学習と分類を繰り返すような感じになると思います。 …ということで、クラスの定義から。 何故かNaiveBayesianStorageには、カ

    teddy-g
    teddy-g 2014/03/18
    PHPでベイジアンフィルタ。結局クラスの中身がよくわからんので実装法だけ。
  • 1