タグ

自然言語処理に関するmoromoroのブックマーク (11)

  • 研究テーマ - 自然言語処理グループ - 知能情報・生体工学研究室(MIBEL) - 筑波大学

    幹雄教授(筑波大学システム情報系, 大学院システム情報工学研究科CS専攻)を中心とする自然言語処理の研究を行うグループです 概要 日語や英語のような、人間の言語を機械が理解・処理するための技術を研究しています。 自然言語処理には様々なアプローチがありますが、私たちのグループでは、特許文や新聞記事などの大量のテキストデータから様々なルール・情報を自動獲得する、統計的手法を利用しています。 人間の知識の多くは人間の「言語」で記述されています。もし、機械が人間の言語を理解・処理できれば、機械が人間の知識の大部分にアクセス可能となり、人間の知的作業をサポート出来るようになります。 応用例 Web/Blog からの意見抽出、Web ページのコンテンツ特定、統計的機械翻訳、推薦システム(レコメンドエンジン)、次世代ウェブ検索エンジン、スニペット生成・自動要約、チャットボット(対話生成)、日語ス

    moromoro
    moromoro 2013/04/07
  • DOORS DX | ベストなDXへの入り口が見つかるメディア

    銀行業務での適応領域を探索。りそな×ブレインパッドのLLM共同研究プロジェクトで見えてきた世界観とは?

    DOORS DX | ベストなDXへの入り口が見つかるメディア
  • Machine Learningのカレンダー | Advent Calendar 2012 - Qiita

    Machine Learning Advent Calendar 2012とは パターン認識・機械学習・自然言語処理・データマイニング等、データサイエンスに関するアドベント・カレンダーです。 当初PRML Advent Calendarとして立てたのですが、PRMLは敷居が高すぎるのかネタだと思われてるのか皆ROMる気満々で執筆側に誰も回ってくれる気配がなかったので、対象を機械学習全般にしてみました。URLが変更になりすみません。 参加方法 とりあえず参加登録をポチる 自分の担当の日に機械学習に関するちょっとした記事を書く みんなで読む 記事内容は、パターン認識・機械学習・自然言語処理・データマイニング等、データサイエンスに関する事でしたら何でもOKです。テーマに沿っていれば分量は問いません。 (PRMLの読んだ箇所のまとめ、実装してみた、論文紹介、数式展開、etc.) 皆さんのご参加をお

    Machine Learningのカレンダー | Advent Calendar 2012 - Qiita
  • Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみた - Y's note

    Mahout in Action 作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman出版社/メーカー: Manning Pubns Co発売日: 2011/10/28メディア: ペーパーバック購入: 4人 クリック: 81回この商品を含むブログ (10件) を見る Index Information & Links Apache Mahout Abouc Apache Mahout Mahout has machine learning libraries Mahout Download / Setting Madmagi Words Scraping Word MA Mecab MA HDFS PUT Clustering Theory TF/IDF K-Means Canopy Clustering Word Vector Clust

    Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみた - Y's note
  • 「魔法少女まどか☆マギカ」の台詞をJavaScriptでMapReduceしてGoogle Chart APIでグラフ出力したよ! - Y's note

    Hadoop 第2版 作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2011/07/23メディア: 大型購入: 9人 クリック: 182回この商品を含むブログ (24件) を見る 概要 「魔法少女まどか☆マギカ」の台詞をNLTK(Natural Language Toolkit)で解析する - Yuta.Kikuchiの日記 SpiderMonkeyでのコマンドラインJavascript - Yuta.Kikuchiの日記 CentOSでHadoopを使ってみる - Yuta.Kikuchiの日記 以前に「魔法少女まどか☆マギカ」の台詞をNLTK(Natural Language Toolkit)で解析することに挑戦しましたが、解析結果の集計グラフが奇麗に表示されませんでした。今回はそれを改善すべく手法を変えて挑戦します。グラフ化はNLTK

    「魔法少女まどか☆マギカ」の台詞をJavaScriptでMapReduceしてGoogle Chart APIでグラフ出力したよ! - Y's note
  • 高速なテキストの分類分けに·bayon MOONGIFT

    bayonはフォーマットに沿った入力データを高速にクラスタリングするソフトウェアです。 テキストコンテンツは世の中にあふれています。そうしたコンテンツを収集するのは容易ですが、次はうまく分類分けして表示しなければなりません。そこで使えそうなのがbayonです。高速なクラスタリングを実現するソフトウェアです。 インストールします。configure、make、make installで完了です。 ヘルプです。 サンプルのファイルです。左がIDで、それに続く右側が属性となっています。 実行しました。100分割なので全てばらばらに検出されています。 例えば上記例では2つのグループにクラスタリングされています。 3つの場合のクラスタリングです。 中心ベクトルを求める方法です。 bayonは特徴的なキーを自動判別したり、クラスタリングの手法を変更することもできます。デフォルトではRepeated B

  • テキストマイニングのための機械学習超入門 一夜目 - あんちべ!

    テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい(けれど高度な数学は厳しい…)」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの?じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。 筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう

    テキストマイニングのための機械学習超入門 一夜目 - あんちべ!
  • 形態素解析の過去・現在・未来

    2. ⾃自⼰己紹介 l  海野  裕也  (@unnonouno) l  unno/no/uno l  研究開発部⾨門  リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日アイ・ビー・エム(株)東京 基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過 去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3

    形態素解析の過去・現在・未来
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

  • 言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

    言語処理のための機械学習入門というが出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

    言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改
  • 1