Functions That Test Spatial Relations Between Geometry Objects
Functions That Test Spatial Relations Between Geometry Objects
mecabのインストール $ brew install mecab $ brew install mecab-ipadic wikipediaとhatenaのキーワードファイルの取得 $ curl -L http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv | iconv -f euc-jp -t utf-8 > keywordlist_furigana.csv $ curl -L http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz | gunzip > jawiki-latest-all-titles-in-ns0 辞書作成コードを用意する(make_dict.rb) gist88bfb2936690d5508a8c $
$ mecab (入力) 毎日が土曜日だと良いのになあ 毎日 名詞,固有名詞,組織,*,*,*,毎日,マイニチ,マイニチ が 助詞,格助詞,一般,*,*,*,が,ガ,ガ 土曜日 名詞,副詞可能,*,*,*,*,土曜日,ドヨウビ,ドヨービ だ 助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ と 助詞,接続助詞,*,*,*,*,と,ト,ト 良い 形容詞,非自立,*,*,形容詞・アウオ段,基本形,良い,ヨイ,ヨイ の 名詞,非自立,一般,*,*,*,の,ノ,ノ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ なあ 助詞,終助詞,*,*,*,*,なあ,ナア,ナー EOS こんな感じで形態素解析ができるように。 辞書追加 本来入っている辞書を追加 上記のやり方だと、/usr/local/Cellar/mecab/0.996/lib/mecab/dic下にipadicが入る。 brewでインストール
-r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書
今年の初めくらいにメモして後でまとめようと思っていた話なんだけど、さっぱりまとめる暇が取れないまま放置されていたので、メモをそのままブログに貼っておく。 MeCab(辞書はNAIST)で遊んでいたら、スクエニが以下のように解析された。 echo スクエニ | mecab スクエニ 感動詞,*,*,*,*,*,* EOS 感動詞になっている。出来れば名詞が良いなぁと思う。 スクエニは未知語として判定されていると思われる。 未知語判定されているかどうかは、-F%Sすれば分かる。 1が出れば未知語、0は辞書にある語。 echo スクエニ魔法 | mecab -F"%m\t%s\n" スクエニ 1 魔法 0 EOS 未知語については「/usr/local/lib/mecab/dic/naist-jdic/unk.def」を見れば分かる。 KATAKANA,1358,1358,3869,名詞,一般,
覚え書きみたいな感じ。 Twitterから取得したTLデータをMeCabの形態素解析にかけると、大抵の固有名詞は単語がバラバラになってしまいます。 バラバラになってしまった「嵐にしやがれ」 これを、固有名詞と判断させるためにどうしたらいいのか。 はてなキーワードとwikipediaのタイトルをMeCabの辞書にぶっこんであげればよし。 ということでがんばってみた。 【主な参考ページ様】 MeCabの辞書をはてなキーワードとWikipediaで鍛える mecab辞書にwikipediaのタイトル名を追加 【はてなキーワード編】 ここからはてなダイアリーキーワードふりがなリストをダウンロード。(keywordlist_furigana.csv) キーワードIDをついてない方を選んだ。 で、このcsvファイルをMeCabの辞書用のcsvに変換しなければならない。 例えばこんな感じ。 嵐にしやがれ
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
mecabにwikipediaのタイトルの単語を追加します。 ググると、既に様々な人がされているので、参考にさせて頂きました。また、本家のサイトで詳しく説明されています。 csvファイルの作成にperlを使いました。 以下が作業の流れです。 1)wikipediaのデータをダウンロード 2)ダウンロードしたデータからユーザ辞書のCSVファイルを作成 3)CSVファイルを辞書ファイル(.dic)へ変換 wikipediaのタイトルを辞書に追加すると $ mecab 千と千尋の神隠し 千 名詞,数,*,*,*,*,千,セン,セン と 助詞,格助詞,引用,*,*,*,と,ト,ト 千尋 名詞,一般,*,*,*,*,千尋,チヒロ,チヒロ の 助詞,連体化,*,*,*,*,の,ノ,ノ 神隠し 名詞,一般,*,*,*,*,神隠し,カミガクシ,カミガクシ EOS これが $
昨日の晩あたりから、形態素解析したい気分だったのでやってみました。 形態素解析というのは以下のようなもの。 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 形態素解析 - Wikipedia 圧縮新聞にも使われているそうです。 「圧縮新聞」を作った - phaの日記 今回は、MeCab(和布蕪)という形態素解析エンジン利用させて頂きました。 Ubuntu環境で実験しましたが、大抵同じような作業で動くと思います。文字コードの指定のみ適時読み替えてください。 ファイルの取得 MeCab本体(mecab-0.97.tar.gz)、辞書ファイル(mecab-ipadic-2.7.0-20070801.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く