[B! mecab] mainyaaのブックマーク

新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

mainyaa 2016/10/13

リンク

文章中から韻を踏んでいるフレーズの組み合わせを検出する gem を作りました - Qiita

require "rhymer" lyric = <<"LYRIC" 1853年（嘉永6年）、長崎の出島への折衝のみを前提としてきた幕府のこれまでの方針に反して、江戸湾の目と鼻の先である浦賀に黒船で強行上陸したアメリカ合衆国のマシュー・ペリーとやむなく交渉した幕府は、翌年の来航時には江戸湾への強行突入の構えを見せたペリー艦隊の威力に屈し、日米和親条約を締結、その後、米国の例に倣って高圧的に接触してきた西欧諸国ともうやむやのうちに同様の条約を締結、事実上「開国」してしまった>。同年6月22日、12代将軍家慶が「今後の政治は徳川斉昭と阿部正弘に委ねる」と言い残して61歳で亡くなった。同年7月1日、幕府、国書を諸大名に示し意見を問い、3日にはお目見え以上の幕吏にも意見を問うた。260年間>「知らしむべからず、由らしむべし」を大法則としてきた幕府にとっては大方向転換であった[9]。開国した後は

mainyaa 2016/05/23

すげぇ

mecab

リンク

Word2Vec + MeCabで「ボケる」ための単語候補をピックアップするやつをやってみる - Line 1: Error: Invalid Blog('by Esehara' )

近況はじめに最近、ちょっと大喜利を始めていて、如何に面白いことを言えるのか、ということを考えたりしているんだけど、考えてみれば、自分は少しプログラミングができるし、むしろ形態素解析や自然言語処理という観点から「質問」と「ボケ」を考えてみると面白いかもしれない、と思って、力技でそういうことをやってみた次第。今回の方針とはいえ、何となく「質問に対して上手いボケを返してほしいな」ということであるならば、それこそ単語のランダム検出でもいいという話になってしまうので、ある程度仮説を立てて実装する。今回の仮説としては、「ある文が連想する知識の、派生する知識がその文と結びつけられた場合、人は上手いと思うのではないか」ということだ。どういうことか。例えば、謎かけの場合、「Aとときまして、Bととく。その心はCです」と言った際に、一見無関係の文(あるいは単語)が、Cという意味づけによって接続するこ

mainyaa 2015/08/03

リンク

[perl][自然言語処理]Mecabに住所用の辞書を追加する | そうだ車輪と名づけよう 5th

タグ： [perl] [自然言語処理] 公開日：2011-07-05　 PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来はどうなった？を参考にただし、辞書の生成のところのスクリプトをうまく動かすことができなかったのでPerlで書いて無理やり対応。それに合わせて処理全体が手作業っぽくなってしまった作成手順日本郵政の郵便番号一覧を取得する http://www.post.japanpost.jp/zipcode/download.html $ wget http://www.post.japanpost.jp/zipcode/dl/kogaki/lzh/ken_all.lzh 上記で取得した圧縮ファイルを手動で解凍＋UTF8へ変換辞書用CSVを生成する $ perl conv.pl ken_all.csv ken_dic.csv ※ conv.plの中

mainyaa 2013/10/01

リンク

キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)

いわゆる「Web2.0」っぽい要素である「タグ」。一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。動作要件の敷居が低い辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる希望の結果に近づけるためのチューニングが可能本モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「猫かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます（

mainyaa 2007/05/21

メモ。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

mecabに関するmainyaaのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第2週）

月間はてなブックマーク数ランキング（2025年1月）

今週のはてなブックマーク数ランキング（2025年2月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス