MeCabの辞書を充実させて、名詞、特に人名が途中でぶった切られる事態を回避したいという話。 MeCabの辞書にはてなキーワードを追加しようを参考に、はてなキーワードの登録単語ライブラリをパクってきてMeCabユーザー辞書に入れる。 データはHatena Developer Centerから入手できる。 やることは上記リンクを参照するが、引っかかったところが デフォルト辞書の選択 sudo vi /usr/local/etc/mecabrc viコマンド r か R で編集モードに入って、編集終わったら ESC して :wq で保存して終了。 辞書の更新 createDict.py というスクリプトを使っているが、これが csv ファイルを作るときに、単語の中にカンマが入っているものがあるようで、これのせいで出来上がった csv ファイルの列数が乱れているので、 context_id.cp