読者です 読者をやめる 読者になる 読者になる

Sinatraのあらかると

記録することで、環境構築で悩まない。

形態素解析器

久しぶりです。明日から3連休、みなさんは何をして過ごしますか。
私は、理屈っぽくなり頭が固くなったと奥さまに言われるので、
少し休みをいれたいと思います。


「休み前に、研究の一コマを検証してみました」


形態素解析データマイニングを行うことができます。


・Hadoopだと大規模なテキストデータを形態素解析できる
プログラミング言語だと、1ファイル単位で形態素解析できる


それぞれに利便性はあると思います。
Githubにて、WordCountの実装をしてあります。

最新版のmecabをhomebrewで入れようとすると、よくわからないバグレポートが戻ってきたりします。そんなときは、バグを報告するというか違う手を考えてみたいと思います。ソースコードからインストールメモ。

ダウンロードしたmecabフォルダ内にて
./configure --prefix=/usr/local/mecab --enable-utf8-only


make
sudo make install


無事に終われば、とくにエンコード周りが形態素解析環境を作る上でネックなので、utf8であればほとんど問題ないでしょう。これで、utf8だけのmecabが/usr/local/mecab/にできました。

次に、
./configure --with-charset=utf8 --with-dicdir=/usr/local/mecab/lib/mecab/dic/ipadic-utf8


make
sudo make install


(無事に終了すれば)ipadicを設置しました。
ipadic-utf8フォルダができていると思います。

これをmecabrc(/usr/local/mecab/etc/)に記述してつなぐのですが、私の環境ではつないでも反映されませんでした。(失敗談をのせても、意味がないので)結局、EUC-JPとして端末のエンコーディングを変更すればうまくいきます。どうしても、変更できないのであれば無理にしなくてもいいのではないかと考えます。うまくいかないこともありますね。

ソースから形態素解析環境を構築する際は、OSのバージョンなどで相性を見ながら構築するのをおすすめします。Rubyのバージョンだけでなく、mecabchasenなどにもそれぞれ相性があります。

形態素解析について説明を入れてみました。
それでは、みなさんよい休日を。
私は、日記を気ままに更新していきます。

http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
https://github.com/takkii/WordCount

Copyright © 2007-2017 Takayuki Kamiyama. All Rights Reserved.