読者です 読者をやめる 読者になる 読者になる

Sinatraのあらかると

記録することで、環境構築で悩まない。

自分のブログでもっとも頻度の高い言葉。

Hadoopの研修をうけて、日本語の形態素解析ができるようになり試しに自分のはてなブログxmlをダウンロードして測ってみた。(ブログを書き始めた、2009/3/24~2011/8/5までの自分のはてなブログの内容から)


こと 545.0
私 509.0
妻 495.0
今日 443.0
の 442.0
よう 330.0
日 325.0
ん 298.0
追伸 174.0
そう 170.0

私と妻のことを多く書いているようですな。
今日、追伸が頻度が高いことがわかる。
よーく、日々のことを細かく話してますな。
ようはきっと様子が窺えること。
ことが一番って、物事のことかな。
言葉の癖がわかりますな。

形容詞の頻度が多いものでは、


いい 286.0
よい 115.0
うれしい 78.0
多い 74.0
ほしい 60.0
悪い 56.0
うまい 50.0
新しい 44.0
楽しい 43.0
っぽい 32.0

いい、よい、わるい、などの善し悪しを語ったり、うれしいや楽しいのような感情を表したり、ほしい、うまい、などの欲を示したり、っぽい…はあいまいにする言い方を好むようですな。

なんだか私の語学力も解析することで見え始めてきました。
こんな私ですが今後もどうぞよろしく。

解析をする際に、参考にした重要なサイト。
http://code.google.com/p/jatextmining/wiki/Tutorial_with_cloudera
#GoSen_%E3%81%AE%E3%83%80%E3%82%A6%E3%8
3%B3%E3%83%AD%E3%83%BC%E3%83%89%E3%81%A8%E8%A8%AD%E7%BD%AE
です。GoSenの導入から始めました。

Copyright © 2007-2017 Takayuki Kamiyama. All Rights Reserved.