Sinatraのあらかると

記録することで、環境構築で悩まない。

前回の文字のカウント回数をもとに分析してみた。

前回、データマイニングでHadoopを使い出現回数が多い文字を抽出することができた。今度は、簡単なRubyプログラミングとmecabで解析してみたい。


#coding: utf-8

require 'MeCab'

m = MeCab::Tagger.new ("-Ochasen")

print m.parse ("こと 私 妻 今日 の よう 日 ん 追伸 そう")

実行結果


こと コト こと 名詞-非自立-一般
私 ワタクシ 私 名詞-代名詞-一般
妻 ツマ 妻 名詞-一般
今日 コンニチ 今日 名詞-副詞可能
の ノ の 助詞-連体化
よう ヨウ よう 名詞-非自立-助動詞語幹
日 ニチ 日 名詞-接尾-一般
ん ン ん 助詞-格助詞-一般
追伸 ツイシン 追伸 名詞-一般
そう ソウ そう 名詞-接尾-助動詞語幹


これにより、名詞と助詞で表現されていることがわかる。


#coding: utf-8

require 'MeCab'

m = MeCab::Tagger.new ("-Ochasen")

print m.parse ("いい よい うれしい 多い ほしい 悪い うまい
新しい 楽しい っぽい")

出力結果


いい イイ いう 動詞-自立 五段・ワ行促音便 連用形
よい ヨイ よい 形容詞-非自立 形容詞・アウオ段 基本形
うれしい ウレシイ うれしい 形容詞-自立 形容詞・イ段 基本形
多い オオイ 多い 形容詞-自立 形容詞・アウオ段 基本形
ほしい ホシイ ほしい 形容詞-自立 形容詞・イ段 基本形
悪い ワルイ 悪い 形容詞-自立 形容詞・アウオ段 基本形
うまい ウマイ うまい 形容詞-自立 形容詞・アウオ段 基本形
新しい アタラシイ 新しい 形容詞-自立 形容詞・イ段基本形
楽しい タノシイ 楽しい 形容詞-自立 形容詞・イ段 基本形
っぽい ッポイ っぽい 形容詞-接尾
形容詞・アウオ段 基本形

形容詞の頻度の最も高いものと一部形容詞ではない動詞も混じっているが、感情の表現や味覚などで構成されている。

これまでのこのブログ上のちょっとした振り返りになった。
今後も、何か記録を書くときの参考にしよう。

Copyright © 2007-2017 Takayuki Kamiyama. All Rights Reserved.