環境構築・零

環境構築のその先へ

形態素解析

百人1首をRuby、hadoopを使って解析してみる。

github.com hadoopのワードカウント cd hadoopフォルダ zinbeijett/txt/hyakunin.txtをinputフォルダへ入れて実行 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount ./input ./output zinbeijettのengine -z…

riceシェルの組み立て方

(rice)形態素解析ツールを起動するためには、RubyGemsのmecabとnattoと自前コンパイルのmecab-rubyがあれば動作しますよ。— T@犬鷲(イヌワシ) (@takkii) 2017年11月22日 環境構築ブログなので紹介します。 gem install mecab gem install natto MeCab downlo…

hadoopで鬱陶しいメッセージ回避。

コードをブログのせるのは、独りよがりにしか思えない。ほんとうに大切なコードは、githubやsubversionにあるさ…ということ。誰も教えてくれなくて、自分で解決することを選んだ人がオンラインを漁るときの手助けになればと書いています。今日も、いっちょや…

前回の文字のカウント回数をもとに分析してみた。

前回、データマイニングでHadoopを使い出現回数が多い文字を抽出することができた。今度は、簡単なRubyプログラミングとmecabで解析してみたい。 #coding: utf-8require 'MeCab'm = MeCab::Tagger.new ("-Ochasen")print m.parse ("こと 私 妻 今日 の よう …

自分のブログでもっとも頻度の高い言葉。

Hadoopの研修をうけて、日本語の形態素解析ができるようになり試しに自分のはてなブログのxmlをダウンロードして測ってみた。(ブログを書き始めた、2009/3/24~2011/8/5までの自分のはてなブログの内容から) こと 545.0 私 509.0 妻 495.0 今日 443.0 の 44…

Copyright © 2007-2020 Takayuki Kamiyama. All Rights Reserved.