第5回さくさくテキストマイニングで、形態素解析アルゴリズムについて発表しました

今やってる仕事の関係で、形態素解析アルゴリズムについてちょっと調べる必要があったので、ついでにRuby形態素解析ライブラリを作ってみた。という内容の発表です(のはずだが、Rubyのコードが一文字も書いてないですね……)。

ちょっとプレゼンのクオリティがひどいので、近いうちにブログで補足記事を書こうと思っております。

ソースは https://github.com/todesking/okura にて公開中。


Pure Rubyでgem一発で入るような形態素解析ライブラリがあると、Windowsやherokuなどで形態素解析動かせてけっこうべんりなきがします。

直近(来週くらい)の開発では、

  • gem化
  • 辞書もgem化
  • 辞書のコンパイル
  • Double Array Trieの採用
  • 未知語処理対応

などを予定しています

説明する暇がなかったんですが、未知語処理が入っても同じ流れです。
可能な単語候補を探索する際に、

# unk.def
KANJI,1361,1361,13931,名詞,固有名詞,人名,一般,*,*,*
KANJI,1360,1360,12827,名詞,固有名詞,一般,*,*,*,*
SYMBOL,1356,1356,10705,名詞,サ変接続,*,*,*,*,*
NUMERIC,1367,1367,16360,名詞,数,*,*,*,*,*

みたいなルールを元に未知語を生成して、候補に追加する。以降は同じ。