第5回さくさくテキストマイニングで､形態素解析アルゴリズムについて発表しました

今やってる仕事の関係で､形態素解析アルゴリズムについてちょっと調べる必要があったので､ついでにRubyで形態素解析ライブラリを作ってみた｡という内容の発表です(のはずだが､Rubyのコードが一文字も書いてないですね……)｡

スタート形態素解析

View more presentations from todesking

ちょっとプレゼンのクオリティがひどいので､近いうちにブログで補足記事を書こうと思っております｡

ソースは https://github.com/todesking/okura にて公開中｡

Pure Rubyでgem一発で入るような形態素解析ライブラリがあると､Windowsやherokuなどで形態素解析動かせてけっこうべんりなきがします｡

直近(来週くらい)の開発では､

gem化
辞書もgem化
辞書のコンパイル
Double Array Trieの採用
未知語処理対応

などを予定しています

説明する暇がなかったんですが､未知語処理が入っても同じ流れです｡
可能な単語候補を探索する際に､

# unk.def
KANJI,1361,1361,13931,名詞,固有名詞,人名,一般,*,*,*
KANJI,1360,1360,12827,名詞,固有名詞,一般,*,*,*,*
SYMBOL,1356,1356,10705,名詞,サ変接続,*,*,*,*,*
NUMERIC,1367,1367,16360,名詞,数,*,*,*,*,*

みたいなルールを元に未知語を生成して､候補に追加する｡以降は同じ｡