日本語の難しさを推定する「帯」

なかなか面白そうなものが出て来た。

Ruby スクリプトも公開されているのでRubyの勉強も出来て一石二鳥。

個人的に気になるのは、

これは形態素解析なんて凝ったことはしてなくて、一文字ずつ(unigram)の累積スコアのようですね。でも、本の難易度表を見ると個人的な直感と一致しているから、文章の難しさを測るって意味ではこれで十分かもしれない。

Wikipediaのカテゴリ別の文章の難しさの分布を測定したりすると面白いかも。