日本語の難しさを推定する「帯」

なかなか面白そうなものが出て来た。

帯:日本語テキストの難易度推定
http://kotoba.nuee.nagoya-u.ac.jp/sc/readability/obi.html

Rubyスクリプトも公開されているのでRubyの勉強も出来て一石二鳥。

個人的に気になるのは、

  • 教科書コーパスなるものが利用できるのか?
  • unigramベースだけど、bigram trigramで算出したらどうなるんだろう?プログラムは複雑になるけど、、、
  • オイラの文章だと、カタカナを考慮すると、で 9->13にレベルアップするけどどういうこと?

これは形態素解析なんて凝ったことはしてなくて、一文字ずつ(unigram)の累積スコアのようですね。でも、本の難易度表を見ると個人的な直感と一致しているから、文章の難しさを測るって意味ではこれで十分かもしれない。

Wikipediaのカテゴリ別の文章の難しさの分布を測定したりすると面白いかも。