自然言語処理

日本語の難しさを推定する「帯」

なかなか面白そうなものが出て来た。帯:日本語テキストの難易度推定 http://kotoba.nuee.nagoya-u.ac.jp/sc/readability/obi.htmlRubyスクリプトも公開されているのでRubyの勉強も出来て一石二鳥。個人的に気になるのは、 教科書コーパスなるものが利用でき…

iTunesのID3タグ付けの空気の読み方は異常

iTunesってID3タグを付けるソフトとしても結構優秀なんですよね。 でも、英語の大文字小文字を区別しない(case-insensitive)*1ので前方一致補完がはしゃぎすぎだったり、日本語周りも優秀だったりするせいで、半角文字のpと全角文字のpまで同じに見なされて…

形態素解析について

http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90 Wikipediaが詳しい。Wikiのように不特定多数の人間が作り上げる百科事典のパワーを感じずにはいられない。おそらくこの形態素解析のエントリも専門家が書いたものだろう。