Googleの音声認識サービスGOOG411に関する論文

こないだのICASSP2008にGoog411に関する論文がGoogleから出ていたってのをついさっき、Official Google Research blogより知った。

http://research.google.com/archive/goog411.pdf

GOOG411ってのは電話で「ピザを食べたい」と話すと、勝手に音声認識システムが空気読んでビザを宅配してくれるサービスと理解していたんだけど、論文読むともっと素朴なIVRシステムっぽい。「っぽい」ってのは日本に住んでいるいるから、GOOG411システムを利用出来ないからなんだけどね。

HMMとWFSTベースの音声認識システムっぽい。GOOG411は英語だけで提供されているんだけど、発音モデル(Pronunciation Model, PM)ってのは日本語だと「音素体系」みたいなものなのだろうか。まぁ、WFSTをOpenFSTとしてオープンソース *1で提供してくれているGoogleはエラい！

まぁ、それはともかく、音響モデルのトレーニングについて、論文を見るとデータだけじゃ限界があるよ、みたいなことが書いてあるので*2 なんかまだ音声認識には別のブレイクスルーが必要なのかもしれないね。データ所持企業として天下のGoogleが言っていることだから。

*1:しかもApache2ライセンス

*2:dramaticallyって表現が微妙に気になるが