Googleの音声認識サービスGOOG411に関する論文
こないだのICASSP2008にGoog411に関する論文がGoogleから出ていたってのをついさっき、Official Google Research blogより知った。
http://research.google.com/archive/goog411.pdf
GOOG411ってのは電話で「ピザを食べたい」と話すと、勝手に音声認識システムが空気読んでビザを宅配してくれるサービスと理解していたんだけど、論文読むともっと素朴なIVRシステムっぽい。「っぽい」ってのは日本に住んでいるいるから、GOOG411システムを利用出来ないからなんだけどね。
HMMとWFSTベースの音声認識システムっぽい。GOOG411は英語だけで提供されているんだけど、発音モデル(Pronunciation Model, PM)ってのは日本語だと「音素体系」みたいなものなのだろうか。まぁ、WFSTをOpenFSTとしてオープンソース*1で提供してくれているGoogleはエラい!
まぁ、それはともかく、音響モデルのトレーニングについて、論文を見るとデータだけじゃ限界があるよ、みたいなことが書いてあるので*2 なんかまだ音声認識には別のブレイクスルーが必要なのかもしれないね。データ所持企業として天下のGoogleが言っていることだから。