「あ」の優劣の話ってすでに英語の発音矯正に使われているんじゃ、、、

「あ」の優劣。 - IHARA blog
http://d.hatena.ne.jp/tihara/20080330

というエントリを拝見したのだが、音響モデルのスコアリングによって「いかにネイティブの発音に近いか?」みたいなことは既にやられているんじゃなかろうかと思う。
id:tihara さんのエントリでは、「あ」の優劣といった、日本語のみに焦点を当てられているが、例えば英語の発音矯正みたいなe-Learning システムは音響モデルのスコアを元にしていたように思う。もちろん、様々な信頼度尺度が提案されているが、基本は音響モデルのスコアだったように思う。
これが本当に発音矯正になっているのかどうかは意見が割れているんだけど、英語音響モデル作った時に、僕の声は認識されないけど、アメリカの留学生の声はバンバン認識されるという体験があって、そこから日本語訛りをなくす英語の発音学習にはそれなりに有効なのではないかと、個人的には思っている。

発音の個人性を吸収する技術は話者適応というのがあり、例えばドラゴンスピーチやマイクロソフト音声認識エンジンにはトレーニングモードというのがある。これはそれぞれの音声サンプルを集めてきて不特定話者の音響モデルから特定話者への音響モデルへ変換するものである。最近出たAMIVoiceはこのトレーニングが要らないというのが売りになっているが、音声認識エンジンのコンセプトが違うだけで音響モデルに使われている技術はそう違わない*1のではないかと予想する。

で、id:tihara さんの話に戻るわけだが、音声認識ってのは、結局どの特徴パターンをどの文字にマッピングするかだけの話である。具体的に「あ」とか「い」とかの文字のラベルにマッピングするから違和感が生じるのだと思う。例えば、「Aさんのあ」と「Bさんのあ」という風に音声コーパスに別々のラベルを振って認識したら違和感はなくなるんじゃなかろうか。当然データが少なくなるので、不特定話者の音声認識は出来なくなるが。。。

*1:教師あり学習か教師なし学習かの違い