ビルゲイツの音声認識に関するコメントについて一言言っておくか

http://japan.cnet.com/interview/biz/story/0,2000055955,20368033-3,00.htm

音声認識（については）、データベースを構築し、どのような場合に間違いが起こるのかを把握するだけに数十年かかりました。Tellme Networksが成し遂げた偉業の1つがそれです。彼らは、多くの大手電話会社向けに案内サービスを提供していました。それで彼らには、人の話し方や発音についての膨大なデータベースがあったのです。これに機械による学習を組み合わせることで、その品質を改善し、大きな相乗効果を生むことができたのです。したがって、このようなナチュラルなインターフェースを実現するには、ソフトウェアの飛躍的な進歩が必要で、そしてもちろんプロセッサメーカーに、それだけの性能と速さを備えたメモリやプロセッサを供給してもらわなければならないのです。

（赤字強調は著者による）

これについて思うことなんだが、英語って発音のバリエーションがめちゃめちゃあって発音の揺れを吸収するための発音モデル（音素体系）も色々あるんだけど、日本の場合、音声認識の音素体系って驚くほど少ない。

これについては、いくつか理由があるんだろうけど、方言なまりが差別問題に発展するような事例が日本だと少なく*1（そもそも使われていることがないし）、プライバシーに配慮してなかなか大規模に機械学習をするのが難しいというのがあると思われる。

ま、ソフトウェアの進歩とプロセッサメーカーがタッグを組まないとナチュラルインタフェースの実現は難しい、という指摘については激しく同意。特にプロセッサメーカーが音声認識に特化したデバイスを作るというのはコスト面からなかなか難しい（と思う）ので、ソフトウェアで如何に吸収出来るか、という所が勝負であるように思う。短期的にはね。

*1:実際は青森にて議事録支援システム断念という事例がある