「言葉を瞬時に文字化できるCPU開発 NEC」の反応について

http://www.asahi.com/business/update/0815/019.html
このエントリの主眼はasahi.comの記事ではなく、スラッシュドットの反応です。
http://slashdot.jp/comments.pl?sid=271094&cid=0&pid=0&startat=&threshold=-1&mode=nested&commentsort=0&op=%CA%D1%B9%B9
多分、「ヤッターマン コーヒー ライター」は認識されません(笑)それに類する言語モデルを持っていたら別ですが、、、

それはさておき、スラッシュドットの意見を読むと、好意的な見方、悲観的な見方、様々だが悲観論者の傾向としてある程度、共通して言えることがある。それは音声入力をキーボードの代わりとしてしか見てないということだろうと思う。
かつてのViaVoiceはキーボードの代わりとして音声入力のディクテーションを売り出して失敗した。IBMがなぜ、そういう売り出し方をしたかというと、それが一番ユーザーにとってアピールしやすかったからだと思う。音声入力がキーボード入力にとって変わり、パソコンの使い方は今までと変わらない、という所を狙っていたのだろう。まぁ、音声認識率が100%ならば(99%でもダメ)その売り方も出来たかもしれない。ここで言う音声認識率100%とは、全ての言葉がユーザーの意図通りに一発で書き起こされるという意味である。

しかし、音声認識パターン認識の手法で動いていることを考えると、特徴量空間上できれいに分かれていない限り、音声認識率100%はありえない。人間でも、何を言っているかわからない時に聞き返すことを考えると、私は本当に認識できない発話の存在はあると考えている。そういう本当に認識できない発話がある場合、「わかりません」とシステムが言えれば良いが、パターン認識というのは強引にどこかのカテゴリに当てはめるのが一般的なので、なかなか「わかりません」というのは難しい。「わかりません」カテゴリを作ってパターン認識することも考えられるが、中々決定打というのは出ていないようだ。

ということで、キーボードの代わりとして音声入力を使おうとして業界全体が挫折した経験がある以上、CPUを開発したNECには音声入力の使い方として画期的なインタフェースも含めて製品を作って欲しいところです。

個人的には音声翻訳が画期的な使い方かどうかは、精度の面からまだ疑問だったりするのですが、、、

ところで、本筋とは関係なく、参考ですが非言語情報を活用した音声インタフェースは画期的なインタフェースだと思います。

スラッシュドットってトラックバック実装しないんですかね?