音声による文字入力の進歩に驚き
音声入力と言えば、昔は認識率がかなり悪く、とても使えるものではありませんでした。10年以上前の話ですが。。
パソコンも使い慣れてブラインドタッチにも慣れてくると、絶対こっちの方が速いし確実という潜在意識が働き、いつしか試すことすらなくなっていました。
しかもソフトも、使えない割には、結構高かった覚えがあります。
でも、最近の音声入力は結構すごいです。
ドコモのスマホでは、標準でドコモの音声入力とgoogle の音声入力が標準で実装されていて、これについて比較してみました。
結果は言うまでもなくgoogleの圧勝でした。
Google音声入力
まずは平家物語の冒頭の文から
正解:「祇園精舎の鐘の声 諸行無常の響きあり 沙羅双樹の花の色 盛者必衰の理をあらわす」※正確には「あらわす」は「あらはす」ですが、音声認識チェックなのであしからず。
結果:
「祇園精舎の鐘の声 諸行無常の響きあり 沙羅双樹の花の色 盛者必衰の理をあらわす」
完璧じゃないですか。
ただし、このようなお決まりのフレーズは、すでにクラウドやAIに組み込まれており、引き出しやすいのかもしれないとも考えられるので、別の言葉でもやってみました。
正解:「冬将軍到来、今日は寒い」
結果:「冬将軍到来今日は寒い」
もう一つ、NHKピタゴラスイッチから、最近ハマっているコンテンツである「ビーだまビーすけ」
棒読みと歌のリズムに乗った発声で試します。
正解:「ビーだまビーすけ」
結果(棒読み):「ビー玉びーすけ」
結果(歌):「ビー玉びーすけ」
漢字とカタカナは製作者が勝手に決めていることなので、それを考慮すれば、
やっぱり完璧じゃないですか。
ちなみにさらにすごいのは、ささやきで試しても同様に認識できるところ。
驚きしかありません。
ドコモ音声入力
Google音声入力と同じ条件で試します。
正解:「祇園精舎の鐘の声 諸行無常の響きあり 沙羅双樹の花の色 盛者必衰の理をあらわす」
結果:
「祇園精舎の鐘の声
諸行無常の響あり
沙羅双樹の花の色を
盛者必衰の理をあらわす」
「を」が間違いでしたが、これは発音の仕方なのかもしれない。
でも一番の問題は少し切れ目(息継ぎ)をする度にブチブチ切れます。
これは使いにくいです。改善の余地ありですね。
次に
正解:「冬将軍到来、今日は寒い」
結果:「冬将軍到来今日は寒い」
これはOKですね。
棒読みと歌のリズムに乗ったビーだまビーすけ。
正解:「ビーだまビーすけ」
結果(棒読み):「ピーターぴーすけ」
結果(歌):「ピーターマーフィー風景」
何回か試しましたが、どちらもよく認識してくれません。歌のようにすると、確かに「びぃーだーまー、びーすけーっ」ってな感じなので、長いところは拾っているようですが、認識が甘いです。
ささやきに関しては、こんな感じでだいぶワードサラダっぽくなります。
正解:「祇園精舎の鐘の声 諸行無常の響きあり」
結果(ささやき):共著者の彼の声諸行無常の響きあり
正解:「冬将軍到来、今日は寒い」
結果(ささやき):「 おや社会到来今日寒い」
やっぱり、高周波帯域の音声解析は難しいのでしょうか?
比較してみて思ったこと
私の滑舌の話もあるのかもしれませんが、それにしても、日本語音声入力でこれほど差が出るとは驚きでした、ドコモは日本のメーカーなのに、もともと英語圏の googleに音声解析は大きく遅れているようです。ドコモで技術開発しているわけではないのでしょうけれども。
しかし、この差は相当大きい。
ちなみに今回のこの記事もドラフトはほとんど音声入力です。
つぶやきをテキスト化→ブラウザでブログ用に編集→公開
時間がだいぶ削減できそうです。
ちなみに英語はあまり認識してくれませんでした。
日本語入力仕様だからでしょうか?強引にカタカナ交じりで表示されます。
しかし、ささやきまで拾うこの音声認識。
マイクの技術向上もあるのでしょうが、これは便利です。誰にも迷惑をかけずにテキストが作れます。
むしろ恐ろしさまで感じられる google の技術ですね。
近い将来、速記などのスキルもいらなくなるかもしれません。
また、同時に発声される複数の声を個別に認識できるようになれば、会議等のテープ起こし等も要らなくなるかもしれません。
この精度で言葉を拾える音声認識技術であれば、Google homeもかなり使えるのでしょう。ただし、何気ない会話や重要な会話もすべてテキストで保存されているかもしれませんね。なんて考えてもあまり意味はないですね。
いずれにしても、とにかく便利です。
10年前とは異次元の精度の音声認識を試してみてください。