簡単な調べ物なら、音声アシスタントのほうが便利なことも

音声で調べ物ができるもっとも身近なツールは、iPhoneに搭載されている「Siri」や、Androidスマホの「Googleアシスタント」、あるいはWindows10の「Cortana」といったAIアシスタントではないでしょうか?
これらのAIアシスタントは、「今日の天気は?」と聞くだけで現在地の天気を教えてくれたり、「今日の予定は?」と聞くとカレンダーアプリの予定を読み上げてくれたり、知らない言葉の意味を尋ねるとWeb検索の結果を読み上げてくれたりします。
同じことを調べるために自分でスマートフォンを操作する場合、アプリのボタンをタップしたり、文字を入力したりしなくてはなりません。そのため、簡単な調べ物であれば音声操作のほうが速いケースも多いのです。
もちろん、すべての調べ物がスマートフォンのAIアシスタントで完結するわけではありません。複雑な言葉などは正しく認識されないケースも多々あります。しかし、簡単な検索は音声操作で行い、誤認識が起こりやすい複雑な調べ物などの場合は手入力で操作するといった使い分けをすれば、十分に利用価値のある機能です。
スマートスピーカーなら、家電の操作や音楽再生も行える

また、「スマートスピーカー」も、音声認識技術を活用した製品です。具体的には、Amazonが販売する「Amazon Echo」や、Googleによる「Google Nest」(Google Home)、LINEの「LINE Clova」、Appleの「HomePod」といったシリーズが国内で販売されています。
これらのスマートスピーカーにもAIアシスタントが搭載され、スマートフォンの場合と同様に音声で天気やスケジュールを確認できることに加え、声で音楽を再生することも可能。あらかじめ音楽配信サービスへの登録を行っておけば、曲名や歌手名で好きな曲をかけたり、再生履歴に基づいたおすすめの音楽をランダムに流したりできます。
また、最近はスマートスピーカーと連携できる「スマート家電」も増えています。エアコンやテレビ、照明などのオン・オフを音声で操作でき、製品によってはエアコンの温度や照明の明るさ調整にも対応。「手元にリモコンが見あたらない」「家事をしながらなど、両手がふさがっている状態で家電を操作したい」といった場合に重宝します。
海外では、日本以上に普及が進む音声操作

アメリカのコンサルティング会社が実施した調査によると、「1日に1回以上音声検索などを利用する」と回答した人の割合は25〜49歳で65%、50歳以上でも57%にのぼります。
また、アメリカの広告代理店による別の調査では、アジア太平洋地域を対象とした国別のスマホの音声操作の利用率も発表されています。それによると、「半年以内に音声操作を利用したことがある」と回答した人の割合は、インドが最も高く82%、次いで中国が77%となっており、日本は調査対象の6ヵ国で最も低い40%にとどまったとのこと。
出典:
Prepare for the voice revolution(外部サイト)
The Future is Voice(外部サイト)
また、先述のスマートスピーカーも、主要な製品が日本で販売を開始してから約1年経過した2018年12月時点での普及率がわずか5.9%との統計があります。
出典:
電通デジタル 国内のスマートスピーカー普及率は約6%、提供機能・サービスの拡大が市場成長のカギ(外部サイト)
音声認識技術は言語によっても精度に違いがあるとされているため、海外で普及しているからといって、この先日本でも同様の状況になるとは限りません。とはいえ、音声認識技術の向上で精度が上がることで、現在より広く使われるようになっていく可能性は十分に考えられます。
AmazonのAI文字起こしサービスが日本語に対応

音声認識技術を利用したサービスで最近注目を集めたのが、Amazon Web Services(AWS)によるAIを使った文字起こしサービス「Amazon Transcribe」の日本語対応です。
Amazon Transcribeは、音声データの内容をテキストに変換できるサービス。英語版は2018年から提供されていましたが、2019年11月に日本語など計7言語が追加されました。利用料金は1時間で1.44ドル(約158円)となっており、新規登録から1年は毎月60分まで無料で利用できます。
※外貨の日本円への換算は2020年2月時点の為替レートに基づくものです。
通常、音声データをテキスト化するには、人間が録音を聞きながら内容をキーボードで入力する「テープ起こし」の作業が必要ですが、これには手間がかかります。Amazon Transcribeの場合、音声ファイルをアップロードして待っているだけでテキスト化が完了します。
ただし、現状では認識精度は完璧というわけではなく、とくに複数人でのテンポの早い会話や、専門用語の多い話などに対応するのは難しいようです。音声のテキスト化は、はっきり・ゆっくり話している音声など、認識されやすい状態のデータであれば、人の手でテープ起こしをするより効率的に行うことが可能です。
音声認識技術は着実に進化を続けています。過去に音声操作を試してみて、「使いづらい」「役に立たない」と感じて諦めていた方も、最新の音声認識を改めて使ってみると、意外に便利だと感じるかもしれません。
今後、さらに精度が向上していくことで、現在より幅広いシーンで音声操作の活用が広がっていきそうです。
出典:
ロボスタ 国内のスマートスピーカー普及率は約6%、認知率は約76%、電通Dが調査レポートを公開(外部サイト)
日経XTECH 音声から文字起こし、AWSのAIサービス「Amazon Transcribe」が日本語に対応(外部サイト)
ライタープロフィール

企業広報誌の編集を経て、フリーのライター・編集者に。IT・デジタル、ビジネス分野を中心に、書籍や雑誌、Web媒体での執筆・編集、取材などに携わる。
著書に『今からササッとはじめるLINE/Twitter/Instagram/Facebook』(秀和システム)、『今すぐ使えるかんたん FC2ブログ 超入門』(技術評論社)。所有資格に、情報セキュリティマネジメント、ウェブ解析士など。株式会社ウレルブン代表。
酒井 麻里子の記事一覧はこちら