1. HOME
  2. 業界News
  3. AIによる音声認識のいま
業界News

AIによる音声認識のいま

業界News

この記事では、AI音声認識をビジネスに利活用することを想定している事業者向けに、日本における最新の導入事例・技術開発の状況等について紹介しています。

AppleのSiri・「OK! Google」でお馴染みの音声操作など、AIによる音声認識を用いたサービスは広がりを見せています。利用者のニーズに合致した検索結果を示したり、スマートスピーカーのように呼び掛けに応じて音楽・ニュースを流したりする機能だけでなく、より専門的な分野にも応用できるよう研究・実用化が進んでいます。

音声入力という技術は登場して久しいものですが、AIの活用によって、今までは利用を想定していなかった分野にも進出が進みました。その入力精度・入力速度は大きく改善され、使い勝手が向上しています。

今回は、AIによる音声認識技術の「いま」について、その進化の度合いに迫ります。

人と人とをつなぐ音声認識技術の「いま」

学習指導要領が見直されたことにより、読解力重視の流れからスピーキングの要素をプラスする方向へと、日本の英語教育の流れが大きく変わろうとしています。そのような中、ある意味その方向性に逆行するような形で発展を遂げたのが、AI翻訳機の「POCKETALK(ポケトーク)」です。

互いに自国語のまま対話できる双方向の音声翻訳機で、長文訳や発音・表現の学習にも使えます。外国語を日本語に訳した場合、日本人の体感としては6割程度の理解という意見もありますが、ディープラーニングは人間の脳と比較して進化のスピードが違うため、今後も機能の発展は続くものと推察されます。

また、日本語同士でのやり取りにおいても、音声認識の技術は応用されています。Googleドライブのドキュメントを開き、音声入力のツールを使えば、議事録の内容を文章にある程度書き起こすことも可能です。

ただ、残念ながら一度音声データを聞かせただけで一言一句間違えずに文章化してくれる精度ではないため、手間を省きたいのであれば、自分で読み直す・高機能のシステムを導入するなどの対応が必要です。

合わせて読みたい!ウィズコロナ時代の役所に求められるAIカメラソリューションとは
ウィズコロナ時代、不特定多数の地域住民が集う役所では館内の混雑状況をAIカメラで検知して可視化することで、人の代わりに館内の不審者、急病人などを検知することもできます。その手法や導入事例をご紹介します。
→導入事例を読む

各種ビジネスの現場における音声認識技術の「いま」

個人レベルでの利活用のみならず、ビジネスの現場でも音声認識技術は広く用いられています。コールセンターを運営するトランスコスモス株式会社では、音声認識AIを使い、顧客とオペレーターとのやり取りを文章化しています。

単純に音声をテキストに起こすのではなく、オペレーターの対応をチェックする目的でも用いられています。問題のあった部分を抽出する機能も備わっているため、管理職による改善の指示をより効率的に行えるようになりました。

医療の現場でも音声認識AIは活用されており、株式会社アドバンスト・メディアによる「アミボイス・アミノート」では、医師がスマホに話すだけで、その内容が電子カルテに記録される仕組みになっています。医療用語に特化したAI音声機能エンジンを用い、誤記が許されない電子カルテを確実に記載できるよう構成されています。

また、従来キーボードで入力していた頃に比べて業務量が70%ほど削減したという報告もあります。特に、キーボードの扱いに慣れていない医師・看護師等にとっては、使い勝手のよい機能と言えるでしょう。

友達やコンシェルジュにも!Pepper・Google Nowの「いま」

ソフトバンクが発表した「Pepper」は、ホーム・ビジネス・学習の現場で用いられることを想定して作られたロボットです。会話した内容を覚えて話題を深く掘り下げたり、各家庭でよく調べられる情報を速やかに提供したりと、高いコミュニケーション能力を持っています。

ビジネスの現場では、汎用性の高い日常会話は標準搭載されており、難しい話は遠隔操作で専門のスタッフとやり取りできる機能を備えています。学習の面では、学校向けプログラミング教育に用いるため、Pepperを3年間貸し出すプランが設けられています。

Google Nowに至っては、そもそも音声・文字入力機能による検索の手間さえも省こうと、機能をコンシェルジュ化しています。スマホなどの端末内における機能を複合化し、ユーザーに最適化された情報を随時予測して提示してくれます。

gmailをフライト・ホテル予約に使っている場合、カレンダーのスケジュールに予定が自動で入力されていたり、当日になってフライトの情報が表示されたりと、持ち主の行動を予測して必要と思われる情報を表示します。あまりのタイミングの良さにかえって不安を感じ、機能を停止してしまったユーザーもいるようです。

しかし、総じていえばリマインド・注意喚起の面で非常に優れたツールの一つであり、今後もアシスタント機能は進化するものと推察されます。

まとめ

AIの音声認識は進化を続け、プライベート・ビジネス両面において様々な場面で用いられています。人間の会話能力に比べれば改善の余地は十分にあるものの、今回紹介してきた技術を見る限りは、不自由を感じない程度まで発展しているという印象を受けます。

人間同士のやり取りだけの時代には、時に軋轢を生んできたやり取りも、AIをはさむことでスムーズになるケースが見られます。
AIが進化することで、やがては「話さなくても分かる」存在になってくれるのかもしれませんね。

訪日外国人への異常運行情報表示を多機能・低価格で実現する鉄道やバス向けシステムとは

主要駅および観光駅を中心に、訪日外国人客増加に備えた多言語の運行情報配信のニーズがありますが、一方で翻訳業務負荷の大きさが課題となっています。そこで、活躍が期待されるのが外国人利用客の利便性向上を目的として、異常運行情報をAIが多言語に自動翻訳してアナウンスする仕組み鉄道向け「多言語翻訳システム」です。これにより、つど翻訳したりその内容を精査する必要がないため業務負荷が軽減されることと、リアルタイムな情報配信が可能になります。その手法や導入事例をご紹介します。
→導入事例を読む

本サイトを運営しております株式会社WillSmartは事業立ち上げから企画・ソフト、ハードを組み合わせたソリューションの開発・運用サポートを提供しております。課題解決型AIやカーシェアリングシステム、非接触型サイネージの様々な事例などをご紹介しています。

事例を見る

メルマガでは、定期的(月に2度)にコンテンツの更新状況をお伝えする予定です。ご興味のある方は以下よりご登録ください。

メルマガ登録