次世代のインターフェース「音声認識」がもたらす、人間とコンピューターの新たな関係性

昨今、スマートスピーカー(AIスピーカー)の広がりとともに、人々に知られるところとなった「音声認識」。実際、それらはどのような技術をもとにしているのだろうか。専門家でなくてもぜひ押さえたい音声認識に関する市場の現状や、そのアルゴリズム、そしてビジネス活用の可能性についてまとめる。

4年後、20倍に市場拡大する「音声ショッピング」

次世代のインターフェースの有力候補として、いま注目を集めているのが「音声」だ。

例えば、米国のインターネットオークション「イーベイ(eBay)」では、音声ショッピング用のアプリケーションを使った顧客体験をユーザーに提供している。スマートフォンに向かってまるで店員と会話をするように音声でコミュニケーションすると、欲しいアイテム、その素材、好きなスタイルなどから商品を絞り込める仕組みだ。

次世代のインターフェース「音声認識」がもたらす、人間とコンピューターの新たな関係性

現時点でこれらを活用しているのは、いわゆるアーリーアダプターと呼ばれる情報感度の高い層が中心だが、今後は私たちの生活やビジネスの現場を大きく変えていくことが予測されている。事実、OC&C Strategy Consultantsによる予測では、2022年、音声を使ったショッピングは現在の20億ドル(約2200億円)から400億ドル(約4兆4000億円)以上に成長すると見込まれているという。

かつてボタンを有した携帯電話がマルチタッチインターフェースのスマートフォンへと進化したように、インターフェースが革新され、それがある種の「標準」として広く人々に認識されて定着するとき、コンピューターと人間の関係性は大きくアップデートされる。それよって、私たちの生活のみならずビジネスの現場にも大きな変化がもたらされるのは言うまでもない。

ディープラーニングで、音声認識が遂げる驚異的な進化

IBMは音声認識の研究において、先駆的な成果を生み出してきた。

1960年代から音声認識システムの研究を始め、代表的な成果のひとつに「電話会話音声認識」がある。音質の低い電話回線の音声を対象に、人間同士の自然な会話を認識するためのシステムだ。

電話をする男性

人間の自然な会話を認識するには非常に高い技術的ハードルがあるが、実用化されればその応用範囲は計り知れない。

この研究の有用性に着目したアメリカ国防総省のDARPA(国防高等研究計画局)は1990年代から積極的な投資を行い、電話会話音声認識のためのベンチマーク・データ「Switchboardデータセット」を作成。世界中の研究機関はこのデータを用いることで、研究技術を定量化した上で競争することができるようになった。

こうしたDARPAの試みによって電話会話音声認識の研究は活性化し、IBM はこの研究競争を長年牽引する技術力を確立し、それは現在も揺るがないという。

音声認識システムは、実際の発話音声と書き起こしテキストによって構成される膨大な学習データによって学習され、次の2つのモデルによって成り立っている。

音声認識システム(出典:『IBM ProVISION 92号』P46)

音声認識システム(出典:『IBM ProVISION 92号』P46)

入力された音声信号が言語におけるどの音に対応するかをモデル化した「音響モデル」と、言語における自然な単語の並びをモデル化した「言語モデル」だ。

近年、これらのモデルに「ディープラーニング」(※)が導入された。その結果として、音声認識の精度に革新的な改善が見られ、それは音声認識の評価尺度である「誤り率」からも見て取ることができる。誤り率とは、音声認識システムが出力した認識結果のなかで、認識が誤っている割合だ。先述したSwitchboardデータセットによれば、人間がこの音声を聞いた場合の誤り率は5.1パーセントとされている。

Switchboardデータセットを用いた研究による、2000年頃のIBMの音声認識システムの誤り率は約20パーセント、つまり平均的には5単語認識すれば1単語が誤っていたのに対し、深層学習が導入された2011年頃以降、その精度は格段に向上し、最新の音声認識システムにおける誤り率は実に5.1パーセントを実現。つまり、IBMの音声認識システムはほぼ人間並み(「Almost Human」)を達成しているのだ。

SWITCHBOARDデータセットにおける誤り率の推移(出典:『IBM ProVISION 92号』P48)

SWITCHBOARDデータセットにおける誤り率の推移(出典:『IBM ProVISION 92号』P48)

厳しい条件下でも「人間並み」の音声認識システムを目指して

実世界に存在するノイズやくだけた発話などの厳しい条件により、音声認識の性能は劣化してしまう。これらをクリアするためには、より高度なアルゴリズムの開発が必要だろう。IBM では、厳しい条件下でも「人間並み(Almost Human)」を達成できるように音声認識の研究が続けられている.

冒頭で述べたように音声認識は次世代のインターフェースとして、コンピュータと人間の関係性をアップデートすると見込まれている。具体的には、ショッピングへの応用、コールセンターの品質向上、社内会議における議事録の作成など、その活用の可能性はまさに無限大だ。

それらの可能性を形にするためIBMが日々行っている、圧倒的に低い誤り率の音声認識技術、また音声認識システムと自然言語処理システムの統合による新たなアプリケーションの開発などから、今後も目が離せない。

 

TEXT:森 旭彦

(※)用語解説

ディープラーニング…人間のような学習能力をコンピューターに与える機械学習の方法を指す。人間の脳の神経回路の働きをコンピューター上でシミュレーションしようと考えられた数学モデルが「ニューラルネットワーク」であり、ニューラルネットワークを多層化し、より高度かつ複雑な機械学習を実現するのがディープラーニングである。「深層学習」ともいう。

本コラムのソース論文である『進化を続ける音声認識』はこちら

倉田岳斗

論文執筆者:倉田岳人
日本アイ・ビー・エム株式会社
IBM東京基礎研究所 AI、スピーチ・テクノロジー シニア・テクニカル・スタッフ・メンバー
 
2004年日本IBM入社。以来、東京基礎研究所において音声言語処理を専門とし、現在スピーチ・テクノロジー部門のマネージメントに従事。IBM Academy of Technologyのメンバー。博士(情報理工学)。