日立製作所、人間共生ロボットの対話技術を開発

日立製作所「EMIEW2」EMIEW2 日立製作所は、質問に含まれる対象と属性から最適な回答を選んで説明し、うなずいたり、首をかしげる動作から相手の理解度を推定して、より自然な回答をする人間共生ロボット「EMIEW2」の対話技術を開発した。この技術により、質問に対してより柔軟に回答することが可能となり、人とロボットの円滑なコミュニケーションを実現する。

 同社では、2005年に開発した「EMIEW」以来、人間と共生するロボット技術を開発している。2007年に発表した「EMIEW2」は、人の早足とほぼ同じ時速6kmで2輪の自律走行を行い、屋内の段差を乗り越えたり、危険を予知して回避するなどの運動機能や、14本のマイクによって雑音の中でも人の声を聞きわけたり、web情報から物体を認識しネットワークカメラで探し出し案内するなどの知的活動を実現してきた。

 人間共生ロボットの進化の中で、ロボットと人との自由な対話は最も重要な技術であり、多くの研究開発が行なわれている。自由な対話のためには音声認識、内容の理解と回答の作成、音声発話の技術が必要。近年、携帯電話などで人が話した質問から話題を推定し、話題に対応した回答をする機能が実用化されているが、ロボットは、離れた距離で、かつ、直接操作をすることなく会話の口調で対話を行うため、独自の技術開発が必要。今回、ロボティクスの対話機能を進化させるため、1)質問に含まれる複数の単語から最適な回答を選別、2) うなずいたり、首をかしげる動作から相手の理解度を推定、の二つの技術を開発し「EMIEW2」に搭載した。

 1)の技術は、事前に用意した質問文から、対象とその属性を認識するのに必要な単語の並びを学習し、データベースに記録・蓄積する。質問を受けたときに、音声認識により単語列を取得し、データベースと比較して、対象と属性を認識する技術を開発した。この技術により、知りたい対象とその属性に最適な回答の選別を実現する。今回、学習方法に、認識の分野で注目されているDeep Learningを使用することで、高い性能で認識可能になった。

 Deep Learningとは、神経細胞のメカニズムをモデル化したニューラルネットワークの学習方法の一種。ニューラルネットワークの構造は、入力層、中間層、出力層の三つからなる。Deep Learningは、中間層を増やすことで、従来と比較して複雑なモデルが表現可能となり、音声認識、画像認識などの分野で高い認識率を実現している。

 2)の技術は、事前に「EMIEW2」と人の対話映像を分析して反応に伴った動きを学習する。実際の対話では、「EMIEW2」の回答を聞いている相手を内蔵のカメラで撮影し、撮影された映像から相手がうなずいたり、首をかしげたりする動作を識別する。「EMIEW2」の回答に対して推測される相手の反応と比較して、質問者の理解度合いを推定する技術を開発した。回答の中身に沿って質問者の理解度合いを知る、より人間的な対話を実現する。

 今回開発した二つの技術を「EMIEW2」に搭載することで、会話口調での質問から、対象とその属性を認識し最適な回答を行い、さらに相手の反応を見て適切に対応する。これにより、ロボットと人との対話をより円滑にする。