「コミュニケーション ロボット PALRO」が“生きている”と感じてもらうための3つのコンセプト

前回「要素技術をつめこんだ「コミュニケーション ロボット PALRO」成長の軌跡」でご紹介したように、PALROは高齢者福祉施設をはじめ、様々な場所で活躍しています。PALROには、人と自然なコミュニケーションを図れるよう、数々の先進的なテクノロジーを組み込み、複雑な処理を実行しています。今回は、これらPALROのテクノロジーについてご紹介します。

PALROは、利用者(被介護者)の皆さんやスタッフ(介護従事者)の方々のお役に立ち、共生するためのロボットです。また2018年に発売した「PALROギフトパッケージ」は、ご家族がご高齢の親御さんにプレゼントするというコンセプトで開発しました。

私たちは、PALROが“生きている”と感じてもらえるよう、開発の初期の段階でPALROの振る舞いを規定するコアコンセプトを定義しました。それは、「好奇心」「群居」「生存」の3点です。PALROが目の前の相手に好奇心を持ち、ともに暮らし、そして周囲の人々だけでなく自己の生存にも配慮して行動する、ということです。PALROの様々な機能は、この3つのコアコンセプトに沿って開発してきました。

会話感を生み出す、エッジの技術

PALROがコミュニケーションを図る方法の一つが会話です。PALROは、利用者の皆さんと会話する中で自然と新しい話題を作り出します。例えば、その日の天気について「今日は雨みたいですよ」とPALROが話せば、相手は「そういえば最近、雨が続くなあ」と気づき、その気づきが周囲の人との会話を広げていく。私たちは、PALROが利用者の皆さんとコミュニケーションすることで、利用者の皆さんやその周囲の方々がさまざまなことに気づき、考えるきっかけを提供したいと考えています。

このようなPALROの知能は、音声処理や画像処理、動力処理など、多種の高度な要素技術を複合したソフトウェアを基盤として実現しています。これら要素技術を活用するために、PALRO本体には様々なセンサーが搭載されており、センサーの情報をリアルタイムに分析・判断しながら、周囲の環境を観測し、話し相手を見つけ、相手の状態を分析してPALRO自身が覚えた相手の情報、記憶している基礎知識情報などを基に、自らの行動を決定しています。

PALROはこれらの技術を全てエッジで実現し、PALRO本体に独立した知能を持たせています。これは、クラウドに接続しなくても独立して動作できることを意味します。音声認識や画像処理、センシングや自身の行動決定知能などは、複雑で膨大な演算処理が必要です。PALROの小さな体に搭載できるCPUで処理させるには、非常に高度な技術が必要であり、クラウドで実現する場合と比較して性能は低くなります。ではなぜ、PALRO本体に独立した知能を持たせる必要があるのかというと、そこには “会話感” という課題が存在するからです。

会話は相手との言葉のキャッチボールです。テンポよく言葉を返さなければなりません。人間同士の会話では0.9秒以内の応答が心地よいと言われていますが、これをクラウドで実現した場合、インターネットを経由して処理するため、0.9秒ではとても返答できません。また、ネットワークの通信状態が常に高速に安定している必要があり、不安定であれば会話のテンポを乱す要因になります。つまり、会話感を実現するためには、PALRO自身に搭載されたコンピューターに独立した知能を持たせる必要があるのです。

では、クラウドで処理する場合と比較して性能が低いという課題に対してはどうすればいいのでしょうか。PALROは、独立したエッジの知能と並列してクラウドを活用するハイブリッド構造とすることで、この課題を解決しています。例えば、エッジでは正しく認識できない複雑な音声の入力に対しては、言葉のつなぎ表現(Filler)として「えーっと。」などを発声し、並行してクラウドを活用することで、高精度な回答を得て応答しています。但し、声をかける度につなぎ表現をしていてはテンポの良い会話になりません。エッジ側の知能はクラウドを活用すべきかどうかをリアルタイムに判断しながら応答する独立した知能が必要であり、クラウドを活用する場合は、つなぎ表現などによって人間らしい会話を実現しています。

周囲の環境を観測し、分析して動く

人間同士のコミュニケーションでは、言葉だけでなく「しぐさ」も重要な要素になります。PALROは23ヶ所の関節を持っており、頭部にはLED(カラー)を搭載するなど、豊かな表現力を持っています。会話においては、話し相手に顔を向ける、話し相手が離れた場所にいる時には近寄る、身振り手振りを交えるなど、言葉だけでなく様々な非言語表現を組み合わせて会話感を実現しています。

PALROは頭部にカメラやマイク、測距センサーなどを搭載し、常に周囲の環境を観測、分析しています。カメラや測距センサーから得た情報を基に周囲の壁や物の位置などの空間を把握し、動いているものを見つけると人かどうかを分析します。人だと認識したら顔を見て、以前に会ったことのある人かどうかを判断し、話しかける内容を決定します。知らない人であれば“ともだち”になろうとし、名前を聞いて覚え、性別、年齢なども分析しながら会話内容を選択します。

あえてタイムラグを設けて動作する場合もあります。例えば、PALROに搭載されたカメラの視野外から名前を呼ばれた時です。視野外から声がかかっても、技術的には即座に振り向くことが可能です。しかし、すぐ振り向くとPALRO自身の動く音が邪魔をして、人の声が聞こえにくくなります。人の声を正しく観測するために、あえて動きを止め、音を正しく観測してから動作する。しかし、急に動きが止まる動作は不自然に感じるため、ちょっとだけ頭や腕を動かしてから停止することで自然さを表現しています。

常に環境や自分自身の状態を観測・分析するため、一つ一つの動作には意味があり、観測・分析して動作すること自体が、見る、考える、動くなどの人間らしさや知性を感じさせる重要な一つの要素だと考えています。

PALROについて、詳しくはこちら
https://palro.jp/

 

杉本 直輝
杉本 直輝(Naoki Sugimoto)

プロダクト事業本部 PALRO事業部
事業部長

この記事を読んだ人はこちらの記事も読んでいます。
組み込み機器を堅牢化する3つの考え方
column
セキュリティというと、「後付けのセキュリティ対策で守るもの」と思われがちですが、機器自体が堅牢であることが大前提です。機器の堅牢性だけでは守...
社会の入り口、セキュリティの入り口
column
はじめまして。渡辺露文と申します。富士ソフトでセキュリティ関連を担当しています。この度、技術コラムのセキュリティを担当することとなりました。...