
富士ソフトの技術管理統括部 先端技術支援部に所属する清水です。私が所属するロボットインテグレーション室では、ロボットのシミュレーターや開発フレームワークの調査・研究などを実施しています。メーカーや製造業のお客様からは「ロボットの再設定に時間がかかる」「作業変更の度に専門の技術者が必要になる」といった声が多く寄せられています。なかでも共通しているニーズが“アームロボット制御の自動化・効率化”です。
今回は、アームロボット×LLMで生産性向上を実現する方法について、前編・後編に分けて詳しく解説します。前編では、アームロボット制御の現状と課題、生成AIの一種であるLLM(Large Language Model=大規模言語モデル)の概要、ロボット分野でLLMを活用するメリットを解説します。後編では、ロボットインテグレーション室が研究を進めているオープンソースのVLA(Vision-Language-Action)モデル「Open-VLA」をご紹介します。加えて、当室が「Open-VLA」以外の選択肢候補として考えている最近登場した、LLMによるロボット制御ライブラリ「RAI」の研究事例についても少し触れています。アームロボットを自社で活用している企業や、導入を検討している企業は、ぜひ参考にしてください。
アームロボット制御の現状と課題
はじめに、アームロボット制御の現状と課題について説明します。アームロボットは、物体の移動・加工・組み立てなどが自動ででき、生産現場の効率化に大きく貢献しています。アームロボットの基本的な制御方法は、ティーチングベースとプログラムベースの2種類です。
ティーチングベースは、技術者がロボットを直接操作して特定の位置や姿勢を教え込み、動作を教示する方法です。ロボットを直接操作するため、その場で動作を確認できるメリットがあります。
一方、プログラムベースは、ロボットの動作をコードで指定して、座標や姿勢をプログラムし、指示通りに動作させる方法です。プログラムベースのメリットは、条件分岐などでさまざまな環境やタスクに応じて高度な制御を実現できる点です。精密な動作を簡単に実現できます。
アームロボット制御の課題は、大きく分けて2つあると考えています。1つは、柔軟性が欠如している点です。現在のアームロボット制御では、新しい作業や環境の変化が発生する度に微調整や再設定を行わなければいけません。
もう1つは、専門的な知識が必要な点です。アームロボットを制御するためには、プログラミングスキルやロボット制御に関する高度な知識が求められます。近年、これらの課題を解決する技術として注目されているのがLLMです。
LLMをロボット分野で活用するメリット
LLMとは、インターネット上に存在する膨大なテキストデータをディープラーニングで学習した、自然言語処理のAIモデルです。要約や質問応答、翻訳、文章生成など、汎用性の高いタスクに幅広く対応できます。
LLMが急速に普及したきっかけは、2022年に登場した「ChatGPT3.5」だといわれています。ChatGPTを皮切りに、Google GeminiやMeta Llama、Anthropic Claudeなど、新しいLLMが次々と登場しました。LLMの市場は、2030年に36.1億ドルまで成長すると予測したデータ※もあり、今後さらに高機能かつ実用的なモデルが広く普及すると期待されています。
※出典 株式会社SEMABIZ Large Language Model Market – Global Forecast to 2030
現在、LLMは主にカスタマーサポートにおけるチャットボットや、プログラミング支援のコード生成ツールなどで活用されています。これをロボット制御に応用すると、多くのメリットを得られます。
LLMは自然言語を理解できるため、ユーザーが「この部品をこちらに移動して」などと指示を出すだけで、ロボットがその意図を把握して動作を実行します。現場の変化や新しいタスクに柔軟に対応可能で、微調整や再設定にかかる時間を大幅に削減できます。
また、LLMを介してロボットを操作すれば、プログラミングスキルやロボット制御に関する高度な知識がなくても、誰でも自然言語でロボットを操作できます。さらに、壊れやすい物品を適切に運搬したり、場所や作業環境の変化に柔軟に対応したり、より高度な判断・対応が求められる場面でもロボットが柔軟に対応できるようになります。生産現場全体の効率が向上し、運用コストや人件費の削減、利益率の向上にもつながるでしょう。
LLMによるロボット制御のアプローチは大きく分けて2つ
LLMによるロボット制御のアプローチは、大きく分けてプロンプトエンジニアリング型とファインチューニング型の2つです。
プロンプトエンジニアリング型は、既存のLLMに指示や質問(プロンプト)を設計して、ロボットで動作させるコードを生成する方法です。既存のLLMを活用できるので、比較的容易に導入できるメリットがあります。プロンプトエンジニアリング型の具体例は、2023年にMicrosoftが公開した「PromptCraft-Robotics」などです。PromptCraft-Roboticsでは、ChatGPTを用いてロボット制御コードを生成することが可能です。自然言語で記述されたロボットの仕様やタスクなどをLLMがロボット制御コードに変換する仕組みです。
ファインチューニング型は、特定のタスクに対してラベル付きの学習データを用いてLLMを再学習(ファインチューニング)させる方法です。ファインチューニングを行うと、モデルは特定のニーズに関する知識を得られ、ロボットが特定の環境・状況で最適に動作できるようになります。ファインチューニング型の具体例は、Googleの「Google RT(Robotic Transformers)-2モデル」などです。このモデルは、言語情報をAI内部で紐付け、ロボットの動作を生成するVLAモデルとも呼ばれています。
従来ローカルのロボットデータで学習していたモデルに対し、VLAではLLMを拡張し、インターネット上のデータを活用して、明示的に学習していない未知の物体に対する認識を向上させられます。
LLMを用いたロボット制御では、ユーザーが自然言語を入力してロボットを制御します。プログラミングのスキル・知識がなくても直感的にロボットを動かせるようになります。ロボット操作の敷居が下がると、多くの方がロボットを活用しやすくなるのもメリットです。
さらに、AI制御モデルの汎用性向上も期待できます。LLMはあらかじめ大量のデータを学習しているため、新たに収集するデータの量を抑えられ、学習にかかる作業を大幅に簡略化できます。少ない労力で高精度な学習が可能なため、ロボットの動作をより迅速かつ柔軟に実行できるようになるでしょう。
前編のまとめ
アームロボット制御では、新しい作業や環境の変化が発生する度に微調整や再設定が必要となり、専門的な知識が求められています。LLMを活用すれば、全体の生産性を向上させ、運用コストや人件費の削減につなげられます。製造現場のさまざまなニーズに対しても柔軟に対応できるでしょう。
後編では、ロボットインテグレーション室で研究中の「Open-VLA」の特徴や可能性、実施中の検証内容、そしてLLMによるロボット制御の将来性を詳しく解説します。
次の記事はこちら
LLMによるロボット制御〈後編〉|【検証と今後の展望】「Open-VLA」で挑む!LLMによるロボット制御の将来性とは?