AIモデル開発における学習データの重要性～AIモデル開発の効率化～

2024年3月12日

野村悟

Satoru Nomura

ASI事業本部モビリティ事業部
AIシステム部
部長 / フェロー

AIモデルの開発方法
アノテーションの問題
富士ソフトの自動アノテーションシステム
学習データのバランス調整の問題
学習寄与度
自動アノテーションシステムの効果
さいごに

　AIモデルを開発する際には、AIモデルの選定、学習データの用意、AIモデルのパラメータ調整など様々な工程が発生します。その中でも、学習データはAIモデルの精度に直結するため、非常に重要です。「学習データは十分にあるのに期待するほど精度が上がらない」、「大量の学習データが必要だが手作業のアノテーションでの対応はコストがかかる」、「学習時間が長い」、「膨大なリソースが必要になる」など、AIモデル開発時の学習データの問題でお悩みの方は多いのではないでしょうか。
　今回は、前述の問題解決に貢献する、AIモデル開発の効率化についてご紹介します。

AIモデルの開発方法

　一般的なAIモデル開発では、以下のように①～③で学習データを準備し、④～⑥のサイクルを繰り返して学習します。

　アノテーションは標準ルールを設定して作業しますが、複数の作業スタッフが手作業で行うためバラつきが発生します。バラつきは学習データの品質を低下させる原因になりかねません。また、経験則を元にする開発方法な為、アノテーションに時間がかかり、何度も再学習が必要になってしまいます。

アノテーションの問題

　例えば画像の中の人をアノテーションする場合に、「人の体が50%隠れていたらアノテーション対象外とする」とルールを決めたとしましょう。作業スタッフは、画像の中の人を見て、50%隠れているかどうかを各自で判断しアノテーションします。複数人で作業する場合は、基準である50%が作業スタッフによって異なり、アノテーションデータにバラつきが生じます。さらに、大量のデータにアノテーションするので、膨大な作業時間も必要です。

では、AIが自動でアノテーションを行うとしたらどうでしょうか。AIが画像上のデータを50%の基準で判断するため、アノテーションデータにバラつきが少なくなります。高品質のアノテーション済み学習データを短時間で生成できるようになり、手作業のコストも削減できます。

富士ソフトの自動アノテーションシステム

　アノテーションの問題を解決するため、富士ソフトは自動アノテーションシステムを開発しました。本システムは、当社独自のAIを活用し、高品質なアノテーションを自動で行います。既存検知モデルを使い3つのステップを踏むことで、検出の難易度が高い箇所や見落としやすい箇所などを分類します。

学習データのバランス調整の問題

　アノテーションを自動化することで学習データの品質向上と作業軽減を実現できますが、学習データのバランス調整は技術者が手作業で行う必要があります。学習に必要なデータや必要ないデータを判断する指標が存在せず、技術者自身の経験や勘に頼っているからです。そのためAI開発には高度な技術力と経験が必要であり、手作業のため時間もかかります。AI技術者の不足も深刻な問題になっています。

　では、AIが自動で学習データのバランスを調整するためのレベル付けを行うとしたらどうでしょうか。AIがデータの学習効果への影響度を判断するため、学習に必要なデータか必要ないデータの判断にバラつきが少なくなります。高度な技術力と経験を持つ技術者がいなくても効果的なAI開発が可能になり、AI技術者不足の改善にもつながります。

学習寄与度

　この問題を解決できるのが、自動アノテーションシステムの学習寄与度です。当社が独自で開発した機能で、技術者の経験値である「AIモデル学習の結果へのデータの影響度」を、学習寄与度として自動で分類しレベルを付与します。学習寄与度を指標とすることで、技術者の経験や勘に頼ることなく、学習に必要なデータを効率的に選定できます。

　また、AIモデルの性能を向上させるためには、バランスの取れた学習データを準備する必要があります。検出難易度が低いとレベル付けされたデータを大量に準備して学習させたとしても、AIモデルの精度向上にはそれほど期待できません。検出難易度が低いデータや高いデータなど、様々なデータをバランスよく学習させることが、効果的にAIモデルの推論精度を向上させることにつながります。
　つまり、学習寄与度の機能を活用して大量の学習データをレベル分けしておくことで、効率的に学習データを選定し、バランスを調整し、AIモデルの推論精度を向上できるのです。

自動アノテーションシステムの効果

学習寄与度によるAIモデルの学習効率化

学習データの量は十分あるはずなのに、いくら学習してもAIモデルの推論精度が上がらない場合があります。そのような場合は、学習データに偏りが出て、バランスが崩れている可能性があります。
本システムは、アノテーションデータに学習寄与度を付与するため、学習寄与度を指標として不要な学習データを減らすことで学習データのバランスを改善できます。これによって、推論精度向上が期待でき、かつ学習時間とメモリ量の削減に貢献できます。

アノテーション時間の削減

AIモデルの学習には多量の学習データが必要となるため、手作業によるアノテーションでは膨大な時間が必要です。本システムはAIが自動でアノテーションするため、手作業によるアノテーション作業を削減し、アノテーション時間を約7割も削減（当社の検証結果）できます。

手作業によるバラつきの抑制

アノテーション作業は、人の手作業で行われていました。しかし、手作業によるアノテーションでは、人によるバラつきが生じることがあります。このバラつきは、AIモデルの学習に悪影響を及ぼすことがあります。本システムはAIが自動でアノテーションするため、バラつきを最小限に抑えることができます。

さいごに

　本コラムでは、AIモデル開発時の学習データの重要性と、AIモデル開発の効率化について解説しました。アノテーションの自動化や学習寄与度の活用が、「学習データ量の削減」、「学習データ量はあるのに期待以上に精度が上がらない」、「学習時間が長い」、「膨大なリソースが必要」といった問題の解決につながることをご紹介しています。
　当社が開発した自動アノテーションシステムは、2024年3月より、AI開発効率化ソリューション「自動アノテーションサービス」としてご提供を開始しています。
　AIモデルの開発には、是非当社の自動アノテーションサービスをご検討ください。

関連サービスについて、詳しくはこちら
AI開発効率化ソリューション　自動アノテーションサービス

まずはお気軽にご相談ください