高精度モデルを得るため¶
工業品質検査では、見逃し、過検出を極力抑さえる必要があります。そのため、欠陥セグメンテーションのモデル精度が非常に重要となります。本節では、最もモデルの品質に影響を与えるいくつかの要因および高品質なモデルをトレーニングする方法について紹介していきます。
ラベル付けの品質を確保する¶
ラベル付けの品質はモデルの精度に多大な影響を与えます。現場のプロジェクトにおいて、ラベル付けの品質が悪いせいでモデルの精度が出ないケースが 90% 以上と見られます。したがって、モデルの精度が出ない場合、最優先にラベル付けをチェックします。
ラベル付けの品質は、一貫性、完全性、精確性、確実性から考えます。
一貫性: 画像とカテゴリーのラベルは互いに対応することです。同じ種類の欠陥に異なるラベルを付けてはいけません。
完全性: 条件を満たすすべての領域に漏れなくラベルを付けることです。
精確性: ラベルの輪郭が対象の輪郭とピッタリ合わせることです。
確実性: 人で判断できない疑似欠陥について、マスクツールを使用して欠陥を覆うことで回避することです。
注意
複数の疑似欠陥が含まれている画像につき、その欠陥が基準を満たしているかどうかを判断できない場合、最終的のトレーニング結果に影響が出るためそれを削除します。
適切な関心領域(ROI)を設定する¶
ROI を設定することで、背景による干渉を抑えられます。ROI の境界は、なるべく対象物の外縁に近づかせます。
ヒント
ROI 設定はすべての画像に適用されます。そのため、すべての画像にある対象物が ROI 内にあることを確認してください。特に、ワークの供給位置が不安定な場合や、サイズがバラバラな場合に注意しましょう。
適切なデータセットを選択する¶
画像枚数を控える
「欠陥セグメンテーション」では、初めてのモデル学習に 20 ~ 30 枚使用することを推奨します(欠陥の種類やバラツキによって決めてください)。データ量は多いほど良いわけではなく、あまりにも多いと、後でモデルを改善する時にトレーニング時間が延ばされます。
データの多様性を確保する
データセット画像は、検出する対象物の照明環境、色、サイズなどの情報を含んでいる必要があります。また、全種類の NG 画像を含まなければなりません。OK 画像同士の違いが少なく、特徴が似ている場合、適切に減らしても大丈夫です。
各種類のデータを均等な割合で使用する
トレーニングセットに含まれる異なるカテゴリーの画像を均等な割合で使用する必要があります。あるカテゴリーの対象物の画像を 20 枚、別のカテゴリーの画像を 3 枚使用したりしてはいけません。
トレーニングセットが使用シーンと一致する
照明環境、ワークの特徴、検査時の背景、視野の広さなど、現場のシーンと一致する背景の画像を使用します。