如何训练高质量的模型¶
工业质检通常对漏检率和过检率都有严格的标准,因此缺陷分割模型的质量非常重要。本章将介绍最影响模型质量的几个因素,以及如何训练高质量缺陷分割模型。
确保标注质量¶
标注质量是影响模型效果的最大因素。实际项目中,因标注质量导致模型效果差的情况占比高达 90% 以上。因此,如果模型效果不佳,应优先排查标注质量问题。
标注质量应从一致性、完备性、精确性、确定性几个方面考虑:
一致性: 确保缺陷标注方式的一致性,禁止出现同一类型缺陷使用不同方式标注的情况。
完备性: 确保对所有符合缺陷评判标准的区域都进行了标注,禁止出现遗漏标注的情况。
精确性: 确保标注区域贴合缺陷边缘,精细标注缺陷区域,禁止粗放使用大面积标注覆盖缺陷区域。
确定性: 对于模棱两可的缺陷,当无法判定是否符合缺陷判定标准时,可以使用掩膜多边形工具遮盖缺陷区域。
注意
图像中有多处缺陷时,如果无法判断是否符合缺陷判定标准,可以删除当前图像,避免影响模型训练效果。
设置合理的感兴趣区域(ROI)¶
设置 ROI 可以有效排除背景的干扰,ROI 边界应尽量贴近物体外轮廓。
提示
同一 ROI 设定将应用于所有图片,因此需要保证所有图片中的物体都位于 ROI 内,尤其是物体位置/尺寸不固定的场景。
选取合适的训练集¶
训练集数量需可控
对于缺陷分割模块初次建模,建议选择 20~30 张图片作为训练集(根据缺陷类别和差异程度可适当调整数量)。数据并不是越多越好,前期大量无效的数据集不利于后期模型迭代,且会增加训练时间。
数据要具有代表性
训练集一定要涵盖所有需要检测缺类型的 NG 图像,包含所有形态、背景、颜色、尺寸等信息。 OK 图像的特征差异较小时,可以选择少量的 OK 图。
数据占比要均衡
训练集中各种缺陷图像数量比例需均衡,禁止一种缺陷图像有 20 张,另一种缺陷图像仅有 5 张的情况。
数据集要与终端场景保持一致
数据集的图像要与最终模型使用的终端场景保持一致,包括光照条件、工件特征、检测背景、视野大小等。