如何训练高质量模型¶
本章将介绍最影响模型质量的几个因素,以及如何训练出高质量图像分类模型。
确保图像质量¶
避免 过曝、过暗、颜色失真、模糊、遮挡 等情况。这些情况会导致深度学习模型所依赖的特征丢失,影响模型训练效果。
确保采集数据的 背景、视角、高度 与实际应用一致。任何不一致都会降低深度学习在实际应用时的效果,严重情况下必须返工重新采集数据,请务必提前确认实际应用时的情况。
确保数据集质量¶
“图像分类”模块通过学习已有图像的特征得出模型并应用到实际场景,因此采集和选取的数据集必须与实际场景情况一致才能训练出高质量模型。
采集数据集¶
需合理分配各种摆放情况。例如实际生产时来料有横向和竖向,但只采集横向来料的数据进行训练,则无法保证竖向来料的分类效果。 因此,采集数据时需要能 包含实际生产的各种场景 ,具体包括:
实际应用可能出现的待分类物体 不同角度 的特征。
实际应用可能出现的待分类物体 不同位置 的特征。
各个角度
不同位置
采集数据案例¶
某阀管项目,单类物体,需要区分阀管正反面,位置移动幅度较小,正反面各采集 15 张。
某发动机气门装配项目,单类物体,需要区分工件是否正确摆放在卡槽内,由于摆放在卡槽外可能出现的姿态较多,需考虑不同位置和不同角度摆放的情况,采集 20 张左右;摆放在卡槽内的只需考虑不同位置的情况,采集 10 张左右。
某金属薄片项目,两类物体,需要区分工件大小,可能出现不同位置不同角度的情况,正反面各采集 20 张。
选取合适的数据集¶
训练集数量可控
对于“图像分类”模块初次建模,建议使用 30 张图像。数据量并不是越大越好,前期加入大量无效的数据集不利于后期的模型改进,同时还会延长训练时间。
数据具有代表性
数据集图像一定要涵盖待检测目标的所有光照、颜色、尺寸等信息。
光照:实际存在光照变化,数据集应该包含不用光照情况下的图像。
颜色:工件存在不同颜色,数据集应该包含所有颜色的图像。
尺寸:工件存在不同尺寸,数据集应该包含所有不同大小尺寸的图像。
注意
若实际现场工件会出现旋转、缩放、或其他情况,无法采集相应图像数据集时,可以通过调整数据增强训练参数的方式来补充数据集,以确保现场所有的情况都包含在训练集内。
数据占比均衡
训练集中不同种类的图像比例要均衡,否则会影响模型效果。禁止出现一种物体 20 张,另一种物体仅有 3 张的情况。
数据集与终端场景保持一致
数据集的图像要与最终模型使用的终端场景保持一致,包括光照条件、工件特征、检测背景、视野大小等。