采集训练所需数据

注意

采集数据是深度学习项目最关键的部分。模型最终效果很大程度上取决于训练数据的质量,高质量的数据集往往能够提高模型训练的质量和预测的准确率。

务必确保采集环境符合要求

  1. 避免 过曝、过暗、颜色失真、模糊、遮挡 等。这些情况会导致深度学习模型所依赖的特征丢失,从而影响模型效果。

    ../../../_images/1_overexposed1.png
    ../../../_images/2_darker_lighting.png
    ../../../_images/3_color_distortion.png
    ../../../_images/4_obscure.png
    ../../../_images/5_occluded.png
  2. 确保采集数据的 背景、视角、高度 与实际应用一致。任何不一致都会降低深度学习在实际应用时的效果,严重情况下必须返工重新采集数据,请务必提前确认实际应用时的情况。

    ../../../_images/6_background_inconsistent.png
    ../../../_images/7_field_mismatch.png
    ../../../_images/8_height_mismatch.png

采集多少张数据

  • 如仅有单类物体,采集约50张。

  • 如有多类物体,每类物体采集约30张, 采集总量 = 30 * 类别数量

  • 以上为通用采集量,典型行业应用有更细化的标准,可参考 典型项目数据采集案例

注意

训练数据集太少,模型将没有足够多的样本,在此基础上拟合的数据会导致深度学习模型无法有效训练,测试错误率很高;数据太多会导致训练速度不必要地降低,请务必合理分配。

采集时的物体摆放

各种摆放情况均需按采集要求合理分配数量,例如实际生产时来料有横向和竖向,但只采集了横向来料的数据进行训练,那么无法保证竖向来料的识别效果。又如实际生产时来料有可能互相堆叠遮挡,但只采集了单独来料的数据,那么无法保证堆叠遮挡来料的识别效果。 因此,采集数据时需要能 包含实际生产的各种场景 ,具体包括:

  • 确保采集的数据中包含实际应用所有可能出现的 物体朝向

  • 确保采集的数据中包含实际应用所有可能出现的 物体位置

  • 确保采集的数据中包含实际应用所有可能出现的 物体间关系

注意

如果漏采集了某种情况,会导致深度学习模型缺少对于该情况的学习,从而在该情况下无法有效识别,这意味着需要根据情况增加数据样本,降低误差。

  1. 物体朝向

    ../../../_images/9_different_towards.png

    物体不同面朝上

  2. 物体位置

    ../../../_images/10_different_situations.png

    物体位于料筐中央、料筐四周、料筐边角

    ../../../_images/11_different_layers.png

    物体位于不同层高

  3. 物体间关系

    ../../../_images/12_different_positions.png

    物体间互相平铺、堆叠

    ../../../_images/13_different_positions.png

    物体间紧密贴合

使用Mech-Vision采集数据

上述采集环境、采集数量、采集时摆放方式均确认后,可使用Mech-Vision搭建如下图所示的步骤组合来采集数据。步骤使用详解参阅 capture_images_from_camera

../../../_images/step_combination.png

历史项目数据采集案例

  1. 某金属件项目,单类物体,因此采集50张。物体朝向方面,可能平躺或侧立,采集时都需要考虑。物体位置方面,需要考虑位于料筐中央、四周、边角以及不同高度的情况。物体间关系方面,除堆叠外还需要考虑少量并排。实际采集的图片如下:

    ../../../_images/14_metal_part_placement_status.png

    少量散乱(左上) & 集中散乱(右上)&堆叠(左下) & 集中散乱(右下)

    ../../../_images/15_metal_part_poses.png

    平铺 & 侧立 & 堆叠 & 并排

  2. 某日用品项目,7类物体混料,需要分类。采集时需考虑“单类物体多种朝向摆放”和“多类物体混合摆放”的情况,以全面地采集物体特征。单类物体采集数量= 5 * 类别数量,多类物体混合摆放数量= 20 * 类别数量。物体朝向方面,可能平躺、侧立或倾斜,采集时每个面都需要考虑。物体位置方面,需要考虑位于料筐中央、四周、边角。物体间关系方面,除堆叠外还需要考虑并排与紧密拼接情况。实际采集的图片如下:

    单独摆放:

    ../../../_images/16_singel_class_subject_positions.png

    料筐边角(左上) 紧密拼接(右上) 紧密贴合(左下) 少量散乱(右下)

    混合摆放:

    ../../../_images/17_mix_classes_subject_positions.png

    紧密贴合 & 料筐边角 & 散乱堆叠

  3. 某履带板项目,物体有多个型号,因此采集(30*型号数量)张。物体朝向方面,只需考虑正面向上摆放。物体位置方面,摆放方式单一,需包含考虑高、中、低层不同高度视野的数据。物体间关系方面,规则码放,需重点注意紧密贴合的情况。实际采集图片如下:

    ../../../_images/18_different_layers.png

    高、中、低层不同高度视野

  4. 某金属件项目,仅平铺一层,因此采集50张。物体朝向方面,仅平铺一层,只需考虑正面向上摆放。物体位置方面,需考虑到位于料筐中央、四周、边角。物体间关系方面,需考虑紧密贴合等,实际采集图片如下:

    ../../../_images/19_different_situations.png

    满层摆放 & 料筐四周 & 料筐边角

  5. 某金属件项目,多层整齐码放,采集30张。物体朝向方面,只需考虑正面向上摆放。物体位置方面,需考虑到位于料筐中央、四周、边角以及高、中、低层不同高度的情况。物体间关系方面,需考虑紧密贴合等,实际采集图片如下:

    ../../../_images/20_different_layers_positions.png

    高层(左上) & 高层少量(右上)& 低层全满(左下) & 低层料筐四周(右下)