AI字符识别工具

您正在查看最新版本（V2.2.1）的文档。如果您想查阅其他版本的文档，可以点击页面右上角“切换版本”按钮进行切换。

■ 如果您不确定当前使用的产品是哪个版本，请随时联系梅卡曼德技术支持。

功能介绍

“AI字符识别工具”是一款基于深度学习的可视化识读工具，支持针对不同字符进行自定义训练。用户通过完成向导式配置流程，即可快速实现从图像采集到模型推理的全流程。该工具通常应用于金属刻印、曲面字符、复杂背景等传统算法难以处理的场景。

该工具内置了预训练模型，设置好目标区域后即可直接进行推理，无需从零开始训练。用户只需根据验证结果，按需追加训练优化模型即可。

采集图像：采集用于验证和优化模型的图像数据。建议覆盖实际生产环境中的典型情况，确保图像质量和多样性，以提升模型的判定准确率。
设置目标区域：在采集到的图像上设置目标区域（ROI），支持矩形或圆环形态，准确框选字符区域，为后续识别锁定核心范围。
模型验证与优化：使用采集的图像验证模型识别效果，你可根据实际情况设置校正字符内容、识别范围、判定条件及字符串拼接规则。若识别结果不准确，可通过“追加训练”功能补充图像并定向优化模型，直至效果满足实际需求。

使用流程

进入工具后，在左侧模型列表中单击右上角的新建，创建并进入新的模型配置流程。

采集图像

采集用于验证和优化模型的图像数据。

确认当前步骤的输入端口已接入图像数据。
进入工具时，相机将自动采集一张图像数据用于模型验证，你可单击采集图像按钮，采集新的图像数据验证模型。

采集图像时，建议覆盖生产现场的典型变化，包括：

位置与角度差异：覆盖工件在视野中发生平移、旋转或倾斜的图像。
光照与背景差异：覆盖不同亮度、阴影以及背景杂乱或颜色变化的图像。
外观与形态差异：覆盖工件存在的轻微变形、污渍、划痕或批次色差的图像。

多样化的图像有助于更全面地验证模型效果，并提高后续优化效率。

设置目标区域

采集图像后，需要设置目标区域（ROI）以限定字符识别范围。

当“物体位姿”端口存在输入时，ROI 将随目标位姿同步变换。此处设置的 ROI 为基准位置，实际识别时将根据对齐参数动态偏移。

单击编辑按钮，进入目标区域设置界面。
设置单个字符大小。

系统将在可视化区域自动生成一个橙色的默认字符大小矩形框。选中后，通过拖拽边框即可调整其大小。为确保模型推理精度，请将该框调整至与实际字符尺寸相近的大小，过大或过小均会影响识别效果。

若可视化区域中未显示字符大小区域，请检查“显示字符大小区域”开关是否已开启。

设置目标区域。提供两种方式：

设置方式	说明
全部为目标区域	ROI 自动覆盖整张图像。适用于目标字符占满图像的场景。如需排除部分区域，可在下一步设置屏蔽区。
自定义目标区域	选择“矩形”或“圆环”框选工具，在可视化区域拖拽绘制 ROI。请根据目标字符的实际位置和形状，准确框选目标区域，避免包含无关背景。矩形框选：直接拖拽绘制矩形 ROI。圆环框选：参考下图沿圆周拖拽绘制圆环 ROI。绘制完成后，需设置环形文字读取方向为顺时针或逆时针。

设置方式

说明

全部为目标区域

ROI 自动覆盖整张图像。适用于目标字符占满图像的场景。如需排除部分区域，可在下一步设置屏蔽区。

自定义目标区域

选择“矩形”或“圆环”框选工具，在可视化区域拖拽绘制 ROI。请根据目标字符的实际位置和形状，准确框选目标区域，避免包含无关背景。

矩形框选：直接拖拽绘制矩形 ROI。
圆环框选：参考下图沿圆周拖拽绘制圆环 ROI。绘制完成后，需设置环形文字读取方向为顺时针或逆时针。

设置屏蔽区域（可选）。

当目标区域内存在反光、阴影或固定背景等无关干扰时，可通过设置屏蔽区域将其排除，避免影响模型训练和分类判定结果。

单击设置屏蔽区域按钮，使用“多边形”框选工具在可视化区域绘制屏蔽区：单击左键添加多边形顶点，双击右键闭合多边形完成框选。
设置完成后，单击 保存并使用，应用目标区域配置。

当字符大小区域、目标区域和屏蔽区域的掩膜完全重叠时，仅置顶的图层支持编辑。

单击鼠标右键可快速对区域执行删除、置顶或置底操作。

模型验证与优化

完成目标区域设置后，单击验证按钮进入验证界面。

设置验证参数并验证模型效果

你可在验证界面查看或设置如下参数，并观察模型的识别结果是否符合预期。

参数	说明
验证结果	参数解释：显示字符识别结果。启用判定后，将根据设置的判定条件显示验证结果为 OK 或 NG。
耗时	参数解释：显示单次推理耗时（单位：ms）。
置信度阈值	参数解释：模型识别字符的最低置信度标准。低于此值的识别结果将被判定为识别失败。默认值：0.5 调节说明：推荐使用默认值。
校正字符内容	参数解释：用于约束识别结果前 N 位字符的类型。输入的通配符数量决定约束的字符位数，超出长度的后续字符不受影响。当某位字符不符合约束类型时，模型会将其替换为该类型中置信度最高的候选字符。支持通配符：?（任意字符）、$（英文字母）、%（数字）、@（符号）、!（英文大写字母）、&（英文小写字母）。默认值：关闭。调节说明：适用于固定格式字符校正，例如前几位有明确类型要求的场景。建议按实际编码规则从左到右填写通配符，避免过度约束导致误改。调节示例：已知实际编码格式为“数字 + 英文大写字母 + 数字 + …”，但模型识别结果为 “iR20181102ar06Xd”，首字符被误识别为英文小写字母。此时在输入框中填入 “%!%”（第 1 位限定为数字，第 2 位限定为英文大写字母，第 3 位限定为数字；第 4 位及之后不受限制），再次推理后，首字符被校正为置信度最高的数字，结果变为 “1R20181102ar06Xd”。
识别对象	参数解释：指定从识别结果中读取并参与后续处理的字符类型，未勾选的字符将被忽略。值列表：英文大写字母、英文小写字母、数字、符号默认值：全部勾选。调节说明：根据实际字符内容勾选参与识别的字符类型，减少无关字符干扰，提高模型判定准确率。
拼接间隔符	参数解释：当识别到多行字符时，指定行与行之间的连接方式。默认值：无。调节说明：根据实际需求进行调节。
启用判定	参数解释：用于验证识别结果是否符合预期。可限定字符类型、字符数量或固定格式，不符合规则的结果将判定为 NG。支持两种判定模式：判断字符数量：设定字符个数范围 [最小值, 最大值]，识别结果长度不在范围内则判定为 NG。判断字符内容：将识别结果与基准字符串逐位比对，仅比对基准字符串长度范围内的字符，超出部分不参与判定（视为通过）。不一致则判定为 NG。支持两种基准来源：手动输入模式：手动输入固定字符串或通配符模板作为基准。通配符规则与“校正字符内容”一致。例如输入 “%!%”，识别结果为 “iR20181102ar06Xd”，则系统仅比对前 3 位：第 1 位 “i”不是数字（%），判定为 NG。第 4 位及之后不参与判定。全局变量模式：从全局变量中获取基准字符串进行比对。切换至该模式后，系统将列出可用全局变量供选择。此处仅支持关联“单次结果”模式且数据类型为字符串（String）的全局变量。选定后即以该变量的当前值作为判定基准。关于全局变量的使用用法，请参阅全局变量。默认值：关闭。调节说明：用于自动合格性检查。固定格式验证选手动输入模式，动态内容验证选全局变量模式。

参数

说明

验证结果

参数解释：显示字符识别结果。启用判定后，将根据设置的判定条件显示验证结果为 OK 或 NG。

耗时

参数解释：显示单次推理耗时（单位：ms）。

置信度阈值

参数解释：模型识别字符的最低置信度标准。低于此值的识别结果将被判定为识别失败。

默认值：0.5

调节说明：推荐使用默认值。

校正字符内容

参数解释：用于约束识别结果前 N 位字符的类型。输入的通配符数量决定约束的字符位数，超出长度的后续字符不受影响。当某位字符不符合约束类型时，模型会将其替换为该类型中置信度最高的候选字符。支持通配符：?（任意字符）、$（英文字母）、%（数字）、@（符号）、!（英文大写字母）、&（英文小写字母）。

默认值：关闭。

调节说明：适用于固定格式字符校正，例如前几位有明确类型要求的场景。建议按实际编码规则从左到右填写通配符，避免过度约束导致误改。

调节示例：

已知实际编码格式为“数字 + 英文大写字母 + 数字 + …”，但模型识别结果为 “iR20181102ar06Xd”，首字符被误识别为英文小写字母。

此时在输入框中填入 “%!%”（第 1 位限定为数字，第 2 位限定为英文大写字母，第 3 位限定为数字；第 4 位及之后不受限制），再次推理后，首字符被校正为置信度最高的数字，结果变为 “1R20181102ar06Xd”。

识别对象

参数解释：指定从识别结果中读取并参与后续处理的字符类型，未勾选的字符将被忽略。

值列表：英文大写字母、英文小写字母、数字、符号

默认值：全部勾选。

调节说明：根据实际字符内容勾选参与识别的字符类型，减少无关字符干扰，提高模型判定准确率。

拼接间隔符

参数解释：当识别到多行字符时，指定行与行之间的连接方式。

默认值：无。

调节说明：根据实际需求进行调节。

启用判定

参数解释：用于验证识别结果是否符合预期。可限定字符类型、字符数量或固定格式，不符合规则的结果将判定为 NG。支持两种判定模式：

判断字符数量：设定字符个数范围 [最小值, 最大值]，识别结果长度不在范围内则判定为 NG。
判断字符内容：将识别结果与基准字符串逐位比对，仅比对基准字符串长度范围内的字符，超出部分不参与判定（视为通过）。不一致则判定为 NG。支持两种基准来源：
- 手动输入模式：手动输入固定字符串或通配符模板作为基准。通配符规则与“校正字符内容”一致。
  
  例如输入 “%!%”，识别结果为 “iR20181102ar06Xd”，则系统仅比对前 3 位：第 1 位 “i”不是数字（%），判定为 NG。第 4 位及之后不参与判定。
- 全局变量模式：从全局变量中获取基准字符串进行比对。切换至该模式后，系统将列出可用全局变量供选择。此处仅支持关联“单次结果”模式且数据类型为字符串（String）的全局变量。选定后即以该变量的当前值作为判定基准。关于全局变量的使用用法，请参阅全局变量。

默认值：关闭。

调节说明：用于自动合格性检查。固定格式验证选手动输入模式，动态内容验证选全局变量模式。

追加训练并优化模型效果（可选）

如在验证过程中发现识别结果不准确（如字符误识别、漏识别或背景误检），可通过“追加训练”功能进行定向修正，直至模型效果满足实际需求。

出现以下情况时建议进行追加训练：

字符误识别：如将 “A” 识别为 “4”，或 “0” 与 “O” 混淆。
字符漏识别：部分字符未被检出。
背景误检：非字符区域（如 logo、纹理、反光斑）被错误识别为字符。

具体操作流程如下：

在验证界面单击追加训练按钮，进入追加训练页面。

根据问题类型添加追加内容：

追加内容

说明

操作

识别内容

用于修正漏识别或误识别。在图像上框选未被正确识别的字符区域，输入该位置的正确字符内容，将其添加为训练内容。

单击添加按钮，在可视化区绘制矩形框选字符区域。
输入正确字符，单击空白处确认添加。
单击推理下一张图像，系统将基于已添加的内容更新模型，并在新采集的图像上进行推理验证。重复上述步骤，直至训练内容标注完成。

每个类别最多支持标注 30 张图像。

排除内容

用于消除背景误检。在图像上框选被错误识别为字符的区域，将其标记为忽略区域，该区域的识别结果将被剔除。

单击添加按钮，在可视化区域拖拽绘制排除区域，松开鼠标即完成添加。
单击推理下一张图像，系统将基于已添加的内容更新模型，并在新采集的图像上进行推理验证。重复上述步骤，直至排除内容标注完成。

单击训练按钮，使用追加训练的内容进行模型再训练。训练完成后，系统自动返回验证界面，可验证优化后的识别效果。

当前机制下，追加训练中标注的字符不受验证规则中的“校正字符内容”和“识别对象”限制，仍可能出现在识别结果中。为避免识别结果与验证规则冲突，建议仅追加与校正字符内容、识别对象一致的训练内容。

验证通过后，单击保存并使用按钮，保存模型配置。

如追加训练后效果仍无法改善，请将采集的图像导入Mech-DLK，然后在Mech-DLK中进行训练，以获得更优的模型。

至此，模型配置已完成。关闭工具窗口后，在“模型名称”参数的下拉列表中选择该模型，即可在后续推理步骤中使用该模型进行字符识别。

该页面是否有帮助？

我要反馈

感谢您的支持！

可以通过以下方式反馈意见：

我们重视您的隐私

我们使用 cookie 为您在我们的网站上提供最佳体验。继续使用该网站即表示您同意使用 cookie。如果您拒绝，将使用一个单独的 cookie 来确保您在访问本网站时不会被跟踪或记住。

同意

不同意