为解决煤炭运输车辆因印刷文本严重破损和抓拍图像畸变导致的车厢号、车载重信息识别率低的问题,提出一种基于OCR的车厢局部区域文本识别方法,通过DBNet 检测文本区域并排序,经FPGM算法裁剪矫正后,采用膨胀算法和对比度调整进行图像增强,最后利用CRNN实现文本识别。基于806 张图像数据集进行试验,对比Yolov8+OCR算法,结果显示该方法识别率达98%,平均识别时长3 s,召回率0.996,精确率0.985,显著提升识别准确性与效率。
文章来源:《智能矿山》2025年第9期“学术园地”栏目
第一作者:许袁,主要从事图像信息处理和机器视觉的相关研究工作。E-mail:1607338441@qq.com
作者单位:英飞智信(苏州)科技有限公司;英飞智信(北京)科技有限公司;山西汾西矿业集团水峪煤业有限责任公司
引用格式:许袁,张云哲,高文祥,等.基于 OCR 的车厢局部区域文本识别方法及应用[J].智能矿山,2025,6(9):79-83.
点击文末左下角阅读原文,免费下载阅读pdf全文
关注微信公众号,了解更多矿山智能化建设进展
在煤炭运输过程中,车厢上印刷的信息识别至关重要。此信息详细记录了运输车辆的相关数据,为煤炭运输的全过程提供了有效的追踪手段。通过验证车厢印刷信息,可有效降低煤炭盗窃或非法运输风险,保障运输活动的合法性和安全性。
准确读取和管理车厢印刷信息,在提升煤炭运输过程的透明度、安全性及效率方面发挥重要作用。因车厢上印刷的文本破损严重,且抓拍图像易存在畸变,导致提取车厢号和车载重信息识别率不佳。
光学字符识别(OCR)利用电子设备检查打印字符,通过检测暗、亮的模式确定形状,然后用字符识别方法,将形状翻译成计算机文字的过程。OCR一般分为手写体识别和印刷体识别,可识别阿拉伯数字、汉字和英文字母等各种字符。识别步骤为版面分析、预处理、行列切割、字符识别、后处理识别矫正。
OCR的车厢文本识别方法网络框架
基于OCR的车厢局部区域文本识别方法框架主要分为4个部分:利用DBNet检测需要识别的文本区域,对不同区域进行位置排序;裁剪文本框并矫正其位置,使文本框在图像中准确对齐,保持正确方向;使用图像增强算法对文本中断接严重的区域进行连接,增强图像中文本的特征信息;最后利用CRNN实现文本识别,OCR识别流程整体流程如图1所示。
图1 OCR识别整体流程
1.1 基于DBNet的文本检测
DBNet算法中的可微分二值化(DB)是通过将二值化过程整合到神经网络中,使模型在训练过程中动态调整阈值,提取背景图像中的不同文本区域,提升本网络对不同文本区域的适应性。
文本检测时,DB通过网络预测每个像素的动态阈值,精确分离文本与背景。与传统二值化方法相比,DB具有可微性,可端到端训练,提高文本检测的准确性,DBNet网络的结构如图2所示。
图2 DBNet网络结构
图像通过特征金字塔网络提取多尺度的特征图,将特征图上采样至相同尺度,并级联生成综合特征图F;利用特征图F,模型预测出概率图P和阈值图T,计算出近似二值图。模型训练时会对阈值图、概率图及近似二值图进行监督,其中概率图和近似二值图共享相同的监督信号。推理阶段通过框形化模块从近似二值图或概率图中提取文本区域的边界框。
1.2 文本剪裁与矫正
利用裁剪解决模型参数冗余问题,提高模型推理效率。模型裁剪是通过去除网络中冗余的通道、滤波器和神经元等,得到更轻量网络,尽可能保证模型精度。裁剪滤波器方法可得到更规则的模型,减少内存消耗,加速模型推理过程,该方法大多基于范数进行裁剪,范数和滤波器重要程度成正比。
基于几何中心点的裁剪算法(FPGM)结构如图3所示,将卷积层中的每个滤波器都当作欧几里得空间中的1个点,且该点满足与所有采样点距离之和最小的条件,几何中心点评估每个滤波器的重要性。利用方向分类器分类文本检测出的文本实例方向,将文本旋转到0°或180°后,再送入文本识别器中,使文本框在图像中准确对齐并保持正确方向。
图3 FPGM结构
1.3 图像增强方法
Hide-and-Seek是一种数据增强方法,将图片切分为S×S个网格,每个网格采用一定概率进行遮挡,模拟出随机擦除效果。数据增强方法使模型可根据没有被遮挡住的物体特征进行识别,增强特征的表达能力,提高模型的泛化能力。在Hide-and-Seek中,不同网格之间可能存在不同的遮挡情况,利用数据集的均值填充被遮挡的区域,确保训练和测试数据分布的一致性。
膨胀算法主要用于二值图像的形态学操作。膨胀算法是通过对图像中前景对象进行扩展,增加对象的边界或填补对象内部的小空洞。膨胀操作有效连接断接严重的文本,加强图像中的文本特征,提高图像的连通性和完整性,具体分为4个步骤。
(1)选择1个结构元素,形状和大小决定膨胀范围。
(2)将结构元素的中心点与图像的每个像素对齐,遍历整个图像。
(3)当结构元素中的任一点与前景像素重叠时,更新该位置的像素值为前景像素。
(4)膨胀处理后的图像中前景对象显著增大、边界扩展,空洞部分得到填补。
对比度调整在图像处理领域中至关重要,特别是在文本识别任务中。通过增加文本区域的亮度、图像对比度和背景噪声间的差异使文本更突出,减少背景干扰对文本识别的负面影响,在原始图像质量较低或对比度不足的情况下,对比度调整的视觉增强效果更明显。
1.4 基于CRNN的文本识别
选用CRNN算法识别图像文本,CRNN算法的特征提取部分选用卷积结构,使网络更关注文本的局部信息,引入双向LSTM增强上下文建模,将输出特征序列输入到CTC模块,直接解码序列结果。CRNN属于规则文本识别,文字不能弯曲。CRNN的网络结构包括3个部分,从上到下依次为卷积层、递归层和转录层,CRNN网络结构如图4所示。
图4 CRNN网络结构
(1)卷积层用于提取图像中的特征,输出作为递归网络的输入。
(2)递归层用于处理序列数据,有效捕捉输入序列中的时序依赖关系。
(3)转录层将递归层的输出转化为最终的预测结果。
CRNN网络利用CTC(CTC)损失处理输入和标签长度不匹配的问题,通过考量所有可能的标签序列对齐方式优化网络,支持模型端到端的训练。在CRNN中,用1个全连接层作为解码的轻量级头,将序列特征转换为字符预测。
OCR的车厢文本识别方法试验结果
基于PyTorch深度学习框架,使用Windows系统,GPU型号为NVIDIA RXT A4000。本网络数据集中包含806张图像,随机选择其中的136张作为验证图像,同时将所有图像的尺寸调整成为256×256。对训练图像进行平移、旋转、缩放等变换,生成多种不同视角的图像样本,增加训练数据集的多样性,使模型学习更多的特征。
2.1 OCR的车厢文本识别方法数据集
利用PaddleLabel对数据集中图像的车厢号和车载重信息区域进行标签,打标后的图像会自动识别矩形标注区域的文本。由于部分图像质量较差,识别结果需人工检查和纠错,数据集标签图像如图5所示。
图5 数据集标签图像
标签默认为自然数,从0开始,使用矩形标注方式对文本进行打标,并按打标顺序将矩形框与标签一一对应。标注完成后,系统会对标签区域图像进行裁剪,增强前的裁剪图像如图6所示。
图6 增强前图像
图像增强处理常用于高级视觉任务的预处理阶段,提升模型对图像特征的提取能力。利用膨胀算法连接图像中字符的断接部分,并通过调整对比度,使文字更加连贯,图像质量更佳。增强后的裁剪图像如图7所示。
图7 增强后的裁剪图像
2.2 试验结果与分析
从训练集中随机挑选了136张图像作为测试集,该图像涵盖了不同程度的文本破损、图像畸变以及各种拍摄条件,确保了数据集的多样性和代表性。
选用Yolov8和OCR结合的技术作为对比算法,首先利用Yolov8检测和定位图像中的目标区域,接着通过OCR技术从检测到的区域中提取文本信息。Yolov8算法高效且精准的定位能力,与OCR技术结合后,在保证精度的前提下提升整体处理速度和系统可靠性,优化信息提取效率。改进后的OCR算法识别结果对比如图8所示,文本识别后的显示顺序与图像标签顺序一致。
图8 识别结果对比
图8(a)中车厢号末尾的数字靠近图像边缘,导致对比算法无法识别全部数字,当拍摄环境较差时识别效果更差;图8(b)对比算法的识别结果中,车厢号和车载重显示顺序颠倒;图8(c)中数字连接不流畅,对比算法识别结果错误。
改进后的OCR算法能够有效识别破损和畸变严重文本,且识别结果连贯,避免出现字符串组合错误的情况,在拍摄条件较差的情况下仍能保证识别准确率,性能更稳定。选用召回率和精确率作为模型性能的评估指标,精确率越高,表明模型识别结果中错误较少;召回率越高,表明模型尽可能多地识别出所有真实的文本内容。模型的指标结果见表1。
表1 模型指标
对比算法与OCR算法在数据集图像识别率和识别平均时长的对比结果见表2。结合表1、表2中数据可知,OCR算法识别准确率较高、速度较快,且识别结果更加直观。
表2 识别结果对比
2.3 改进后的OCR算法优势
(1)列车扫描仪也可用于提取车厢局部区域文本,性能稳定可靠但成本较高,且灵活性有限。在需要快速部署和灵活调整的场景中,列车扫描仪适应性较差,特别是在面对多变和复杂的车厢环境时,难以快速响应不同操作需求和场景变化。
(2)改进后的OCR算法算法具有出色的灵活性、开发效率和跨平台适应性,且支持多语言识别,可以在不同硬件平台和操作系统上高效部署,该算法能够快速适应复杂场景中的优化,应对快速变化的需求,相较于传统硬件设备,部署成本更低。
(3)改进后的OCR算法在车厢文字识别领域获得更广泛的应用,特别是在成本控制、快速部署和实时处理的情况下,提供了一种经济高效的解决方案。未来的应用场景不限于车厢信息提取,可拓展到车内实时信息反馈、乘客引导、设备监控及应急情况下的文字信息识别等。OCR的开源特性提供了高度可扩展性,能够与其他智能技术结合进行二次开发和定制,进一步提升车厢管理的智能化水平。
结 语
改进后的OCR的车厢局部区域文本识别方法,通过DBNet检测、FPGM裁剪矫正、图像增强及CRNN识别的协同应用,有效解决了煤炭运输车厢文本破损和图像畸变导致的识别难题,显著提升了识别率与效率。该方法在保证高精度的同时,具备低成本、高灵活性的优势,为煤炭运输管理的智能化提供了有力技术支撑。未来可进一步优化
编辑丨李莎
审核丨赵瑞
煤炭科学研究总院期刊出版公司拥有科技期刊21种。其中,SCI收录1种,Ei收录5种、CSCD收录6种、Scopus收录7种、中文核心期刊9种、中国科技核心期刊11种、中国科技期刊卓越行动计划入选期刊4种,是煤炭行业最重要的科技窗口与学术交流阵地,也是行业最大最权威的期刊集群。
期刊简介
《智能矿山》(月刊,CN 10-1709/TN,ISSN 2096-9139)是由中国煤炭科工集团有限公司主管、煤炭科学研究总院有限公司主办的聚焦矿山智能化领域产学研用新进展的综合性技术刊物。
主编:王国法院士
刊载栏目:企业/团队/人物专访政策解读视角·观点智能示范矿井对话革新·改造学术园地、专题报道等。
投稿网址:www.chinamai.org.cn(期刊中心-作者投稿)
👉 征稿函详见链接: 征稿┃《智能矿山》面向广大读者征稿,欢迎投稿
期刊成果:创刊5年来,策划出版了“中国煤科煤矿智能化成果”“陕煤集团智能化建设成果”“聚焦煤炭工业‘十四五’高质量发展”等特刊/专题30多期。主办“煤矿智能化重大进展发布会”“煤炭清洁高效利用先进成果发布会”“《智能矿山》理事、特约编辑年会暨智能化建设论坛”“智能矿山零距离”“矿山智能化建设运维与技术创新高新研修班”等活动20余次。组建了理事会、特约编辑团队、卓越人物等千余人产学研用高端协同办刊团队,打造了“刊-网-号-群-库”全覆盖的1+N全媒体传播平台,全方位发布矿山智能化领域新技术、新产品、新经验。
👉 具体详见链接:《智能矿山》创刊4周年回顾
联系人:李编辑 010-87986441
邮发代号:82-476
👉 期刊订阅详见链接:欢迎订阅┃《智能矿山》杂志2026年订阅开始了!
往期荐读
往期特刊
中国煤科特刊
陕煤集团特刊
神东专栏
重大进展特刊
露天矿特刊
理事单位特刊
红柳林煤矿特刊
创新技术特刊
创刊号
版权声明
本刊对已出版文章持有电子版、网络版及进行网络技术交流和与各网络数据库合作的权利,稿酬一次性付清,版权归本刊与作者共同所有,如不同意,请在投稿时声明。
声明:本文系转载自互联网,请读者仅作参考,并自行核实相关内容。若对该稿件内容有任何疑问或质疑,请立即与铁甲网联系,本网将迅速给您回应并做处理,再次感谢您的阅读与关注。
不想错过新鲜资讯?
微信"扫一扫"