
1040
Journal of Software 软件学报 Vol.29, No.4, April 2018
traditional method is hard to extract the information of the product parameters in the picture. This paper presents a method of combining
deep learning detection algorithm with the traditional OCR technology to ensure the detection speed and at the same time greatly improve
the accuracy of recognition. The paper focuses the following problems: The detection model, training for specific data, image
preprocessing and character recognition. First, existing object detection algorithms are compared and their advantages and disadvantages
are assessed. While the YOLO model is used to do the detection work, some improvements is proposed to overcome the shortcomings in
the YOLO model. In addition, an object detection model is designed to detect the product parameters in images. Finally, tesseract is used
to do the character recognition work. The experimental results show that the new system is efficient and effective in parameter recognition.
At the end of this paper, the innovation and disadvantage of the presented method are discussed.
Key words: object detection; image segmentation; optical character recognition; product parameters; deep learning
随着电子商务的发展,几乎所有的商品数据都可以在互联网中找到.但是还有大量数据是以表格或者文字
块的方式存在于图片中,导致商品信息的利用率不高.利用图片中的商品数据可以进行商品图片检索、商品真
实性验证以及相似商品匹配等.如何准确、快速地识别出图片中的商品参数,成为一个非常值得研究的问题.由
于商品参数一般以表格和文字块两种方式存在于图片中,提取商品参数首先要进行表格和文字块定位,然后再
进行文字识别.与传统的目标检测问题相比,商品参数识别问题更为复杂,不仅需要对表格和文字进行位置检
测,还要对区域进行提取并进一步识别其文字信息.同时,考虑到已有的目标检测算法着重于目标物体的颜色、
纹理等特征的提取,与表格、文字等目标物体的特征有较大差别,传统的目标检测算法不能直接应用于商品参
数识别问题中.综上,图片中的商品参数提取由于其问题的复杂性与目标表格、文字的特殊性,有必要采取新的
目标检测方法解决这一问题.
1 相关工作
早期的表格定位和识别方法往往有着很大的局限性,刘真等人
[1]
提出了表格的四角定位法,但是需要预先
设置表格模型,人力成本高且应用面窄;李星原等人
[2]
提出以表格线为导引的矩形块抽取方法,但只能抽取被框
线包围的表项内容;张群会
[3]
提出了利用二值化和投影来识别表格数据,其投影同样基于表格框线,无法识别没
有框线的表格;郑治枫等人
[4]
提出基于有向单连通链的表格框线检测算法来检测表格框线.上述方法的通用性
不强且定位准确率不高.房婧等人
[5]
提出了基于文本布局特征分析的表格定位方法,其检测是针对电子文档,根
据多条水平行和竖直列的相交程度来判断表格位置,但仍然难以识别不规则或空缺较多的表格.
针对日益增长的图片中信息提取的需求和传统方法识别流程复杂且对于复杂背景和不规范场景识别准确
率低的缺点,加之京东、淘宝等商家的商品图片数目是数以亿计的且还在不断增长中,检测速度也是选择模型
和评估系统性能的一个重要指标.据此,本文提出了将 CNN
[6]
和传统 OCR 技术结合起来完成大规模图片中商品
参数识别任务的方法,其中,整个模型采用端对端的方法训练,通过识别图片中的表格参数和图片中的文字块参
数两类方法来加以实现,不仅提高了检测速度,简化了识别的流程,也提高了检测系统的鲁棒性和检测精度.
1.1 相关检测算法
早期的目标检测使用人工提取的特征,如 LPB、HOG
[7]
、SIFT 等特征,随后利用 SVM
[8]
、Adaboosting 等分
类器进行检测,其检测效果最好的一个代表是 DPM 算法
[9]
,但是人工提取的特征在通用性方面有着较大的缺陷,
往往只适用于特定领域,且对复杂度高的背景的处理难度较大;在 DPM 算法经历了很多年的平台期后,Girshick
等人
[10]
在 2014 年提出的 R-CNN 方法使用选择性搜索提取候选框替代了传统方法中的滑动窗口,同时使用
CNN 提取的特征替代了传统目标检测中人工设计的特征,检测效果提升显著;SPP-net
[11]
在最后的卷积层和全
连接层中间加入一个 SPP 层,将候选框在原图的位置映射在尺寸为 aa 的特征图上,然后在 SPP 层进行空间金
字塔采样生成固定维度的特征,解决了 R-CNN 中存在的问题;Fast R-CNN
[12]
采用了 multi-task loss,把区域的回
归任务也放入到网络的训练之中,免去了训练 SVM 分类器的步骤,实现了整个网络端到端的训练方式,Fast
R-CNN 与 R-CNN 和 SPP-net 相比,训练步骤简单,不需要把提取的特征保存到磁盘,可以更新所有层的参数,在
大幅度提高训练速度的同时实现了检测精度的提升,但其 region proposal 过程耗时太久,而使用 selective search
评论