暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
基于深度学习的图片中商品参数识别方法-丁明宇 , 牛玉磊 , 卢志武 , 文继荣.pdf
480
10页
1次
2022-05-19
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2018,29(4):10391048 [doi: 10.13328/j.cnki.jos.005408] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
基于深度学习的图片中商品参数识别方法
丁明宇
,
牛玉磊
,
卢志武
,
文继荣
(大数据管理与分析方法研究北京市重点实验室(中国人民大学 信息学院),北京 100872)
通讯作者: 卢志武, E-mail: luzhiwu@ruc.edu.cn
: 计算机计算性能的提升使得深度学习成为了可能.作为计算机视觉领域的重要发展方向之一的目标检测
也开始结合深度学习方法并广泛应用于各行各业.受限于网络的复杂度和检测算法的设计,目标检测的速度和精度
成为一个 trade-off.目前电商领域的飞速发展产生了大量包含商品参数的图片,使用传统方法难以有效地提取出图
片中的商品参数信息.针对这一问题,提出了一种将深度学习检测算法和传统 OCR 技术相结合的方法,在保证识别
速度的同时大大提升了识别的精度.所研究的问题包括检测模型、针对特定数据训练、图片预处理以及文字识别等.
首先比较了现有的目标检测算法,权衡其优缺点,然后使用 YOLO 模型完成检测任务,并针对 YOLO 模型中存在的不
足进行了一定的改进和优化,得到了一个专用于检测图片中商品参数的目标检测模型,最后使用 tesseract 完成文字
提取任务.将整个流程结合到一起,该系统不仅有着较好的识别精度,而且是高效和健壮的.最后讨论了优势和
不足之处,并指出了未来工作的方向.
关键词: 目标检测;图像切割;光学字符识别;商品参数;深度学习
中图法分类号: TP391
中文引用格式: 丁明宇,牛玉磊,卢志武,文继荣.基于深度学习的图片中商品参数识别方法.软件学报,2018,29(4):1039–1048.
http://www.jos.org.cn/1000-9825/5408.htm
英文引用格式: Ding MY, Niu YL, Lu ZW, Wen JR. Deep learning for parameter recognition in commodity images. Ruan Jian
Xue Bao/Journal of Software, 2018,29(4):10391048 (in Chinese). http://www.jos.org.cn/1000-9825/5408.htm
Deep Learning for Parameter Recognition in Co mmodity Images
DING Ming-Yu, NIU Yu-Lei, LU Zhi-Wu, WEN Ji-Rong
(Beijing Key Laboratory of Big Data Management and Analysis Methods (School of Information, Renmin University of China), Beijing
100872, China)
Abstra ct : The improvements of computing performance make deep learning possible. As one of the important research directions in the
field of computer vision, object detection has combined with deep learning methods and is widely used in all walks of life. Limited by the
complexity of the network and the design of the detection algorithm, the speed and precision of the object detection becomes a trade-off.
At present, the rapid development of electronic commerce has produced a large number of pictures containing the product parameters. The
基金项目: 国家自然科学基金(61573363); 北京市科委类脑计算专(Z171100000117009); 中国人民大学预研委托项目
(15XNLQ01); 中国人民大学拔尖创新人才培育资助计划
Foundation item: National Natural Science Foundation of China (61573363); Beijing Brain Research Project of Beijing Municipal
Science & Technology Commission (Z171100000117009); Fundamental Research Funds for the Central Universities and the Research
Funds of Renmin University of China (15XNLQ01); Outstanding Innovative Talents Cultivation Funded Programs of Renmin University
of China
丁明宇、牛玉磊为共同第一作者,对本文贡献相同.
本文由多媒体大数据处理与分析专题特约编辑赵耀教授、李波教授、华先胜研究员、文继荣教授、蒋刚毅教授、常冬霞副
教授推荐.
收稿时间:
2017-04-29; 修改时间: 2017-06-26; 采用时间: 2017-10-13; jos 在线出版时间: 2017-12-01
CNKI 网络优先出版: 2017-12-04 06:46:57, http://kns.cnki.net/kcms/detail/11.2560.TP.20171204.0646.009.html
1040
Journal of Software 软件学报 Vol.29, No.4, April 2018
traditional method is hard to extract the information of the product parameters in the picture. This paper presents a method of combining
deep learning detection algorithm with the traditional OCR technology to ensure the detection speed and at the same time greatly improve
the accuracy of recognition. The paper focuses the following problems: The detection model, training for specific data, image
preprocessing and character recognition. First, existing object detection algorithms are compared and their advantages and disadvantages
are assessed. While the YOLO model is used to do the detection work, some improvements is proposed to overcome the shortcomings in
the YOLO model. In addition, an object detection model is designed to detect the product parameters in images. Finally, tesseract is used
to do the character recognition work. The experimental results show that the new system is efficient and effective in parameter recognition.
At the end of this paper, the innovation and disadvantage of the presented method are discussed.
Key words: object detection; image segmentation; optical character recognition; product parameters; deep learning
随着电子商务的发展,几乎所有的商品数据都可以在互联网中找到.但是还有大量数据是以表格或者文字
块的方式存在于图片中,导致商品信息的利用率不高.利用图片中的商品数据可以进行商品图片检索、商品真
实性验证以及相似商品匹配等.如何准确、快速地识别出图片中的商品参,成为一个非常值得研究的问题.
于商品参数一般以表格和文字块两种方式存在于图片中,提取商品参数首先要进行表格和文字块定位,然后再
进行文字识别.与传统的目标检测问题相比,商品参数识别问题更为复杂,不仅需要对表格和文字进行位置检
,还要对区域进行提取并进一步识别其文字信息.同时,考虑到已有的目标检测算法着重于目标物体的颜色、
纹理等特征的提取,与表格、文字等目标物体的特征有较大差别,传统的目标检测算法不能直接应用于商品参
数识别问题中.综上,图片中的商品参数提取由于其问题的复杂性与目标表格、文字的特殊性,有必要采取新的
目标检测方法解决这一问题.
1 相关工作
早期的表格定位和识别方法往往有着很大的局限性,刘真等人
[1]
提出了表格的四角定位法,但是需要预先
设置表格模型,人力成本高且应用面窄;李星原等人
[2]
提出以表格线为导引的矩形块抽取方法,但只能抽取被框
线包围的表项内容;张群会
[3]
提出了利用二值化和投影来识别表格数,其投影同样基于表格框线,无法识别没
有框线的表格;郑治枫等人
[4]
提出基于有向单连通链的表格框线检测算法来检测表格框线.上述方法的通用性
不强且定位准确率不高.房婧等人
[5]
提出了基于文本布局特征分析的表格定位方法,其检测是针对电子文档,
据多条水平行和竖直列的相交程度来判断表格位置,但仍然难以识别不规则或空缺较多的表格.
针对日益增长的图片中信息提取的需求和传统方法识别流程复杂且对于复杂背景和不规范场景识别准确
率低的缺点,加之京东、淘宝等商家的商品图片数目是数以亿计的且还在不断增长中,检测速度也是选择模型
和评估系统性能的一个重要指标.据此,本文提出了将 CNN
[6]
和传统 OCR 技术结合起来完成大规模图片中商品
参数识别任务的方法,其中,整个模型采用端对端的方法训练,通过识别图片中的表格参数和图片中的文块参
数两类方法来加以实现,不仅提高了检测速度,简化了识别的流程,也提高了检测系统的鲁棒性和检测精度.
1.1 相关检测算法
早期的目标检测使用人工提取的特征, LPBHOG
[7]
SIFT 等特征,随后利用 SVM
[8]
Adaboosting 等分
类器进行检测,其检测效果最好的一个代表是 DPM 算法
[9]
,但是人工提取的特征在通用性方面有着较大的缺陷,
往往只适用于特定领域,且对复杂度高的背景的处理难度较大; DPM 算法经历了很多年的平台期后,Girshick
等人
[10]
2014 年提出的 R-CNN 方法使用选择性搜索提取候选框替代了传统方法中的滑动窗口,同时使用
CNN 提取的特征替代了传统目标检测中人工设计的特征,检测效果提升显著;SPP-net
[11]
在最后的卷积层和全
连接层中间加入一个 SPP ,将候选框在原图的位置映射在尺寸为 aa 的特征图上,然后在 SPP 层进行空间金
字塔采样生成固定维度的特征,解决了 R-CNN 中存在的问题;Fast R-CNN
[12]
采用了 multi-task loss,把区域的回
归任务也放入到网络的训练之中,免去了训练 SVM 分类器的步骤,实现了整个网络端到端的训练方式,Fast
R-CNN R-CNN SPP-net 相比,训练步骤简单,不需要把提取的特征保存到磁盘,可以更新所有层的参数,
大幅度提高训练速度的同时实现了检测精度的提升,但其 region proposal 过程耗时太久,而使用 selective search
of 10
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜