暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
基于端到端句子级别的中文唇语识别研究-张晓冰,龚海刚,杨帆,戴锡笠.pdf
433
14页
0次
2022-05-24
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2020,31(6):17471760 [doi: 10.13328/j.cnki.jos.005709] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
基于端到端句子级别的中文唇语识别研究
张晓冰
,
龚海刚
,
,
戴锡笠
(电子科技大学 计算机科学与工程学院,四川 成都 611731)
通讯作者: 戴锡笠, E-mail: daixili_cs@163.com
: 近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学
习的唇语识别模型中,通常包含使用神经网络对图像进行特征提取和特征理解两个部分.根据中文唇语识别的特点,
将识别过程划分为两个阶段——图片到拼音(P2P)以及拼音到汉字(P2CC)的识别.分别设计两个不同子网络针对不
同的识别过程,当两个子网络训练好后,再把它们放在一起进行端到端的整体架构优化.由于目前没有可用的中文
语数据集,因此采用半自动化的方法从 CCTV 官网上收集了 6 个月 20.95GB 的中文唇语数据集 CCTVDS,共包含
14 975 个样本.此外,额外采集了 269 558 条拼音汉字样本数据对拼音到汉字识别模块进行预训练. CCTVDS 数据
集上的实验结果表明,所提出的 ChLipNet 可分别达到 45.7%的句子识别准确率和 58.5%的拼音序列识别准确率.
,ChLipNet 不仅可以加速训练、减少过拟合,并且能够克服汉语识别中的歧义模糊性.
关键词: 中文唇语识别;深度学习;中文汉语言的特征;数据集采集及处理;端到端模型
中图法分类号: TP18
中文引用格式: 张晓冰,龚海刚,杨帆,戴锡笠.基于端到端句子级别的中文唇语识别研究.软件学报,2020,31(6):17471760.
http://www.jos.org.cn/1000-9825/5709.htm
英文引用格式: Zhang XB, Gong HG, Yang F, Dai XL. Chinese sentence-level lip reading based on end-to-end model. Ruan Jian
Xue Bao/Journal of Software, 2020,31(6):17471760 (in Chinese). http://www.jos.org.cn/1000-9825/5709.htm
Chinese Se ntence -Level L ip Readi ng Base d o n End- to-E nd Mo de l
ZHANG Xiao-Bing, GONG Hai-Gang, YANG Fan, DAI Xi-Li
(School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China)
Abstra ct : In recent years, with the widely application of deep learning, lip reading recognition technology has achieved rapid
development. Different from traditional methods, lip reading recognition methods based on the deep learning usually use the neural
network model both for the feature extraction and comprehension. According to the characteristics of Chinese language, a two-step
end-to-end architecture is implemented, in which two deep neural network modules are applied to perform the recognition of
picture-to-pinyin (P2P) and pinyin-to-hanzi (P2CC) respectively. After the two modules are trained with convergence, they are then jointly
optimized to improve the overall performance. Due to the lack of Chinese lip reading dataset, the 6-month daily news broadcasts are
collected from China Central Television (CCTV), and they are semi-automatically labelled into a 20.95 GB dataset CCTVDS with 14 975
samples. In addition, the supplementary dataset with 269 558 samples are collected during the pre-training of P2CC. According to
experimental results trained on the CCTVDS, the proposed ChLipNet can achieve 45.7% sentence-level and 58.5% Pinyin-level
accuracies. In addition, ChLipNet can not only accelerate training, reduce overfitting, but also overcome syntactic ambiguity in the
recognition of Chinese language.
Key words: Chinese lip reading recognition;deep learning; characteristics of Chinese language; data collecting and preprocessing;
end-to-end model
基金项目: 国家自然科学基金(61572113)
Foundation item: National Natural Science Foundation of China (61572113)
收稿时间: 2018-05-10; 修改时间: 2018-09-04; 采用时间: 2018-11-16
1748
Journal of Software 软件学报 Vol.31, No.6, June 2020
唇语识别主要通过观察说话者嘴唇的运动变化序列从而识别出相应的文本信息,其研究内容涉及到模式
识别、图像处理、语音识别及自然语言处理等多个领域,具有广阔的应用场景.例如在高噪环境中,由于说话者
音频受到环境的干扰,导致识别率降低,而视觉信息相对很稳定,因此,通过唇语识别利用视觉信息从而能够极
大地辅助提高语音识别的准确.在非噪声环境下,当进行语音识别时,辅助观察说话者的脸部表情变化、嘴唇
运动以及人体肢体动作等信息,能够更加准确地理解对方所要表达的内容.此外,嘴唇同虹膜、鼻子等一样,作为
人脸的一项重要生物特征,在人脸身份检测中发挥了重要作用.例如在人脸活体检测应用中,通过核查说话者嘴
唇运动,可进一步提高活体识别的安全性,从而排除了传统人脸识别中使用其他工具造假的可能.此外,唇语识
别可与手语识别相互依存,一起促进聋哑人在日常生活中的正常交流.
目前为止,唇语识别研究已经取得了一定的成果.然而,由于日常应用场景及条件的多样化和复杂化,使得
唇语识别技术在实际应用中依然面临巨大的挑战:(1) 人的嘴唇是一个三维的非刚性物体,不同的说话者对象、
不同的语句内容,都会使得人的嘴唇运动在视频中显示不同的变化,这给识别带来了很大的困扰;(2) 光源照射
和人脸角度的不同等因素,使得人的嘴唇在视频中有不同的形态,从而对识别率造成很大的影响.
近几年来,深度学习在各个领域取得的显著成果,也促进了应用神经网络来解决唇语识别的研究.随着技术
的成熟,唇语识别率也在不断提高,例如 D
eepMind WLAS
[1]
LipNet
[2]
.然而,已有的这些研究都是基于单词
分类或者英文句子的识别,与中文唇语识别的内容截然不同.汉语与英语不同:英语是由 26 个字母组成的字母
语言,所有的单词都是由字母拼读而成,通过拼读可以准确地确定某个单词;而汉语不同,汉语的发音是由 23
元音字母和 24 个辅音字母组成,去掉一些不可能的拼读组合,再加上 4 种不同的音调,拼音总共大约有 1 000 ,
然而汉语中的汉字总数超过 90 000 ,其中有 3 000 个是经常使用的,也就是说,每个拼音平均对应 3~90 个汉字.
据统计,汉语是信息熵含量最大的语言.因此,从汉语这种高模糊性语言中提取具有显著区别的特征信息,是中
文唇语识别中的一个重要并且富有挑战性的任务.
本文根据中文的特点,首次提出了句子级别的中文唇语识别模型 ChLipNet,该模型由两个子模块组成,即嘴
唇图片序列映射到拼音字符序列的拼音序列识别模块和拼音字符序列转换为汉字序列的汉字序列识别模块,
如图 1 所示.其中,
(1) 拼音序列识别主要利用卷积神经网络 Convolutional Neural Network(CNN)作为嘴唇图片帧序列的特
征提取器,然后,使用循环神经网络 Recurrent Neural Network(RNN)理解并分析提取的特征,最后利用
Connectionist Temporal Classification(CTC)损失函数匹配输入输出序列.该过程简称为 P2P 过程,生成
的拼音序列识别网络简称为 P2P 网络;
(2) 汉字序列识别是一个基于语言模型的 E
ncoder-Decoder 网络框架,这个过程简称为 P2CC 过程.P2CC
网络的输入是拼音字符序列,其中 Encoder 网络负责对拼音字符序列进行编码, Decoder 网络则对
Encoder 的输出进行解码,从而生成汉语句子.
P2P P2CC 两个子模块分别训练好后,把它们联合在一起组成中文唇语识别网络 ChLipNet 并进行最
终的端到端训练.
Fig.1 Module division of Chinese lip reading recongnition framework
1 中文唇语识别框架的模块划分
由于现有的唇语数据集都是针对字符、单词、数字或者短语,且都是关于非中文的.为此,我们采集了 6
个月的 CCTV 新闻联播视频及其对应的文稿,使用半自动化技术,通过视频剪辑、文本和时间戳生成以及嘴唇
检测等操作生成包含 14 975 条中文句子及其对应嘴唇序列的中文唇语数据集 CCTVDS.此外,在汉字序列识别
of 14
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜