暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
基于StarGAN和类别编码器的图像风格转换-许新征,常建英,丁世飞.pdf
128
11页
0次
2022-05-19
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software, 2022,33(4):15161526 [doi: 10.13328/j.cnki.jos.006482] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
基于 StarGAN 和类别编码器的图像风格转换
许新征
1,2
,
常建英
1
,
丁世飞
1,2
1
(中国矿业大学 计算机科学与技术学院, 江苏 徐州 221116)
2
(矿山数字化教育部工程研究中心(中国矿业大学), 江苏 徐州 221116)
通信作者: 许新征, E-mail: xuxinzh@163.com
: 图像风格转换技术已经融入到人们的生活中, 并被广泛应用于图像艺术化、卡通化、图像着色、滤镜处
理和去遮挡等实际场景中, 因此, 图像风格转换具有重要的研究意义与应用价值. StarGAN 是近年来用于多域图
像风格转换的生成对抗网络框架. StarGAN 通过简单地下采样提取特征, 然后通过上采样生成图片, 但是生成图
片的背景颜色信息、人物脸部的细节特征会与输入图像有较大差异. StarGAN 的网络结构进行改进, 通过引入
U-Net 和边缘损失函数, 提出了用于图像风格转换的 UE-StarGAN 模型. 同时, 将类别编码器引入到 UE-StarGAN
模型的生成器中, 构建了融合类别编码器的小样本图像风格转换模型, 实现了小样本的图像风格转换. 实验结果
表明: 该模型可以提取到更精细的特征, 在小样本的情况下具有一定的优势, 以此进行图像风格转换后的图片无
论是定性分析还是定量分析都有一定的提升, 验证了所提模型的有效性.
关键词: 图像风格转换; 生成对抗网络; StarGAN; U-Net; 类别编码器
中图法分类号: TP391
中文引用格式: 许新征, 常建英, 丁世飞. 基于 StarGA N 和类别编码器的图像风格转换. 软件学报, 2022, 33(4): 1516–1526.
http://www.jos.org.cn/1000-9825/6482.htm
英文引用格式: Xu XZ, Chang JY, Ding SF. Image Style Transfering Based on StarGAN and Class Encoder. Ruan Jian Xue Bao/
Journal of Software, 2022, 33(4): 15161526 (in Chinese). http://www.jos.org.cn/1000-9825/6482.htm
Image Style Transfering Based on StarGAN and Class Encoder
XU Xin-Zheng
1,2
, CHANG Jia n- Ying
1
, DING Shi- Fei
1,2
1
(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116 , China)
2
(Engineering Research Center of Mining Digitalization of Ministry of Education (China University of Mining and Technology), Xuzhou
221116, China)
Abstra ct : The image style transferring technology has been widely integrated into people’s life, and it is widely used in image artistry,
cartoon, picture coloring, filter processing, and occlusion removal of the practical scenarios, so image style transfering has an important
research significance and application value. StarGAN is a generative adversarial network framework for multi-domain image style
transfering in recent years. StarGAN extracts features through simple down-sampling, and then generates images through up-sampling.
Nevertheless, the background color information and detailed features of people’s faces in the generated images are quite different from
those in the input images. In this study, by improving the network structure of StarGAN, after analyzing the existing problems of the
StarGAN, a UE-StarGAN model for image style transfering is proposed by introducing U-Net and edge-promoting adversarial loss
function. At the same time, the class encod er is introduced into the generator of UE-StarGAN, and a small sample image style trans fer in g
model is designed to realize the small sample image style transfer. The results of this experiment show that the model can extract more
detailed features, have some advantages in th e case of small sample size, and to a certain extent, th e qualitative and quantitative analysis
resul ts of th e i mag es c an b e i mpro v ed aft er the ima g e st y le tr an s f eri ng , whi c h verifi e s th e effe ct i ven es s of t h e p ro p o sed mod el .
基金项目: 国家自然科学基金(61976 217, 61976216)
本文由面向开放场景的鲁棒机器学习专刊特约编辑陈恩红教授、李宇峰副教授、邹权教授推荐.
收稿时间: 2021-06-01; 修改时间: 2021-07-16; 采用时间: 2021-08-27; jos 在线出版时间: 2021-10-26
许新征 : 基于 StarGAN 和类别编码器的图像风格转换
1517
Key words: image sty le t ran sfer ing ; g ener at iv e adv ers ari al n etwo rk; St arG AN; U- N et; c las s e ncod er
近些年, 人工智能(artificial intelligence, AI)
[1,2]
作为类脑智能计算领域的一个重要研究方向, 取得了突飞
猛进的发展. 由卷积神经网络(convolutional neural network, CNN)
[3]
衍生出的各种网络结构被先后提出来,
引起了国内外专家学者的广泛关注, 卷积神经网络已经广泛应用到计算机视觉
[4]
自然语言处理
[5]
语音识别、
信息检索、推荐系统、多媒体等多个领域, 在工业界和学术界掀起了神经网络研究的浪潮, 促进了人工智能
的发展.
在深度学习中, 图像风格转换最早是基于卷积神经网络来实现的, 但由于对训练样本要求较高而且训练
速度慢, 所以得到的图像转换效果并不理想. 2014 , Goodfellow 等人提出的生成对抗网络(generative
adversarial networks, GAN)
[6]
以其强大的数据生成能力受到广泛关注, 成为人工智能领域的一项重要研究成
. 尤其是 GAN 在图像分辨率
[79]
、图像压缩、图像风格转换、文本到图像的生成
[10]
、视觉计算、语音和语
言处理等方面都有很突出的表现且有着巨大应用前景, GAN 成了计算机视觉和图像处理领域炙手可热的研究
热点之一. GAN 的提出, 在图像风格转换领域有了突出的表现, 可以用较小的数据集来完成 GAN 的无监督训
. GAN 采用监督学习的方法来做无监督学习任务, 使用判别器监督学习, 但最终使用生成器学习得到真实
数据分布或密度的预估生成新的图像. 针对于图像风格转换, 人们将越来越多的注意力放到了 GAN , 它是
目前生成模型中最好的网络架构, 并且衍生出了一系列优秀的图像风格转换模型, Sty leGAN
[11]
,
Pix2Pi x
[12]
, CycleGAN
[13]
, DiscoGAN
[14]
, DualGAN
[15]
. GAN 是由一个生成器和一个鉴别器两部分组成, 用于
学习真实样本数据的概率分布, 两者都是在对抗博弈的思想下进行训练. 生成器从输入的噪声中捕捉真实数
据样本的潜在分布, 努力生成让判别器认为是真的假图片, 判别器会尽最大努力判别输入图片的真假. 二者
通过训练不断优化提高各自的生成能力和判别能力, 直至达到纳什均衡
[16]
训练结束, 即判别器无法判别生成
器生成的以假乱真的图片.
在实际的生产生活中, 图像风格的转换有着广泛的应用, 比如手机滤镜、图像艺术化、卡通动画制作
[17]
在线隔空试衣购物、试妆卸妆、去遮挡
[18]
、样本数据集扩充等. 人脸面部表情
[19]
的研究在计算机视觉、认知
科学领域有着非常重要的意义, 在娱乐、社交领域、人脸识别领域都有广泛的应用. 但由于人脸表情数据集
过少, 制约了深度神经网络的表达能力, 导致在实际训练模型过程中精度不足、图像的局部细节不明显, 可以
通过图像风格转换扩展数据集. 在煤矿井下, 由于光照条件差、粉尘较多, 监控视频设备采集到的图像往往存
在模糊、亮度低、细节不清晰的问题, 可以通过图像风格转换增强图像的分辨率, 提升图片亮度, 为矿井的安
全提供便利. 这些图像风格转换的应用不仅推动了科学技术的发展, 还提高了人们的生活水平, 关键是大大
减少了人力物力财力成本. 目前, 图像风格转换方面的工作已经取得了飞跃性的进步, 并且产生了不错的效
, 但是仍然存在一些缺陷与不足, 有着十分大的空间等待我们去探索. 因此, 利用生成对抗网络进行图像风
格转换非常具有研究价值.
本文的主要贡献如下:
1) StarGAN 模型的基础上, 结合 U-Net 网络中的跳跃连接和边缘损失函数, 提出了 UE-StarGAN
型用于图像风格转换;
2) 引入了类别编码器到 UE-StarGAN , 提出了融合类别编码器的小样本图像风格转换模型 CUE-
StarGAN, 接下来引入 Mish 激活函数对融合模型进一步优化.
1 相关工作
基于生成对抗网络的图像风格转换, 由于生成对抗网络强大的生成能力并且在图像风格转换上有着不错
的效果, 所以这是目前比较常用且流行的一种风格转换方法
[20]
. 此方法与传统的卷积神经网络的图像风格转
换不同, 该方法可以接受一整类的图像输入, 从大量的输入图像中学习它们的数据分布和共同特征, 并基于
这些特征生成尽可能与这些图像相似的图像. 而不再像传统的方法只输入一张图像学习其风格, 大大提高了
of 11
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜