【顶会论文】自动化所在高清真实图像生成领域获得新突破
2018/9/25 19:06:21 中国科学院自动化研究所

    

    CASIA点击蓝字关注我们↑↑↑↑

    

     今日聚焦

     自动化所智能感知与计算研究中心提出一种新的深度生成模型——自省变分自编码器(IntroVAE),用来实现高清图像等高维数据的无条件生成。该模型不仅在不引入额外的对抗判别器的情况下,克服了变分自编码器固有的合成图像趋于模糊的问题,而且在不使用常用的多阶段多判别器策略下,实现了高分辨率图像合成的稳定训练。该论文被今年人工智能顶级会议神经信息处理系统大会(NIPS2018)所收录,在生成指标上超过了英伟达在ICLR18上的工作。(点击文末"阅读原文"下载全文)

     生成模型包含无条件生成(unconditional generation)和条件生成(conditional generation)两种,高分辨率图像生成一般指的是从噪声中生成数据的无条件生成。Yoshua Bengio在CVPR2017论文中讲到,"生成高分辨率照片级图像已成为机器学习领域的一个长期目标。"麻省理工大学的人工智能领域知名学者Max Tegmark在IJCAI2018特邀报告中提到,"以对抗生成网络为代表的深度生成模型是人工智能研究的重要前沿方向。"高分辨率真实图像的生成由于问题困难,计算复杂度大,一直以来只有英伟达(INVIDIA)、英国牛津(Oxford)和麻省理工(MIT)等知名科研机构在研究。

     论文概要

     近日,自动化所智能感知与计算研究中心提出一种新的深度生成模型——自省变分自编码器(Introspective Variational Autoencoder,IntroVAE),用来实现高清图像等高维数据的无条件生成(unconditional generation)。该模型一方面在不引入额外的对抗判别器的情况下,克服了变分自编码器固有的合成图像趋于模糊的问题;另一方面在不使用常用的多阶段多判别器策略下,实现了高分辨率图像合成的稳定训练。实验结果表明,该模型不仅能够稳定生成高分辨率照片级图像(比如1024x1024的人脸图像),而且在生成模型常用的量化指标上取得了目前最好的结果

    

     变分自编码器 VS 对抗生成网络

     深度生成模型是无监督学习最有前景的方法之一,一直是学术界研究的热点问题。目前最为流行的两种深度生成模型是变分自编码器(VAEs)和对抗生成网络(GANs)。变分自编码器是自动编码器的生成版本,通过优化一个变分下界来实现数据到先验分布的近似映射。VAEs的训练稳定,能够进行隐变量推断和对数似然估计,但是生成的样本比较模糊。对抗生成网络通过生成器和判别器之间的对抗,来学习真实数据的分布。GANs可以生成逼真的清晰图像,但是存在训练不稳定的问题,这个问题在合成高分辨率图像上尤其严重。

     自省变分自编码器的结构和训练流程

     目前主流的高分辨率图像合成方法(比如英伟达公司提出的PGGAN模型)通过将高分辨率图像分解,从低分辨率出发,分多个阶段使用多个判别器逐步合成高分辨率图像。这种训练方式增加了模型设计的复杂度,提高了模型收敛的难度。与已有的方法不同,本文采用了一种更为简单有效的方式,能够实现对高分辨率图像的一步到位直接合成。该方法将对抗学习引入VAE内部,实现了一种自省的学习,即模型自身能够判断其生成样本的质量并作出相应改变以提高性能。具体的实现方式是训练编码器使得真实图像的隐变量接近先验分布,合成图像的隐变量偏离先验分布;与之相反的是,训练生成器使得合成图像的隐变量接近先验分布。同时,与GAN不同的是,编码器和生成器除了对抗外还要协同保证对输入图像的重建误差尽量小。对于真实数据来说,该方法的训练目标跟传统VAE完全一致,这极大得稳定了模型训练;对于合成数据来说,对抗的引入提高了样本的质量。

    

     IntroVAE的体系结构与训练流程

     实验结果

     实验结果显示,自省变分自编码器能够稳定合成高分辨率照片级的图像,比如1024x1024大小的人脸图像,256x256大小的卧室、教堂、狗等自然图像。该模型不仅在图像质量上,而且在量化指标上都取得了当前最好的结果

    

     CelebA-HQ上训练,生成的1024x1024人脸图像

    

     LSUN BEDROOM上训练,生成的256x256卧室图像

    

     LSUN CHURCHOUTDOOR上训练,生成256x256教堂图像

    

     ImageNet上训练,生成的256x256狗图像

     和其他方法的量化指标对比,可以看出在大部分指标上自省变分编码器都取的了最好的结果

    

    两种方法的定量比较

     全文信息FULL TEXT

     IntroVAE: Introspective Variational Autoencoders for Photographic Image Synthesis

     Huaibo Huang, Zhihang Li, Ran He, Zhenan Sun, Tieniu Tan

     全文下载:

     https://arxiv.org/abs/1807.06358

     智能感知与计算研究中心简介:

     智能感知与计算研究中心致力于研究泛在智能感知理论与技术以及与之相伴的海量感知数据的智能分析与处理。瞄准国际学科前沿,面向国家公共安全、智能产业发展等重大战略需求,着眼于基础理论创新与关键技术突破以及系统解决方案的研制,努力打造成为国际一流的研究中心,是集人才培养、技术创新、产业孵化为一体的创新平台。中心目前主要在传感与信息获取、智能计算与识别、数据分析与安全、系统集成及应用等四个方面展开科学研究。中心主任为谭铁牛院士。

     Outline of Object Recognition:此项技术被用于在图像或视频序列中查找和识别对象。在大多数情况下,图像上的物体会由于拍照的视点不同,产生尺寸、尺度上的变化,例如平移和旋转。但是,人眼可以忽视这些区别,从图像中识别出多个物体,甚至是在物体被部分遮挡的时候,仍然能保持较高的识别准确率。几十年来,学术界一直在尝试不同的方法以让机器实现人眼的能力,时至今日,此项任务仍然是计算机视觉系统的挑战之一。

     AI爱新词

     更多精彩内容,欢迎关注

     中科院自动化所官方网站:

     http://www.ia.ac.cn

     欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。

     作者:黄怀波

     审稿:赫然

     排版:孙海伦

     编辑:鲁宁

    

    

    http://weixin.100md.com
返回 中国科学院自动化研究所 返回首页 返回百拇医药