Top Banner
BranchGAN 基基基基基基基基基基基 基基基基基基基 南南南南南 南南南 南南南南 南南南 南南南南 南南南 南南 西 ,,,,, 1 南南南南南南南南南南南南南南南 南南南南南南南 西,, 611756 2 南南南南南南南南南南南南南南南 南南南南南南南 西,, 611756 3 南南南南南南南南南南南南南南南 南南南南南南南 西,, 611756 4 南南南南南南南南南南南南南南南 南南南南南南南 西,, 611756 5 南南南南南南南南南南南南南南南 南南南南南南南 西,, 611756 6 南南南南南南南南南南南南南南南 南南南南南南南 西,, 611756 IEEE Transactions on Multimedia 2019/06/03 南南南南 基基基基 南南南南南南南南南南南 南南南南南南南 南南南南南南南南南南南南南南南 南南南南南南南南南南南 南南南南南 南南南南南南 、、。、、 南南南南南南南南南 南南南南南南南南 南南南南南南南南南南 南南南南南南南南南南南南南南南南南南南南南南南南南南 南南南南南南南南南 ,,一。, 南南南南南南南南 南南南南南 南南南南南南南南南南南南南南南南南南南南南南南南南南 。一 BranchGAN 南南南南南南南南南南南南南南南南南南 南南南南南南南南南南南, 南南南南南南南南南南南 南南南 南南南南南南南南南 南南南南南南南南南南南南南南 南南南南南 南南南南南南南南南 。,、,、 南南南南南南南南南南南南南南南南南 南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南 南南南南南南南南南南南南南南南南南 。。 南南南南 南南南南南南南南南南南南南南南南南南 南南南南南南南南南南南 南南南南南南南南南南南 ,。,。 基基基基 Image-to-image translation is a fundamental task for a wide range of applications, such as image style transfer, video e cross-domain retrieval, and so on. Due to the limited number of labeled data, c o m p l e x s c e n e s , a b s t r a c t s e m a n t i c s a n d v a r i o u s i translation remains a challenging task. Compared to the supervised approaches for image translation, which need a large collection of paired ima training, the unsupervised methods can significantly re c o s t . I n t h i s p a p e r , a n u n s u p e r v i s e d e n d - t o - e n d network is proposed, named BranchGAN, for mutual image- between two domains. A structure with one single encoder and dual decoders is novelly proposed to capture the cross-domain distributions and generate th images in both domains. Three factors, i.e., pixel-lev region semantics and domain distinguishability are comprehensively considered to constrain the training process of the proposed model, corresp r e c o n s t r u c t i o n l o s s , e n c o d i n g l o s s a n d a d v e r s E x p e r i m e n t s c o n d u c t e d o n t h r e e b e effectiveness of the proposed method, which outperforms 1 南南南南南南南南南南南南南南南南南南 201710613096基基基基南 南南南南南南南 南南 、,,,。 2 基基基基 南南南南 、,,,。 3 基基基基 南南南南南南南南 、,西,,,体,/南 4 基基基基 南南南南南南 、,西,体,。 5 基基基基 南南南南 、,,,。 6 基基基基 南南南南南 、,西,,/南 南 南 南 南 ,,,体。
18

学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

May 29, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

BranchGAN : 基 于 单 编 码 器 双 解 码 器 的无 监 督 图 像 翻 译

西 南 交 通 大 学 周 亦 凡 , 姜 润 皓 , 吴 晓 ,何 俊 彦 , 翁 爽 , 彭 强

( 1 西 南 交 通 大 学 信 息 科 学 与 技 术 学 院 , 四 川 省 成 都 市 , 611756 ;2 西 南 交 通 大 学 信 息 科 学 与 技 术 学 院 , 四 川 省 成 都 市 , 611756 ;3 西 南 交 通 大 学 信 息 科 学 与 技 术 学 院 , 四 川 省 成 都 市 , 611756 ;4 西 南 交 通 大 学 信 息 科 学 与 技 术 学 院 , 四 川 省 成 都 市 , 611756 ;5 西 南 交 通 大 学 信 息 科 学 与 技 术 学 院 , 四 川 省 成 都 市 , 611756 ;6 西 南 交 通 大 学 信 息 科 学 与 技 术 学 院 , 四 川 省 成 都 市 , 611756 )

IEEE Transactions on Multimedia , 2019/06/03

吴 晓 教 授中 文 摘 要 : 图 像 翻 译 是 图 像 风 格 迁 移 、 视 频 效 果 生 成 、 跨 域 检 索 等 广 泛 应 用 的 基 础 任

务 。 由 于 标 注 数 据 数 量 有 限 、 场 景 复 杂 、 语 义 抽 象 等 特 性 , 且 涉 及 了 各 种 领 域 , 图 像 翻 译仍 然 是 一 项 具 有 挑 战 性 的 任 务 。 与 需 要 大 量 配 对 图 像 进 行 有 监 督 训 练 的 图 像 转 换 方 法 相 比 ,无 监 督 的 方 法 可 以 有 效 地 降 低 训 练 成 本 。 本 文 提 出 一 种 用 于 两 个 图 像 域 间 相 互 转 换 的 无 监督 端 到 端 生 成 对 抗 网 络 BranchGAN 。 该 模 型 采 用 单 编 码 器 双 解 码 器 的 结 构 去 捕 获 两 个 数 据 集的 跨 域 分 布 , 并 生 成 两 个 域 对 应 的 图 像 。 此 外 , 考 虑 到 像 素 级 风 格 、 区 域 语 义 和 域 判 别 性三 种 因 素 , 重 构 损 失 、 编 码 损 失 和 对 抗 性 损 失 三 种 损 失 函 数 有 效 约 束 了 模 型 的 训 练 。 单 编码 器 双 解 码 器 的 结 构 以 及 三 种 约 束 的 设 计 是 方 法 性 能 提 升 的 关 键 。 三 个 基 准 数 据 集 上 的 实验 验 证 了 该 方 法 的 有 效 性 , 其 性 能 优 于 其 它 无 监 督 方 法 的 基 准 模 型 。 并 且 与 有 监 督 方 法 相比 , 模 型 也 有 竞 争 力 的 表 现 。

英 文 摘 要 : Image-to-image translation is a fundamental task for a wide range of applications, such as image style

transfer, video effect generation, cross-domain retrieval, and so on. Due to the limited number of labeled data, complex scenes,

abstract semantics and various involved domains, image translation remains a challenging task. Compared to the supervised

approaches for image translation, which need a large collection of paired images for training, the unsupervised methods can

significantly reduce the training cost. In this paper, an unsupervised end-to-end generative adversarial network is proposed, named

BranchGAN, for mutual image-to-image transfer between two domains. A structure with one single encoder and dual decoders is

novelly proposed to capture the cross-domain distributions and generate the images in both domains. Three factors, i.e., pixel-level

overall style, region semantics and domain distinguishability are comprehensively considered to constrain the training process of the

proposed model, corresponding to reconstruction loss, encoding loss and adversarial loss, respectively. Experiments conducted on

1国家级大学生创新创业训练计划支持项目(201710613096) 作者简介:周亦凡、男,计算机科学与技术专业,大四,研究方向包括计算机视觉和机器学习。2 作者简介:姜润皓、男,计算机科学与技术专业,大四,研究方向包括计算机视觉和机器学习。3 作者简介:吴晓、男,西南交通大学教授,信息科学技术学院院长助理,研究方向包括人工智能,多媒体信息检索,

图像/视频计算和计算机视觉。4 作者简介:何俊彦、男,西南交通大学博士生,研究方向包括多媒体,计算机视觉和机器学习。5 作者简介:翁爽、女,计算机科学与技术专业,大四,研究方包括为计算机视觉和人工智能。6 作者简介:彭强、男,西南交通大学教授,研究方向包括数字视频压缩,图像/视频处理,交通信息检测与仿真,虚

拟现实技术,多媒体系统及应用。

Page 2: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

three benchmark datasets demonstrate the effectiveness of the proposed method, which outperforms the unsupervised state-of-the-art

approaches and has the competitive performance as the supervised method.

关 键 词 : 图 像 翻 译 ; 深 度 学 习 ; 生 成 对 抗 网 络

一 , 绪 论图 像 到 图 像 翻 译 是 将 输 入 图 像 从 一 个 域 转 换 到 另 一 个 域 的 一 种 方 法 。 这 种 概 念 包 含 的

任 务 非常广 泛 , 比如将彩色图 像 翻 译 到 素描草图 、 将照片转 换 到绘画等 [1] 。 它 也 可 以 应 用于 视 频 效 果 生 成 [1-2], 跨 域 检 索 [3-4], 语 义 特征学 习 [5-6]和 风 格 转 换 [7] 。 图 像 翻 译 由 于 其 广阔的应 用前景 ,引起了 学 术界和 业界的 广 泛 关 注 ,在很多 研 究 的努力之下,已经取得了不错的突破,在一些数 据 集 上展现 了 优异的 性 能 。传统 的 图 像 翻 译 技 术 通过精心设 计 的 图 像 处 理算 法 获得从源图 像 到参考 图 像 的 单 向映射。 这 种 单 向 翻 译 一般会修改某些视 觉属性 ,如颜色 [7] 、纹理 [8] 、样式 [1] 或这些属性 的组合 [1,9]。 然而, 由 于忽略了 图片内容和 其整体 风 格 ,传统 图 像 翻 译产生 的 结 果 通常不太令人满意。近年来, 生 成 对 抗 网 络 ( GANs ) 通过对 抗性 学 习策略展示了 其 强 大 的 图 像 生 成 能 力 ,使得图 像 生 成 和 翻 译在计 算 机 视 觉 和 多 媒 体 领域变得越来越流行 (例如 [10-12]) 。 此 外 , 生 成 对 抗 网 络 ( GANs) 与 图 像 翻 译 的 结合为缓解 跨 域识别 和 检 索所出 现 的问题提供了 新 的途径, 这 有利于 实 现更加高效 的 检 索 。

图 1-1 传 统 的 图 像 互 相 翻 译 模 型 需 要 训 练 两 个 独 立 的 转 换 器 。但是 , 这些理 论 模 型 的 应 用范围非常有 限 ,在泛化应 用 的时候遇到 了很多阻碍, 比如

可 用 的 标签数 据 数 量 有 限 、 场 景 复 杂 、 抽 象 语 义融合, 这些使得图 像 翻 译 到 目前为止仍 然是 一 项 非常具 有 挑 战 性 的 任 务 。首先, 图 像 翻 译 方 法在很大程度 上依赖于 数 据 集规模 , 特别 是 有 监 督 的 图 像 翻 译 模 型必须要 成 对 的 图 像来进 行 模 型 的 训 练 。但是 要收集某些域 的 配对 图 像 是十分困难的 , 因 此手动标 注 的 数 据 数 量 有 限 是 这 个 方 法 的瓶颈。例如,我们很难找到莫奈和 凡高的名画的 对 应 的 真 实照片。 其次, 图 像 通常包 含 由 各 种 各样的物体 和 杂乱的背景组成 的 复 杂 场 景 , 比如像室内、街道或自然 场 景 。 对我们来说, 要 有 效 地 转 换 这些既复 杂又多样的 对 象 是 非常困难的 。第三 ,我们应 该仔细的 考 虑 图 像 的整体 风 格 、高级 抽象 语 义 和局部细微差别 , 因 为 这些都 是影响图 像 翻 译 效 果 的 重 要 因 素 。最后, 上述提 到 的图 像 的 特征在各 领 域之间 都存在着巨大 的差异。不同的 域 具 有不一致甚至完全相 互矛盾的特 性 (如风 格 ) 和 分 布 , 有着巨大 的 多样性 和 复 杂 性 。 因 此我们的 模 型 需 要 具 有 强 大 的 泛

Page 3: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

化能 力 ,才能很好地 进 行映射。

图 1-2 BranchGAN 的 架 构 。 BranchGAN 拥 有 “ 单 编 码 器 双 解 码 器 ” 的 结 构 ; 在 训 练 中 使 用 三 个 约束 : 重 构 约 束 、 编 码 一 致 性 约 束 以 及 对 抗 约 束 ( 分 别 用 橙 色 、 红 色 蓝 色 标 出 )

通常, 图 像 翻 译 方 法 的主要流程是 构造多组属于 两 个不同域 [10] 的 图 像 对 ,作为 训 练 集 ,然后将 其 输 入 到 模 型中, 其中一 个 域 的 图 像作为 输 入 , 另 外 一 个 域 相 对 应 的 配 对 图 像作为目 标 输 出 , 从而进 行 训 练 , 以 学 习 从源域 到 目 标 域 的映射关 系 。 现 有 的 大 多 数 图 像 翻 译主流模 型 (例如 Pix2Pix[10] 和 SRGAN[13] ) 都 采 用 了 监 督 学 习 的 方 法 。 图 像 对 通常需 要手动标注 ,手动标 注 大规模 的 数 据 集既耗时又费力 , 这 大 大 提高了 深 度 学 习 图 像 翻 译 的 训 练 成 本 ,限制了很多 图 像 翻 译 可 能 的 应 用 。 为 了 实 现 单 向 的 跨 域 转 换 , 这些模 型 需 要 有 一 对 编 码 器和 解 码 器 ,同时解 码 器 也 要 和 一 个 判 别 器形成 一 对 生 成 对 抗 网 络 ,如图 1-1 ( a )所示。然而, 该 模 型 无 法 实 现 将 图 像 从 目 标 域 转 换回源域 的功能 。 为 了 实 现 这 一 目 标 ,我们通常会分开训 练 两 个 对 抗 性 网 络 , 其中一 个 学 习 从源域 到 目 标 域 的映射, 另 外 一 个 学 习 从 目 标域 到源域 的映射, 这样才能让这 两 个 域 的 图 像 可 以 相 互 转 换 ,如图 1-1 ( b )所示。

最近, 一些研 究 提 出 了 无 监 督 学 习 的 方 法 ,如CycleGAN[12] , 它们有 效 地缓解 了 训 练 数据 集 有 限所造成 的问题。 这些无 监 督 的 方 法不需 要来自两 个 域 的 配 对 的 图 像 ,而只需 要在训 练 的过程中从 两 个 域轮流随机选取图 像 输 入 模 型即可 。 这些方 法引入 了 双 向映射的循环一致性 约 束 。 该 模 型 结合了 两组生 成 对 抗 网 络 , 实 现 了在一 个 模 型中进 行 图 像 域 的 相 互 转换 。循环一致性 约 束 的 提 出 基 于 这样一 个假设 ,当源域 的 图 像被转 换 到 另 一 个 目 标 域 , 然后将 目 标 域 的 该 图 像又转 换回源域时, 生 成 的 图 像 与原始图 像 应 该 是 相同的 。在这 一 特 性的推动下, CycleGAN 通过计 算原始图 像 与 生 成 的 目 标 域 图 像再生 成回的源域 图 像之间 的距离,引入 了循环一致性 损 失 的 概 念 [12] 。尽管在某些情况下无 监 督 学 习 方 法 表 现 出 了很好的性 能 ,但在很多情况下, 无 监 督 学 习 方 法 与 监 督 学 习 方 法 仍存在较大差距。

与 上述方 法不同的 是 , 本 文 提 出 的 模 型 是 基 于 一 种 新颖的 单 编 码 器 - 双 解 码 器( SEDD ) 结 构 , 该 结 构 由 一 个 编 码 器 和 两 个 并 行 解 码 器组成 。使用 单 个 编 码 器正确的 捕获 这 两 个 域之间 的 外观和 语 义 关 系 。 采 用 双 解 码 器 , 一 个 对 特征进 行 解 码 , 一 个 生 成 图 像 ,避免了 两 个不同域 生 成 的 图 像 相 互之间 的干扰。同时该 模 型 学 习 到 了 两 个 域之间 的 跨 域 信息 , 并 将 两 个 域 的 数 据映射到 一 个嵌入 特征空间中。 注意到如果 两 个 图 像 是 从同一 图 像 生成时,他们的 编 码 信 息 应 该 是 一致的 。同时,如果 图 像 是 从同一 特征向 量 生 成 的 ,则它们看起来应 该 是 相似的 。 因 此我们提 出 了适应 SEDD 结 构 的 新 约 束 方 法 ,即双 向 编 码 一致性约 束 。 可 以看到 , 图 像 从 编 码 器 输 入 到 解 码 器 ,同时, 解 码 器 的 输 出又充当编 码 器 的 输 入 ,形成 了 双 向 结 构 ( 图 1-2 中标记为“双 向”的 两条绿色环状线) 。 图 像 翻 译 的过程应保持较高语 义 级 别 的传递性 。 这样, 模 型不仅可 以保留原始图 像 的 特征,还可 以 将 图 像 翻 译至

Page 4: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

相 应 的 域 。 通过该 模 型我们可 以同时获得两 个 图 像 ,同时生 成 的 图 像 与原始图 像几乎相同,转 换后的 图 像 与 相 应 的 域 相近。 为 了 实 现 这 一 目 标 , 本 文综合考 虑 了 像 素 级 的 风 格 、 区 域语 义 和 域 可 分辨性 三 个 因 素 , 分 别 对 应 于 重建损 失 、 编 码 损 失 和 对 抗 性 损 失 。在图 2 中,它们分 别 用橙色、红色和蓝色标记。

本 文 的主要贡献如下:( 1 ) 提 出 了 一 个 无 监 督 的 对 抗 性 学 习 模 型 ,称为 BranchGAN , 可 以 实 现 两 个 域之间

对 应 的 图 像 到 图 像 的 转 换 。( 2 ) 提 出 了 一 种 新 的 图 像 翻 译 结 构 , 成 为“单 编 码 双 解 码 器 ( SEDD )”结 构 。在

该 结 构 的帮助下。我们无 需 构造两 个 模 型 ,就可 以根据 输 入 图片的 风 格 将 输 入 图片转 换 到相 应 的 目 标 域 。

( 3 ) 为 了适应 SEDD 结 构 ,我们引入 了 双 向 编 码 一致性 约 束 。 该 约 束不仅保留了原始图 像 的 特征,而且还能 将 图 像 翻 译至所需 的 域 .

( 4 ) 为 了保留图 像 从 像 素 到 域 级 别 的共同属性 ,我们考 虑 了 重建损 失 、 编 码 损 失 和对 抗 性 损 失 这 三 个 因 素来约 束 模 型 的 训 练 。

( 5 )我们在三 个 基 准 数 据 集 , 分 别 是 Cityscapes [14] 、 CelebA [15] 和 Facades [16] 上 进 行 了 实验 。 实 验 证明BranchGAN 很有 效 , 它 的 性 能 优 于最先进 的 无 监 督 学 习 方 法 , 并 且 和 监 督 学习 的 方 法 相 比 也 有不小的 竞 争 力 。

二 , 相 关 工 作(一)生成对抗网络

生 成 对 抗 网 络 ( GAN ) [17-18] 是 一 种 特殊的 生 成 模 型 , 它利用 对 抗 性 学 习策略来控制生成 器 和 判 别 器 的权重更新 ,直到 构建动态平衡以 实 现最优 解 。 然而, 由 于 采 用 交叉熵函 数作为 损 失 函 数 ,原本 的 GAN在训 练阶段具 有不稳定的 性 能 , 这很难测 量 真 实 和 虚假的 输 入之间 分 布 的距离。 创 新 的 Wasserstein GAN ( WGAN ) [19] 和条件GAN ( cGAN ) [20]被提 出来解决这 个问题。 WGAN 使用 wasserstein距离 [19] 并删除最后一层的 sigmoid 激活函 数 。 将 另 外 的条件变量 ( 监 督 信号)作为 训 练中的 约 束 项引入 cGAN , 其 将原本 的 GAN 从 无 监 督 方 法 转变为 监 督 方 法 。凭借其灵活的框架, GAN很容易与 各 种神经网 络 结合用 于不同的 应 用 。例如, 深 度卷积GAN ( DCGAN ) [21]利用卷积神经网 络 的 优势进 行 图 像 生 成 。序列GAN ( SeqGAN ) [22] 用 于 通过将 LSTM 网 络 [23] 的序列建模 能 力 集 成 到 GAN中来生 成序列。与传统 的 图 像 生 成 模 型 (如Autoencoder[24] ) 相 比 , GAN 可 以 生 成 具 有更丰富细节的 图 像 。

(二)图像到图像翻译由 于 GAN 的吸引人 的 优点, 它们被引入 到 图 像 到 图 像 的 翻 译 任 务中。 图 像 到 图 像 翻 译

旨在通过修改颜色,纹理或样式等属性来将 一 个 域中的 图 像更改为 另 一 个 域中的 图 像 [1, 3-4, 7-

9, 25] 。受到未标记图 像易于 获取的启发, 无 监 督 和半监 督 方 法被广 泛 研 究来发现不同域之间 的 关 系 。 特 别 是 ,半监 督 方 法在跨 域 检 索中取得了良好的 效 果 [3, 4] 。 通过最大化一小部分 图 像之间 的 相 互 信 息 , 一些研 究 成功地 解耦了 图 像中的 风 格 和内容信 息 ,如书写风 格[5] ,织物颜色转 换 [7] , 图 像 重定向 [8] , 语 义 分类 [26] 和 语 义 分割 [27] 。 通过结合颜色和纹理 特征,引入 了 一 种 新 的 图 像 外观转 换 方 法 , 以 获得良好的 外观转 换 结 果 [9] 。最近, 图 像 到 图像 的 翻 译在计 算 机 视 觉 领 域变得越来越流行 (例如 [10-12] ) 。 由 于 上述GAN缺乏对 生 成图 像 的 约 束 , 因 此难以 获得要 生 成 的期望图 像 。 因 此 , 一 种名为 Pix2Pix[10] 的 监 督 图 像 转 换

Page 5: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

模 型被提 出 , 该 模 型 用 配 对 图 像 进 行 训 练 。 它使用 cGAN[20] 来学 习 从 输 入 到 输 出 图 像 的映射。 结合U-Net[10]结 构 与 单 个 编 码 器 - 解 码 器 和 L1正则损 失 , Pix2Pix[10] 确保了 输 入 和 输 出之间 的 一致性 , 从而在成 对 的 图 像 到 图 像 转 换中实 现 了良好的 结 果 。 然而, 获取大规模 配 对标记数 据 集 非常耗时、 成 本很高,使得难以 广 泛 应 用 。 由 于 数 据 集 的 限制, 一些基 于 GAN的 工作被提 出 (例如 [11, 28-32] ) , 以 通过采 用 无 监 督策略来解决图 像 到 图 像 的 翻 译问题。CoGAN[33] 使用 两 个 具 有权重共享的 GAN 网 络来生 成 跨 域样本 。 通过在 [11] 中结合变分自编 码 器 [34] 和 GAN来扩展该框架, 提 出 了不同的策略来强制输 出类似于某些预定义 方面的 输入 ,例如类标签 [28] , 图 像 像 素 [29] 和 图 像 特征 [30] 。在不需 要 标记或配 对 图 像作为 监 督 的情况下, DualGAN[31] 提 出 了 一 种封闭的循环结 构 ,允许在两 个 域之间 相 互传输 图 像 。DistanceGAN[32] 提 出 了 一 种 约 束来预测 无 监 督 的 跨 域映射是否成功, 从而增强 了 无 监 督 图 像传输 的 性 能 。 与 上述方 法不同, CycleGAN[12] 是 一 种 无 需 监 督 的 方 法 , 无 需 配 对 标签, 也不依赖于 特定任 务 , 这 为 跨 域 图 像 转 换 提供了 通 用 解决方案。 CycleGAN 新颖地增加了 周期一致性 损 失 以保持原始图 像 的 像 素 级 信 息 , 实 现 有 效 的 转 换 性 能 。已经提 出 了 基 于 CycleGAN的 其他扩展,例如ComboGAN[35] 和 StarGAN[36] , 它们可 以在没有 监 督 的情况下在多 个 域之间传输 图 像 ,使用较少甚至仅一 个 统 一 的 模 型 。尽管与 其他无 监 督 模 型 相 比 , 这些模 型 的结 果得到 了显着改善,但性 能远远不能令人满意, 这 仍 然 比 监 督 方 法更差。 这 是 无 监 督 方法 的最突出 的缺点。

三 , BRANCHGAN

本章主要内容为 本 论 文所提 出 的 模 型 的 具 体 结 构 以 及 训 练 方 法 。(一)模型主体结构

本 模 型 的主体部分 采 用 了 一 种 结 构 ,被称为“单 编 双 解”。 这 个 结 构 涉 及 了 两 个 域 的图片, 分 别 为源域 ( S ) 和 目 标 域 ( T ) 。整体 上来说由 两 个共享权重 的 编 码 器 (即单 编 ,E ) 和 两 个独立的不共享权重 的 解 码 器 (即双 解 ,GS和GT) 构 成 。 这 个 结 构 的 目 的 是 用 无监 督 的 方 法 ,来寻找源域 和 目 标 域之间 的共有 特征, 并 且把这 个共有 特征投影进 入 一 个 统一 的 向 量空间 ,得到 一批向 量 ( E(x) , x∈S∪T ) , 它们的空间被称为 特征向 量空间 。 两 个解 码 器则将 这些特征向 量 , 无 论源头属于哪一 个 域 , 分 别 解 码 ,即分 别 生 成属于 两 个 域 的图片(GS(E(x))和GT(E(x) ) , x∈S∪T ) , 一 个 解 码 器负责一 个 域 的 图片的 生 成 。 因 此 , 该 模型 实际上又构 成 两 个自编 码 器 。而和 两 个独立的自编 码 器又不同, 本 模 型 的 两 个自编 码 器共享了 解 码 器 ,同时又共享了 特征向 量空间 。 因 此 , 该 模 型 的 设 计 目 的即为 提取出 目 标 域和源域共有 的 特征。

在此 单 编 双 解架构 的 基 础 上 ,又增添了 一 个神经网 络 分类器 (C ) 。 该 分类器 的 输 入为 编 码 器 的 输 出 ,即两 个 域 的原始图片通过编 码 器而得到 的 特征向 量 。 通过对 该 特征向 量的 分类, 实际上就是 对原始的 图片进 行 了 分类, 从而达到 了 该 任 务 分类的 效 果 。 具 体来说,源域 的 图片是 有类别 标签的 , 因 此源域 的 图片通过编 码 器 生 成 的 特征向 量 也 有类别 标签。将 此 特征向 量 和类别 标签分 别作为 输 入 和 输 出 , 用全监 督 的 方式训 练 这 个神经网 络 分类器 。由 于 单 编 双 解 的 结 构已经达到 了 统 一源域 和 目 标 域 的 特征向 量 的 目 的 , 因 此源域 和 目 标 域的 特征向 量 抽取了 两 个 域共有 的 特征, 因而针对源域 的 特征向 量 有 效 的 分类器 , 对 也 对 目标 域 的 特征向 量 有 效 。 从而, 本 模 型达到 了 对 目 标 域 进 行 分类的 目 标 。

(二)损失函数

Page 6: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

1 ,重构约束最好的 验 证 模 型 是否成功学 习 到 一 个 图片的 重 要 的 特征的 方 法 是 ,直接往编 码 器 输 入

一张图片, 然后再用 编 码 器 输 出 的 向 量 , 输 入 到 相 对 应 的 解 码 器 , 生 成 一张图片。 生 成 的图片应当与原图十分 相似。那么,我们有充分 的 理 由 将 这 个 输 出 的 图片与原图作比较, 量化的差异大小作为 损 失 函 数 。 这样可 以保证 , 生 成 的 图 像 与原图尽可 能 地 相似。自编 码 器的 训 练过程就是完全按照了 这样的 一 种思路。

自编 码 器 的 本身是 一 个全监 督 的 训 练 方式。 它 通过将原图作为 输 出 的 目 标 ,同时在编码 的部分中进 行 降维, 成功地 提取了 一些有 效 信 息 ,或者说, 成功地让输 出 的 信 息至少跟原始输 入 是 有 关联的 。 本 模 型同样可 以使用 这样的 方 法 ,在我们的架构中寻找出 编 码 - 解码 的 结 构 , 且 解 码 出来的内容正好应 该 是原图 。 实际上 这样的 结 构存在两 个 ,第一 个 是GS(E(s)), s∈S ,即从 编 码 器 输 入 一 个源域 的 图片 s , 然后将 生 成 的 特征向 量E(s) 再放入针对源域 的 生 成 器GS。 这样输 出 的 图片GS(E(s)), 目 标 应 该 为 一 模 一样的原图 s 。 相 对称的 ,另 外 一 个 为GT(E(t)) , t∈T ,即从 编 码 器 输 入 一 个 目 标 域 的 图片 t , 然后将 生 成 的 特征向 量再放入针对 目 标 域 的 生 成 器GT, 也 应 该 生 成 出 一 模 一样的原图 t 。 通过这 个 约 束 , 特 别 是再加上 降维的加入 ,原图中的 信 息尽可 能 多 地保留住了 ,所以 特征向 量 也会保留尽可 能 多的 有 效 信 息 。

此 模 型 采 用 了 L1距离来测 量 输 出 的 图 像 和原图之间 的差距, 并 且我们将 这 个差距作为一 个 损 失加入 训 练 的过程当中。 这 个 损 失被称为 重 构 损 失 ( Reconstruction Loss) ,公式表述如下:

Lrec (E ,Gs ,GT )=E s PS (‖GS (E ( s ))−s‖1)

+E t PT (‖GS (E (s ) )−s‖¿¿1)¿ (3-1)

其中 pS和 pT分 别 表示源域 和 目 标 域 数 据 的 概率分 布 。在生 成 图 像 的过程中,让神经网 络尽可 能 地保持稀疏性 可 以 有 效 地避免过拟合。 L1范

式被证明对 于保持参数稀疏非常有 用 , 因 此 它被很多 生 成 图 像 的 模 型所使用 , 特 别 是 生 成对 抗 网 络 , 比如CycleGAN 。除此之外 , Pix2Pix 也尝试了 L2范式,但是发现 L2范式常常会导致生 成 的 图 像很模糊, 从而在最终结 果中采 用 了 L1范式。在这 个 任 务下, L1范式是 比 L2范式更优 的选择。

2 编码一致性约束如果 将 一张源域 的 图片, 通过编 码 器之后,再用 目 标 域 的 解 码 器 进 行 解 码 , 也就是 生

成 目 标 域 的 图片,那么这就完成 了 一次域 的 转 换 。显而易见, 转 换之后的 图片中含 有 的 有效 信 息 与 转 换之前应 该 是 一致的 。 换句话说, 语 义 级 别 的 信 息 是 模 型希望在编 码 和 解 码 的过程中始终保留下来的 重 要 信 息 。当我们将 图片进 行 编 码 - 解 码 的操作的时候, 有 可 能 域信 息改变了 ( 比如从源域 转 换 到 了 目 标 域 ) ,但是 语 义 信 息不能改变( 比如图片上 的 数字 ) 。 这 是 一 个 双 向 都满足的过程,即无 论 是把一张图片从源域 转 换 到 目 标 域 ,还是把一张目 标 域 的 图片转 换 到源域 , 它 的 外观、纹理 信 息 可 能改变了 ,但是 深层语 义 信 息不能改变, 也就是保持 语 义 信 息 的 一致性 。 该 模 型 应当将 这 种 一致性加入 到 约 束中去 。细化到 模型 上 , 也就是当我们输 入 一张源域 的 图片 s , 将 它放入 编 码 器 生 成 特征向 量E(s) ,再将 这个 特征向 量放入 目 标 域 的 解 码 器GT, 生 成 一张属于 T 的 图片GT(E(s)),再将 这张图片重 新 仿佛编 码 器 ,得到第二个 特征向 量E(GT(E(s))), 这 个 特征向 量 与原来的 图片 s 的 特征向 量E(s)应 该 一致。 实际上 , 无 论 是属于源域 的 图片 s 还是属于 目 标 域 的 图片 t 作为 输 入 , 无 论 是

Page 7: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

属于源域 的 解 码 器GS来生 成 图片,还是属于 目 标 域 的 解 码 器GT来生 成 图片, 其中的 语 义 一致性 应 该 都 是存在的 , 它们都 应被放入 损 失 函 数中,参与 模 型 的 训 练 。 编 码 一致性 损 失( Encoding Loss )在公式上 表示如下:

Lenc ( E ,G s,GT )=E s PS(‖E(GT (E(s)))−E (s)‖1)

+E s PS(‖E(G S(E(s)))−E(s)‖1)

+E t PT (‖E (GS (E(t)))−E(t )‖1) (3-2)

+E t PT (‖E (GT(E (t)))−E(t)‖1)

两 种 特征向 量 都被用 于 构 成 编 码 一致性 损 失 :来自源域 的 图片 s 的 特征向 量E(s) 以 及来自目 标 域 的 图片 t 的 特征向 量E(t) 。 它们分 别 通过两 个 域 的 解 码 器GS和GT, 从而生 成 了四张图片,GS(E(s)),GT(E(s)),GS(E(t)) 和GT(E(t)) 。 这 四张图片又分 别 输 入 编 码 器 ,得到 四 个特征向 量E(GS(E(s))),E(GT(E(s))),E(GS(E(t)))和E(GT(E(t)))。 这 四 个 特征向 量 分 别 要 和原图 的 特征向 量 一致, 此 模 型 也使用 了 L1距离作为差异的 量化衡量 方式

3 对抗约束显然 本 模 型存在一 个明确的 约 束 , 也就是 解 码 器 生 成 的 图 像 应 该 外观上 与 真 实 的 图 像

相似, 并 且看起来属于 解 码 器所在的 域 。 换 一句话, 也就是 解 码 器 生 成 的 图 像 需 要跟生 成器所在域 的 数 据 有类似的 概率分 布 。 这时, 该 模 型就需 要 设 计 一 个 损 失 , 专门来满足这 个约 束 。 该 模 型选用 了 对 抗 损 失 。 对 抗 损 失 需 要每一 个 解 码 器 有 一 个 判 别 器 , 判 别 器 是 一 个二分类器 , 用 于 判断生 成 的 图 像 是 真 实 的 图 像还是 虚假的 生 成 的 图 像 。而判 别 器 的 输 出便可 以 计 入最后的总损 失 ,参与反向传播,参与 模 型参数 的调整。 这 种 方 法来源于 生 成 对 抗网 络 ( GANs ) 。

对 于 本 模 型 , 由 于存在两 个 解 码 器GS和GT,所以 需 要 两 个 判 别 器DS和DT分 别 对 应 它们。DS和DT分 别来判断GS和GT生 成 的 图 像 是否分 别 是 真 实 的属于 S 或 T 的 图 像 ,还是 虚假的 生成 的 图 像 。最后两 个 判 别 器 的 输 出 , 也就是 这 两 个 判 别 器 的 对 抗 损 失 LadvS 和 LadvT , 进 行求和 ,得到总的 对 抗 损 失 ( Adversarial Loss , Ladv 。 ) 。 Ladv 的公式表述如下:

Ladv (E ,GS ,GT ,DS ,DT , S ,T )=LadvS(E ,GS ,GT , DS , S ,T ) +LadvT (E ,GS ,GT , DT , S ,T )

(3-3)

判 别 器DS的 目 标 是 判 别来自 S 的 真 实 图 像 s 以 及 解 码 器GS生 成 的 图 像 分 别 是否为 真 实的 图 像 , 与 此同时解 码 器GS的 目 标 是 生 成尽量 真 实 的 图 像 ,来迷惑判 别 器DS。 判 别 器DS的对 抗 损 失 LadvS 的公式表述如下:

LadvS(E ,GS ,GT , DS , S ,T )=E s∼ p S¿ +E t∼ pT¿ +E s∼ pS ¿ +E s∼ pS ¿ (3-4)

以 上 是 LadvS 的说明。 与之对称的 , 是 LadvT ,内容与之一致,公式表述如下:LadvT (E ,G S ,GT , DT , S ,T )=Et∼ pT¿ +E s∼ pS ¿ +E t∼ pT¿ +E t∼ pT¿ (3-5)

五 , 实 验在本节中,我们将首先在( 一 )中介绍性能指标,然后关于图像生成的三种应用进行

实验。这三个实验分别是即基于语义标签的照片生成、性别转换和基于建筑照片的生成标

Page 8: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

签,它们分别在(二),( 三 )和( 四 )节中描述。(一)性能指标1 ,FCN评分

到 目前为止, 并没有 一中广 泛接受的 方 法来评估生 成 的 图 像 的质量 。 本 文 采 用 了 一 种类似于 CycleGAN[12] 和 Pix2pix[10] 的 方 法 。使用 FCN 评分 [49]作为 语 义 标签到照片生 成 任 务 的性 能指标 。 FCN 评分 可 以 有 效 地评价全卷积网 络 ( FCN ) 图 像 生 成 的 准确性 [49] 。 FCN 在像素 级 别 对 图 像内容进 行 分类, 并预测 标签值, 将 该预测值与 数 据 集中的 真 实值进 行 比较。如果 生 成 的 图 像 的 FCN 评分 与 真 实值之间差异较小,则表明该 模 型 具 有良好的 性 能 ,即图像 翻 译 准确、逼真 。 FCN 评分指标 由 三 个部分组成 , 分 别 为 像 素精度 (ACCp) 、 分类精度(ACCc) 和 交 并 重叠集 ( IOU ) , 其定义如下:

像 素精度 (ACCp ) [49] :ACCp 是正确分类的 像 素 数 与 像 素总数 的 比率, 其定义如下 :

ACCP=∑ipii

∑ipi

(4-1)

其中 pi=∑jpij 是 i 类的总像 素 数 , pij 表示被错误地预测 为类 j 的属于类 i 的 像 素 数 。分类精度 (ACCc ) [49] :ACCc 计 算所有类中正确分类的 像 素 的平均比例, 其定义 是 :

ACCC=1N c

∑ipii

p i

(4-2)

其中Nc 是类的总数 。交叉重叠集 ( IOU ) [49] : IOU 计 算每个类的 真 实值和预测 分割的 交叉集 和联合的平均

比率, 其 数 学 表达式如下:

IOU= 1Nc

∑ipii

p i+∑jp ji−pii

(4-3)

2 ,SSIM

SSIM( 结 构 相似性指数 ) [50] 是 测 量 两 个 图 像 的 结 构 相似性 的指标 , 它被广 泛 用 于 生 成图 像 的质量评估 [13] 。 SSIM 将 用亮度 、 对 比 度 和 结 构 这 三 个不同因 素 的组合来量化畸变的程度 ,而这 三 个 量 分 别 用 分 别 用均值、 标 准差和协方差来估计 。 SSIM 指标 的定义如下:

SSIM ( x , y )=(2ux ,u y+C 1 ) (2σ xy+C2 )

(ux2+u y2+C1 ) (σ x2+σ x2+C2 )

(4-4)

(二)应用1 :Cityscapes 上的照片生成1 ,任务描述

从 语 义 标签进 行 的照片生 成旨在将 人 工 标 注 的 语 义 标签转 换 为 真 实照片,反之亦 然 。建立语 义 标签与 实物之间 的映射关 系 ,不仅需 要保持 标签的空间位置信 息 ,还需 要产生 相应 的细节变换 ,如颜色、纹理甚至几何 的 对 应 关 系 。 这 是 一 项 具 有 挑 战 性 的 任 务 。传统 的

Page 9: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

监 督 学 习 方 法 (如 Pix2Pix [10] ) 可 以 比较轻松地找到映射关 系 , 这 是 因 为 它使用 监 督 学 习的 方 法 , 输 入 的 语 义 标签和照片具 有 一 对 一 的 对 应 关 系 , 配 对 的 图 像 将同时输 入 到 网 络 。但是 , 无 监 督 的 方 法 ,如CycleGAN[12] ,只能 获得标签信 息 ,而不知道其 相 应 的 真 实照片的信 息 。 这 对找到 这 种 从 标签到照片的映射提 出 了很大 的 挑 战 。照片和 标签的 转 换示例如图5-1 所示。

2 ,数据集Cityscapes 数 据 集 [15] 是 一 个 具 有高质量 像 素 级 标 注 的 大 型 图 像 数 据 集 。 该 数 据 集 有 19 个

类别 , 包 括 50 个不同的城市 场 景 , 具 有不同的 对 象 和 复 杂 的背景 。 它共有 5000 张带有 标 注的 图 像 , 其中 2975 张用 于 训 练 , 500 张用 于 验 证 , 1525 张用 于 测试。

图 5-1 Cityscapes 数 据 集 上 的 标 签 和 照 片 互 相 转 换 的 示 例3 ,与基线模型进行比较为 了 验 证 性 能 , 本 实 验 将 采 用 FCN 评分 , 将我们的 模 型 与 基线进 行 比较。在卷积和池

化运算后, 输 入 FCN 的 图 像被进 行 n 次卷积和池化后的下采样。在本 文中,我们设置了 8次的下采样来构造 FCN 模 型 , 该 模 型在所有 设置中表 现最好。使用 标 准 语 义 分割指标 将 生成 的照片中的 语 义 标 注 与 真 实值进 行 比较。 由 于没有找到 关 于 Cityscapes 的 FCN 预训 练 模 型 ,我们必须从零开始训 练 FCN , 并利用我们从零开始训 练 的 FCN 来衡量 性 能 。 为 了确保公平,FCN 的 训 练 设 置 对 于 所 有 测 试 的 模 型 保 持 一 致 [10,12] 。 FCN 模 型 的 输 入 图 像 的 尺 为128*128*3 , 其 大小与 本 文所提 出 的 方 法 , 以 及所有 的 基线模 型 生 成 的 图 像 都 相同。 由 于没有 任 何在Cityscapes 上 的预先训 练好的 模 型 ,我们使用 FCN 的官方代码 以 及所有 的官方默认模 型来进 行 训 练 。

表 5-1在 Cityscapes 上 的 与 不 同 基 准 模 型 的 性 能 比 较 结 果模 型 ACCP (%) ACCC (%) IOU (%)

DistanceGAN[52] 55.0 15.3 10.6

DualGAN[51] 64.5 23.7 16.6

CycleGAN[12] 65.2 24.5 18.1

StarGAN[54] 68.3 25.0 17.3

ComboGAN[53] 68.1 26.0 19.3

BranchGAN 78.0 29.7 22.3

Pix2Pix[10] 80.1 32.0 24.5

表 5-1 列出 了 与最先进 方 法 的 性 能 比较。尽管DistanceGAN 提 出 了 一 个 新 的 约 束 ,但它没有 将循环一致性纳入 考 虑 , 从而导致它在训 练中比 别 的 模 型 都缺少了 一 个 非常重 要 的 约

Page 10: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

束 ,而导致它 的 性 能在所有 比较的 模 型中是最差的 。 DualGAN 和 CycleGAN 有类似的 性 能 ,因 为他们在本质上 的思路都 非常相似, 都 是在两 个 域之间 构建一 对 相 等 的 互 相映射, 从而实 现循环一致性 。 这 两 个 模 型达到 了 比 DistanceGAN好很多 的 性 能 。 StarGAN 和 ComboGAN都 是 对 于 CycleGAN 的拓展,在CycleGAN 的 结 构 基 础 上再加上 了 一些别 的 结 构 ,所以 其 性 能略有改善。 本 论 文 提 出 的 BranchGAN 综合考 虑 了 像 素 级 的整体 风 格 、 区 域 语 义 和 域 判 别 性 ,因 此 有 比之前的 模 型 都更详细的 、 有 效 的 约 束 , 因 此 , 它 的 性 能在标签到城市照片的 生 成任 务 上 表 现 的 比之前的 模 型 都 要更好。 本 文 提 出 的 BranchGAN 的 性 能 与 ComboGAN 和CycleGAN 相 比 , 分 别得到 了 15% 和 20% 左右的改善。 与 这些模 型不相同, Pix2Pix 是 一 种 有监 督 的 训 练 方 法 , 因 此 它 的 测试结 果 非常逼近数 据 集中的 真 实值。 从 表 5-1 中,我们可 以看到 , 本 文 提 出 的 BranchGAN 非常有 优势,作为 无 监 督 学 习 的 模 型 , 其 性 能甚至可 以 和 有监 督 的 Pix2pix 相近,而这正式是 本 方 法 的 优点之一 。

图 5-2在 Cityscapes 上 从 标 签 生 成 的 照 片 的 任 务 的 与 基 准 模 型 的 比 较图 5-2 提供了 一些在Cityscapes 数 据 集 上 的 , 从 语 义 标签生 成 为逼真照片的 生 成 结 果样

例。 DistanceGAN 生 成 的 图 像 比较的 模糊, 大 多 数 的物体 对 象 都没有清晰的轮廓。 以黄色和红色圆圈中表示的 为例, 它们非常凌乱而不清楚。 相 比之下, DualGAN 和 CycleGAN 有更清晰的轮廓, 并 且纹理 信 息 也更加的丰富而逼真 。 然而, CycleGAN总是错误地把植被的 区 域生 成 为墙,而 DualGAN 生 成 的 图片的 外观仍 然不够清晰。作为 CycleGAN 的后续研 究 ,ComboGAN 比起CycleGAN来说没有足够的细节。 StarGAN 也 有类似的问题极其缺乏细节和纹理 ,使输 出 的 图 像看起来不那么逼真 ,虽然 都 能看得出来是什么,但是没有那种 真 实感,特 别 是中小型物体 的纹理 ,如汽车和围栏的细节, 都没有很好地 捕捉到 和 生 成 出来 。BranchGAN 相 比而言的 性 能 非常出色, 其 真 实感甚至与 pix2pix 非常接近,而 Pix2pix 是 图 像翻 译 领 域中最佳的 有 监 督 的 学 习 方 法 。我们可 以看到 ,我们提 出 的 方 法 的 生 成 出来的 图 像具 有清晰轮廓、丰富细节和逼真纹理 , 优 于所有 无 监 督 学 习 的最先进 的 方 法 。 这组对 比试验 表明, 编 码 损 失让模 型 具 有 了 学 习详细的 语 义 信 息 的 能 力 , 这保证 了 大 多 数明显的 语 义标签上 的物体 都 能 生 成 为正确的纹理逼真 的类别 。尽管与 真 实值相 比 , BranchGAN 的 性 能依旧略有下降 ,但它 可 以很容易地 泛化应 用 于 各 种 任 务 。

Page 11: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

5 ,损失函数分析为 了探讨不同的 损 失 函 数 对 模 型 训 练 效 果 的影响,我们在标签到城市 真 实照片的 生 成

任 务 上 进 行 了 系 统 的拆分 实 验 。 该 实 验 的 结 果在表 5-2 中显示。在实 验中, SEDD 代表 的是 本 模 型 的 单 编 码 器 - 双 解 码 器 的 结 构 。 Adv 、 rec 、 cyc 和 enc 分 别指对 抗 损 失 、 重 构损 失 、循环一致性 损 失 和 编 码 一致性 损 失 。循环一致性 损 失 由 CycleGAN引入 生 成 对 抗 网 络的 训 练中。 此 约 束 的 目 标 是 , 对 于 输 入 的 一张源域 的 图 像 , 生 成 的 图 像 应 与原始图 像 相似。而生 成 图 像 的过程是 模 型首先将 输 入 的 图 像 翻 译 到 目 标 域 , 然后转 换回源域 ,如此形成 一个循环。 这 种 一致性 的属性称为“循环一致性”, 这意味着输 入 图 像 与 其 输 出 的属于 相同的 域 的 图 像之间 的距离应尽可 能小。 从 数 学 上来说, 对 于 域 S 中的 图 像 s , 两 个映射,GT(E()): s→t 和 GS(E()):t→s 应 该 能够将 输 入 的 s 先转 换 为 T 类的 图 像 t ,然后再将其返回到原 始 的 域 , 生 成 出 一 张 类 似 于 原 图 s 的 图 像 。 也 就 是 说 , 数 据 的 转 换 过 程 是s→GT(E(s))→GS(E(GT(E(s)))) ,而GS(E(GT(E(s))))≈s , 它形成 一 个 图 像 翻 译 的循环。同样的 , 对于来自 T 域 的 图 像 t , GS(E()):t→s 和 GT(E()): s→t 应形成 另 一 个 图 像 翻 译 的循环过程:t→GS(E(t))→GT(E(GS(E(t)))) ,而GT(E(GS(E(t))))≈t 。 该 模 型使用 了 L1距离用 于 测 量原图 和经过了 一 个循环之后转 换 到 的 图片的距离。循环一致性 损 失 是 s 和 GS(E(GT(E(s)))) 之间 的距离,以 及 t 和 GT(E(GS(E(t)))) 之间 的距离的总和 。

表 5-2在 Cityscapes 数 据 集 上 实 验 的 不 同 的 损 失 函 数 组 合 的 效 果损 失 函 数 组 合 ACCP ACCC IOU

SEDD+adv 48.9 12.3 8.3

SEDD+adv+enc 52.6 12.5 8.3

SEDD+adv+rec 53.0 12.0 7.3

SEDD+adv+cyc+rec 66.0 22.0 16.0

SEDD+adv+cyc 73.2 25.8 19.1

SEDD+adv+cyc+enc 73.4 24.6 18.3

BranchGAN 78.0 29.7 22.3

Page 12: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

图 5-3 使 用 不 同 的 损 失 函 数 在 Cityscapes 上 从 标 签 生 成 为 照 片 的 效 果 对 比BranchGAN 同时包 括 对 抗 损 失 、 编 码 一致性 损 失 和 重 构 损 失 , 也就是 表 5-2 中的

SEDD + adv + rec + enc 。 从 表 5-2 中,我们可 以看到 , SEDD + adv 的 损 失 函 数组合表 现 出 的效 果最差。 这 是 为 它只使用 对 抗 损 失作为 约 束 , 这 个 约 束只能 要求生 成 的 图片看起来像 真实 的 图片,但是没有 包 括 入 其他的 考 虑 因 素 , 从而会导致性 能不佳。只考 虑 对 抗 损 失 约 束的 比较常见的后果 是所有 生 成 的 图 像 都趋于 一致,而丢失 了 输 入 的 向 量 的 信 息 。当分 别又考 虑 了 编 码 一致性 损 失或重 构 损 失时, SEDD + adv + enc 和 SEDD + adv + rec 的 性 能 有 一定改善,但是 也不会好很多 。 它们要么只考 虑 跨 域 的 语 义 一致性 的 约 束 , 要么只考 虑 像 素 级的精度 的 约 束 。前者要求了 图 像 的 进 行 转 换 的时候尽可 能 多 地保留原图中的 语 义 信 息 , 从而可 以尽可 能 地 将 图中的每个东西 都 抽取出来并 且 对 应 到 另 一 个 域 ;而后者要求生 成 的 图像在综合全图 的明度 、色块等 方面要 和原图中一致。如果 要 将 图 像 的 生 成 效 果好,必须要综合地 考 虑 到 像 素 级 的精度 以 及 语 义 级 的精度 。 由 于循环一致性 损 失 结合了 像 素 级精度 和跨 域 语 义 信 息 , 因 此 SEDD + adv + rec 、 SEDD + adv + rec + cyc 和 SEDD + adv + rec + enc 的性 能 为显著增强 。但是 , 由 于循环一致性 损 失 与 重建损 失 和 编 码 损 失 具 有 相似的作用 ,在训 练 SEDD + adv + cyc + rec 和 SEDD + adv + cyc + enc 时,会导致损 失 目 标 的矛盾, 从而使训 练的 效 果变差。 重 构丢失 和 编 码 损 失 的 结合相 对来说是 以 上几种组合中的 比较好的 一 个 解决方案, 因 此 BranchGAN 使用 这 个组合实 现 了最佳的 性 能 。

图 5-3 列出 了使用不同组合的 损 失 函 数所生 成 的 图 像 的示例。 可 以明显地看到 ,SEDD + adv , SEDD + adv + enc 以 及 SEDD + adv + rec 这 三 种 损 失 函 数组合的 表 现不好。 这些组合生 成 的 图 像 都 比较模糊, 其中只有道路是正确生 成 的 。某些类的 输 出 , 比如天空、汽车和 人 行道, 都 并不好。在加入 了 编 码 一致性 损 失之后, 性 能显著的 上 升 了 。 编 码 一致性损 失 约 束 的 是 两 个 域之间 的 语 义 一致性 。 从 表 5-2 中,我们可 以清楚地看到 ,在没有 编 码一致性 损 失帮助 的情况下,我们提 出 的 模 型 的 性 能会显著降 低 ,而这 证明了 编 码 一致性 损失 的 有 效 性 。 图 5-3 所示的示例图 像 表明,如果不使用 编 码 一致性 损 失 ,那么生 成 的 图 像 ,与原始图 像 相 比 ,会很模糊,而且会漏检很多 的 目 标 对 象 (如汽车和树木 ) 。但是就算不

Page 13: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

用 编 码 一致性 损 失 ,只要引入循环一致性 损 失 ,即使用 SEDD + adv + rec ,整体 性 能 也会提升 , 生 成 的 图 像 也更加清晰。在这 种情况下, 大 多 数 对 象 都 成功地 生 成 了 , 大 多 数类都正确地映射到 真 实 图 像 上 。 BranchGAN 在很多 方面都 表 现 出 了不错的 性 能 , 特 别 是 对 于 大 型和中型尺寸的 目 标物体 ,如道路、建筑和植被等 。 生 成 的 目 标物体 基 本 上 都 具 有正确的类,不太会错误地映射到 别 的类上 。 此 外 , 生 成 的 图 像 的细节和纹理看起来也 比较逼真 。

(三)应用2 :CelebA 数据集上的性别转换1 ,任务描述

性 别 转 换 是 将 男 性 的面部转 换 为 一 个 女 性 的面部,或者反之, 将 男 性 的面部转 换 为 一个 女 性 的面部。 这 和 上面一 个 应 用 一样, 是 一 项 具 有 挑 战 性 的 任 务 。 该 模 型 需 要在改变面部的 性 别 特征的同时,保留面部的轮廓和 其他重 要 的 基 本面部特征。困难的 是 , 性 别 特征与面部特征紧密相 关 。 因 此 , 这 是 一 个矛盾的问题,给图 像 翻 译带来了很大 的困难。我们的 模 型 的主要思路是 学 习 两 个 数 据 集 的联合数 据 分 布 , 从而进 行 男 女面部特征之间 的 相 互转 换 。

2 ,数据集Celebface 属性 数 据 集 ( CelebA ) [14] 是 一 个在机 器 学 习界使用 广 泛 的面部属性 数 据 集 。

这 个 数 据 集 包 含 了超过 200,000张名人 的面部图 像 ,但是姿势和角度变化非常多 ,背景 也很不统 一 ,什么场 景 和花纹的背景 都 有 。 它被 [3]、 [12] 、 [52] 等 应 用 广 泛 用 于 图 像 翻 译 。我们从 这 个 数 据 集中选择了 1000 张男 性 的正脸面部图 像 和 1000 张女 性 的正脸面部图 像作为我们的 数 据 集 , 其中 90% 的 数 据 用 于 模 型 的 训 练 ,剩余 10% 用 于 测试。 和 CycleGAN类似,我们的 网 络在这 个 数 据 集 上 也使用 了 128*128*3 的 分辨率。虽然 CelebA 数据集具 有许多高质量 的 图 像 和 非常多 的 种类的 标 注 , 图 像 和 标 注 的 信 息 量 都很丰富,但由 于 编 码 器 和卷积层的 网 络 结 构 的 限制,所有 图 像 都调整为 128*128*3 的 分辨率进 行 训 练 。所有 的 男 性面部图 像构 成 一 个 领 域 ,所有 的 女 性面部图 像 构 成 一 个 领 域 。

3 ,和基线模型的性能比较虽然 CycleGAN[12] 和 DiscoGAN[3] 都 可 以 有 效 地 进 行 性 别 转 换 的 图 像 翻 译 任 务 ,但在它们

自己的 论 文中并没有针对 这 个 任 务 进 行 实 验 。 StarGAN 的 论 文中进 行 了主观评估。 为 了更好地评价面部性 别 转 换 的 效 果 , 本 文 进 行 了客观量化评价。 本 论 文使用 了 SSIM结 构 相似度指标作为 性 能指标来进 行 性 能评估。 SSIM是 一 种常用 的评估图 像 翻 译 性 能 的 方 法 , [55-57] 都使用 SSIM来评估图 像 翻 译 的 效 果 。 这 个指标 比较了 生 成 的 图 像 与原始图 像 的 相似性 。较高的 SSIM值表示了较好的 性 能 。在本 文中,我们分 别 进 行 了 男 性→女 性 和 女 性→男 性 任 务的 实 验 。

Page 14: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

图 5-4性 别 转 换 示 例表 5-3在 CelebA 数 据 集 上 的 性 别 转 换 实 验 的 性 能 比 较 ( SSIM )

模 型 男 → 女 女 → 男DistanceGAN[52] 78.7 75.5

DualGAN[51] 78.9 77.5

CycleGAN[12] 72.4 70.9

StarGAN[54] 87.7 86.9

ComboGAN[53] 71.5 61.3

BranchGAN 89.7 87.3

真 实 值 100.0 100.0

表 5-3 列出 了 本 模 型 与最前沿的 图 像 翻 译 方 法 的 性 能 比较。 CycleGAN 和 ComboGAN 的基 本思路比较相似,而它们也 是在这 个 人物中表 现最不好的 两 个 模 型 。 DistanceGAN 和DualGAN 有差不多 的 性 能 表 现 。 其中, DistanceGAN使用 了 CycleGAN作为 基 础 模 型 ,在此 基础 上加入 了距离约 束 。距离约 束减少了在给定的 两 个 域中形成不同的映射的 可 能 性 , 从而让模 型 比 基 础 的 CycleGAN 能 有更好的 性 能 。 DualGAN 的 输 入 由 一幅图 像 和 一些人 为 的噪声组成 ,使其 能够从 一 个 输 入中生 成不同的 图 像 。 StarGAN 在这 两 个 域之间只使用 一 个 模 型进 行 转 换 , 其 实 非常适合此 任 务 , 因 为 这 两 个给定的 域 具 有 一致的颜色和 语 义 。在实际的表 现中, StarGAN 的得分 优 于 其他基线模 型 , 与 DualGAN 相 比 大 约 有 10% 左右的 提 升 。 和StarGAN 类 似 , 本 文 提 出 的 BranchGAN 也 只 使 用 一 个 编 码 器 进 行 特 征 提 取 。 由 于BranchGAN 引入 了 其他有 效 的 约 束 ,在此 任 务中, 它 的 性 能略高于 StarGAN 。

图 5-4 举例说明了几个 比较有代表 性 的例子。 本 模 型 生 成 的 图 像 与原始图 像共享了很

Page 15: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

多 特征,所以 转 换 的过程比较有意义 。我们可 以很容易地 区 分原始图 像 和 对 应 的 生 成 图 像的 性 别 。 与 CycleGAN 相 比 ,我们的 模 型更注 重面部特征的变化,而不仅仅是面部风 格 , 这避免了许多不必要 的 对 人脸的修改。例如图 5-4 第一 行所示,我们的 模 型保留发式,而只修改了面部的 性 别 特征。 因 此 ,我们的 模 型 生 成 的 人脸更加自然 。 BranchGAN 可 以 捕 获 这两 个 域 的微小区 别 。 特 别 是 对 于 女 性→男 性 的 任 务 , 生 成 的眼睛和眉毛比 StarGAN 来说更加具 有 男 性 特征。 它使转 换 的 特征更加明显并 且看起来比较逼真 。

(四)应用3 :CMP 建筑数据集上的图像生成1 ,任务说明

建筑图 像 生 成 的 目 标 是在建筑标签和 真 实照片中构建一 个映射。 其 目 的 是快速、 准确地建立建筑标签和 具 体 图 像之间 的映射关 系 , 这意味着生 成 的 图 像 的整体 风 格看起来像 真实 的建筑, 并 且 相 对 应 的席间 的 转 换 都不能丢失 。

2 ,数据集CMP建筑数 据 集 [16] 是 一 个小型 的建筑图 像 数 据 集 , 其中包 括 了来自不同地 方 的 606 张

外墙图 像 , 并 注明了 12 个建筑分类。我们选择其中 406 个作为 训 练 集 , 其余 200 个作为 测试集 。

3 ,性能评估图 5-5 展示了 一些建筑标签和照片的 互 相 转 换 的示例样本 。 这些生 成 的建筑照片看起

来很逼真 , 它们的轮廓和细节都很清晰,很容易辨认。 生 成 的 标签也 基 本 上 可 以正确检 测建筑物的 大 多 数部分 ,如窗户、门等 。 这说明了我们在处 理 大尺度 和小尺度 数 据 的时候,生 成 图 像 的 能 力 都不错。

图 5-5 在 Facades 数 据 集 上 的 标 签 和 照 片 互 相 转 换 的 示 例

为 了评估图 像 生 成 的 性 能 ,我们对 从建筑标签生 成照片的 任 务 进 行主观评估(即“真与假”主观实 验 ) , 以确定生 成 的 图 像 是否能骗得过人眼。每种 方 法 都 由 20名参与者进 行测试。 实 验中, 向参与者展示了 50 对 图 像 , 其中每一 对 包 括 一张真 实 的照片和 一张假的照片( 由我们的 方 法或其他基线模 型 生 成 ) 。参与者被要求选择他们认为 真 实 的 图 像 。错误选择的 图 像 的 比例代表 了 图 像 生 成 的 真 实 性 。最终结 果 为平均分 数 ,在表 5-4 中列出 。

Page 16: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

BranchGAN 通过综合考 虑整体 图 像 风 格 和 语 义 级 别 信 息 , 学 习 了如何 将 标签转 换 为 真 实 的建筑图 像 ,在图 像 的细节生 成中表 现更好, 这让更多 的 人被骗过去 了 。 从 实 验 结 果 上来看,我们生 成 的 图 像 的质量 比 CycleGAN 要好。

表 5-4 从 标 签 生 成 为 照 片 任 务 的 “ 真 或 假 ” 实 验 结 果模 型 标 记 为 假 (%)

CycleGAN[12] 28.7

BranchGAN 32.5

六 , 结 论本文提出的BranchGAN 在无监督的图像翻译任务中取得了有效的成果。不需要成对的

来自两个域的图像作为训练数据,通过一个统一的单编码器双解码器架构,目标域和源域

的图像可以进行自动的互相转换,并且得到了好的效果。

本 实 验选取了 三 个 数 据 集 进 行 实 验 , 分 别 为 Cityscapes 街景 数 据 集 、 CelebA 人脸数 据 集和 Facades 建筑外墙数 据 集 。 实 验 的 量化数 据显示, 本 模 型在无 监 督 的 图 像 翻 译 任 务 上 具 有很好的 性 能 ,超过了所有 的 基 准 模 型 ,甚至可 以 与 有 监 督 学 习 模 型 的 性 能 相差不多 。同时,本 模 型 也在Cityscapes 数 据 集 上 进 行 了拆分 实 验 。 通过对不同的 损 失 函 数 的 分 别 分析, 实 验结 果显示本 文 提 出 的 编 码 一致性 损 失在图 像 翻 译 的 任 务 上起到 了 非常有 效 的作用 , 是 本 文提 出 的 BranchGAN 性 能 提 升 的 重 要原因之一 。

但是BranchGAN 也具有局限性。目前,BranchGAN 只能生成低分辨率( 128*128)的图

像,并不令人满意。在未来的工作中,我们希望探索 一些新 的途径,在保证 生 成 图 像 的质量 的前提下提高图 像 翻 译 的 分辨率。

参 考 文 献 :[1] Gatys L. A., Ecker A. S., Bethge M. Image style transfer using convolutional neural networks[C]. In Proceedings of the

IEEE international conference on computer vision, 2016, 2414–2423.

[2] Vondrick C., Pirsiavash H., Torralba A. Generating videos with scene dynamics[C]. In Advances in neural information

processing systems, 2016, 613–621.

[3] Kim T., Cha M., Kim H., and et al. Learning to discover cross-domain relations with generative adversarial networks[C].

International Conference on Machine Learning, 2017, 1857–1865.

[4] Zhang L., Ma B., Li G., Huang Q., and et al. Generalized semisupervised and structured subspace learning for cross-

modal retrieval[J]. IEEE Transactions on Multimedia, 2018, 20(1), 128-141.

[5] Chen X., Duan Y., Houthooft R., and et al. Infogan: Interpretable representation learning by information maximizing

generative adversarial nets[C]. In Advances in neural information processing systems, 2016, 2172–2180.

[6] Donahue J., Krahenbuhl P., Darrell T. Adversarial feature learning[C]. International Conference on Learning

Representations, 2017.

[7] Han Y., Xu C., Baciu G., Li M., and et al. Cartoon and texture decomposition-based color transfer for fabric images[J].

IEEE Transactions on Multimedia, 2017, 19(1), 80–92.

[8] Dong W., Wu F., Kong Y., et al. Image retargeting by texture-aware synthesis[J]. IEEE Transactions on Visualization &

Computer Graphics, 2016, 2, 1088–1101.

[9] Song Z.C., Liu S.G. Sufficient image appearance transfer combining color and texture[J]. IEEE Transactions on

Multimedia, 2017, 19(4), 702–711.

[10] Isola P., Zhu J.Y., Zhou T., et al. Image-to-image translation with conditional adversarial networks[C]. In Proceedings of

Page 17: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

the IEEE conference on computer vision and pattern recognition, 2017, 1125-1134.

[11] Liu M.Y., Breuel T., Kautz J. Unsupervised image-to-image translation networks[C]. In Advances in neural information

processing systems, 2017, 700–708.

[12] Zhu J.Y., Park T., Isola P. et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]. In

Proceedings of the IEEE international conference on computer vision, 2017, 2223-2232.

[13] Ledig C., Theis L., Huszar F., and et al. Photo-realistic single image super-resolution using a generative adversarial

network[C]. In Proceedings of the IEEE international conference on computer vision, 2017, 4681–4690.

[14] Liu Z., Luo P., Wang X., and et al. Deep learning face attributes in the wild[C]. In Proceedings of the IEEE international

conference on computer vision, 2015, 3730–3738.

[15] Cordts M., Omran M., Ramos S., and et al. The cityscapes dataset for semantic urban scene understanding[C]. In

Proceedings of the IEEE international conference on computer vision, 2016, 3213–3223.

[16] Tylecek R. and Sara R. Spatial pattern templates for recognition of objects with regular structure[C]. In German

Conference on Pattern Recognition, 2013, 364–374.

[17] Goodfellow I., Pouget-Abadie J., Mirza M., et al. Generative adversarial nets[C]. In Advances in neural information

processing systems, 2014, 2672-2680.

[18] Zhao J., Mathieu M., LeCun Y. Energy-based generative adversarial network[C]. International Conference on Machine

Learning, 2017.

[19] Arjovsky M., Chintala S., Bottou, L. Wasserstein generative adversarial networks[C]. In International Conference on

Machine Learning, 2017, 214-223.

[20] Mirza M., Osindero, S. Conditional generative adversarial nets[EB/OL]. arXiv preprint arXiv:1411.1784, 2014.

[21] Radford A., Metz L. Chintala S. Unsupervised representation learning with deep convolutional generative adversarial

networks[C]. International Conference on Learning Representations, 2016.

[22] Yu L., Zhang W., Wang J., and et al. Seqgan: Sequence generative adversarial nets with policy gradient[C]. In association

for advancement of artificial intelligence, 2017, 2852–2858.

[23] Hochreiter S. and Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8), 1735–1780.

[24] Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J]. science, 2006, 313(5786),

504-507.

[25] Johnson J., Alahi A., Li F. Perceptual losses for realtime style transfer and super-resolution[C]. In European Conference

on Computer Vision, 2016, 694–711.

[26] Pan S.J., Tsang I.W., Kwok J.T., et al. Domain adaptation via transfer component analysis[J]. IEEE Transactions on

Neural Networks, 2010, 22(2), 199-210.

[27] Blitzer J., McDonald R., Pereira F. Domain adaptation with structural correspondence learning[C]. In Proceedings of the

2006 conference on empirical methods in natural language processing, 2006, 120-128.

[28] Borgwardt K.M., Gretton A., Rasch M.J., et al. Integrating structured biological data by kernel maximum mean

discrepancy. Bioinformatics[J], 2006, 22(14), e49-e57.

[29] Tzeng E., Hoffman J., Zhang N., et al. Deep domain confusion: Maximizing for domain invariance[EB/OL]. arXiv

preprint arXiv:1412.3474, 2014.

[30] Ghifary M., Kleijn W.B., Zhang M. Domain adaptive neural networks for object recognition[C]. In Pacific Rim

international conference on artificial intelligence, 2014, 898-904.

[31] LeCun Y., Bottou L., Bengio Y. and et al. Gradient-based learning applied to document recognition[J]. Proceedings of the

IEEE, 1998, 86(11), 2278-2324.

[32] Ganin, Y. and Lempitsky, V., 2014. Unsupervised domain adaptation by backpropagation[C]. International Conference on

Machine Learning, 2015, 37, 1180-1189.

[33] Netzer, Y., Wang, T., Coates, A., Bissacco, A., Wu, B. and Ng, A.Y., 2011. Reading digits in natural images with

Page 18: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

unsupervised feature learning[C]. NIPS Workshop on Deep Learning and Unsupervised Feature Learning, 2011.

[34] Goodfellow I., Pouget-Abadie J., Mirza M., et al. Generative adversarial nets[C]. In Advances in neural information

processing systems, 2014, 2672-2680.

[35] Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J]. science, 2006, 313(5786),

504-507.

[36] Radford A., Metz L. Chintala S. Unsupervised representation learning with deep convolutional generative adversarial

networks[C]. International Conference on Learning Representations, 2016.

[37] Arjovsky M., Chintala S., Bottou, L. Wasserstein generative adversarial networks[C]. In International Conference on

Machine Learning, 2017, 214-223.

[38] Mirza M., Osindero, S. Conditional generative adversarial nets[EB/OL]. arXiv preprint arXiv:1411.1784, 2014.

[39] Isola P., Zhu J.Y., Zhou T., et al. Image-to-image translation with conditional adversarial networks[C]. In Proceedings of

the IEEE conference on computer vision and pattern recognition, 2017, 1125-1134.

[40] Zhu J.Y., Park T., Isola P. et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]. In

Proceedings of the IEEE international conference on computer vision, 2017, 2223-2232.

[41] Tzeng E., Hoffman J., Saenko, K. and et al. Adversarial discriminative domain adaptation[C]. In Proceedings of the IEEE

Conference on Computer Vision and Pattern Recognition, 2017, 7167-7176.

[42] Bousmalis K., Trigeorgis G., Silberman N., et al. Domain separation networks[C]. In Advances in Neural Information

Processing Systems, 2016, 343-351.

[43] Cao Z., Long M., Wang J., et al. Partial transfer learning with selective adversarial networks[C]. In Proceedings of the

IEEE Conference on Computer Vision and Pattern Recognition, 2018, 2724-2732.

[44] Long M., Zhu H., Wang J. and et al. Deep transfer learning with joint adaptation networks[C]. In Proceedings of the 34th

International Conference on Machine Learning, 2017, 70, 2208-2217.

[45] Li Y., Wang N., Shi J., et al. Revisiting batch normalization for practical domain adaptation[EB/OL]. arXiv preprint

arXiv:1603.04779, 2016.

[46] Ghifary M., Kleijn W. B., Zhang M., et al. (2016, October). Deep reconstruction-classification networks for unsupervised

domain adaptation[C]. In European Conference on Computer Vision, 2016, 597-613.

[47] Saito K., Ushiku Y., Harada, T. Asymmetric Tri-training for Unsupervised Domain Adaptation[C]. Proceedings of the

34th International Conference on Machine Learning, 2017, 70, 2988-2997

[48] Long M., Cao Y., Wang J., et al. Learning Transferable Features with Deep Adaptation Networks[C]. Proceedings of the

32nd International Conference on Machine Learning, 2015, 37, 97-105.

[49] Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation[C]. In Proceedings of the IEEE

Conference on Computer Vision and Pattern Recognition, 2015, 3431–3440.

[50] Wang Z., Bovik A. C., Sheikh H. R., and et al. Image quality assessment: from error visibility to structural similarity[J].

IEEE Transactions on Image Processing, 2004, 13(4), 600–612.

[51] Yi Z., Zhang H., Tan P., and et al. Dualgan: Unsupervised dual learning for image-to-image translation[C]. In

International Conference on Computer Vision, 2017, 2849–2857.

[52] Benaim S. and Wolf L. One-sided unsupervised domain mapping[C]. In Advances in neural information processing

systems, 2017, 752–762.

[53] Anoosheh A., Agustsson E., Timofte R., and et al. Combogan: Unrestrained scalability for image domain translation[C].

In Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, 783–790.

[54] Choi Y., Choi M., Kim M., and et al. Stargan: Unified generative adversarial networks for multi-domain image-to-image

translation[C]. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, 8789–8797.

[55] Li Y., Liu S., Yang J., and et al. Generative face completion[C]. In Proceedings of the IEEE conference on computer

vision and pattern recognition, 2017, 3911–3919.

Page 19: 学术论文格式要求gjcxcy.bjtu.edu.cn/UpLoadFileCGZB_LW/nh1061333612… · Web view[35]Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks[J].

[56] Ledig C., Theis L., Huszar F., and et al. Photo-realistic single image super-resolution using a generative adversarial

network[C]. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, 4681–4690.

[57] Deng J., Cheng S., Xue N., and et al. Uv-gan: Adversarial facial uv map completion for pose-invariant face

recognition[C]. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, 7093–7102.