什么是 生成对抗网络?

生成对抗网络是一类由两个神经网络组成的深度学习模型——生成器和判别器——通过对抗竞争同时训练,其中生成器学习创建逼真的合成数据,而判别器学习区分真实样本和生成样本。

快速了解

创建时间2014 年由 Ian Goodfellow 等人提出
规范文档官方规范

工作原理

生成对抗网络为生成建模引入了博弈论方法。生成器网络以随机噪声作为输入,将其转换为合成数据样本,而判别器网络评估样本是真实的(来自训练数据)还是伪造的(来自生成器)。通过这种对抗训练过程,生成器逐步提高其生成能够欺骗判别器的逼真输出的能力。当判别器无法再区分真实样本和生成样本时,训练达到均衡。GAN 在图像合成、风格迁移、数据增强和各种创意应用中取得了显著成功。

主要特点

  • 生成器和判别器网络之间的对抗训练
  • 生成器将隐空间中的随机噪声映射为逼真的数据样本
  • 判别器作为二分类器区分真实和伪造样本
  • 无需显式密度估计即可学习隐式概率分布
  • 能够生成高分辨率、照片级逼真的图像
  • 训练可能不稳定,需要仔细调整超参数

常见用途

  1. 图像合成:生成照片级逼真的人脸、物体和场景(StyleGAN、BigGAN)
  2. 风格迁移:在艺术风格或领域之间转换图像(CycleGAN、Pix2Pix)
  3. 数据增强:创建合成训练数据以提高模型性能
  4. 图像超分辨率:将低分辨率图像增强为高分辨率(SRGAN)
  5. 图像修复:填充图像中缺失或损坏的区域

示例

loading...
Loading code...

常见问题

什么是 GAN 中的模式崩溃,如何防止?

模式崩溃发生在生成器只学会产生有限种类的输出,忽略训练数据的完整多样性时。防止策略包括使用 Wasserstein 损失(WGAN)、实现小批量判别、向判别器输入添加噪声、使用渐进式增长技术,或采用谱归一化等架构改进。

GAN 与扩散模型在图像生成方面相比如何?

扩散模型由于训练更稳定、模式覆盖更好和输出质量更高,已在高质量图像生成方面大体上取代了 GAN。然而,GAN 在需要实时生成(单次前向传递 vs. 迭代去噪)、视频合成以及推理速度至关重要的应用中仍然表现出色。

为什么 GAN 训练被认为是不稳定的?

GAN 训练涉及生成器和判别器之间的微妙平衡——如果一方变得太强,训练就会失败。判别器可能变得太擅长检测假样本(导致生成器的梯度消失),或者生成器可能找到欺骗判别器的捷径而不产生高质量输出。这需要仔细调整超参数和架构选择。

有哪些流行的 GAN 变体及其用途?

StyleGAN/StyleGAN2 擅长具有可控属性的高分辨率人脸生成。CycleGAN 实现无配对的图像到图像转换(如照片到绘画)。Pix2Pix 处理配对的图像转换任务。SRGAN 专注于图像超分辨率。BigGAN 大规模生成高质量多样化图像。每个变体都解决了原始 GAN 架构的特定局限性。

GAN 可以用于机器学习中的数据增强吗?

可以,GAN 在合成数据增强方面很有效,特别是当真实数据稀缺、昂贵或涉及隐私时。它们可以为医学成像、罕见事件检测和隐私保护应用生成额外的训练样本。但要确保生成的样本具有多样性,且不会放大原始训练数据中存在的偏见。

相关工具

相关术语

相关文章