DragGAN-交互式的图像任意点精确控制模型
May 21, 2023
前言
本文简单记录介绍一下DragGAN。
LangGPT是一种让能交互式选择图像的任何点精确移动的生成对抗网络模型,白话就是秒杀PS的方法。
正文
一、什么是DragGAN
DragGAN可以通过用户交互的方式“拖动”图像的任何点以精确到达目标点,从而对图像进行变形,操纵动物、汽车、人类、风景等不同类别的姿势、形状、表情和布局。
DragGAN为直观的基于点的图像编辑提供一种交互式方法。该方法允许用户通过单击图像上的几个处理点和目标点来轻松“拖动”任何GAN生成的图像的内容。然后,该方法将移动处理点,以精确到达相应的目标点,从而轻松进行图像操作。
这项技术如果应用到PS和美图秀秀里,那可真是“太酷啦”!
二、DragGAN结构
DragGAN的基础架构基于StyleGAN。
根据论文描述,模型由两个主要组件组成,包括:
1)生成器:基于特征的运动监督,将交互点驱动到目标位置。这是通过优化潜在代码的移位特征块损失实现的,每个优化步骤都会导致交互点向目标靠近。
2)判别器:一种新的利用辨别式生成器特征来不断定位交互点位置的点跟踪方法,然后通过特征空间中的最近邻搜索执行点跟踪。
三、DragGAN官方效果展示
效果图来自官方项目主页。
四、总结
目前DragGAN还未放出源码,官方预计六月。
首先基于GAN的方式一般都比扩散模型的小很多,意味着普通设备都可以运行,其次开源后可以接入各种图像处理软件中,以后处理图像简直不要太舒服。
之前在扩散模型浅析里有提到过,虽然扩散模型效果很好,但是不代表其他生成模型就没有用处了,这不,DragGAN来了,说明GAN真的还是有很多可挖掘的地方,工程研究上更是比扩散模型有性价比。
最后
参考文章:
声明
本文仅作为个人学习记录。
本文永久记录于区块链博客xlog。