AI视觉填字游戏爆炸!门罗转了180秒变成了爱因斯坦
日期:2023-12-04 18:20:08 / 人气:713
AI视觉填字游戏爆炸!门罗转了180秒变成了爱因斯坦。“柯瑞西·肖骁起源于凹庙。
量子比特|微信官方账号QbitAI
艾画的玛丽莲梦露颠倒180°变成爱因斯坦?!
这是最近在社交媒体上爆红的一幅扩散模型视错觉画。只需给AI两组不同的提示,它就能给你画出来!
甚至可以使用完全不同的对象,比如一个男人,经过反色处理后神奇地变成了一个女人:
连文字都可以翻出来创造新的效果,快乐和假日只在一个旋转中:
原来这是密歇根大学对“视觉填字游戏”的一项新研究。论文一发表,就在黑客新闻上炸开了锅,热度飙升至近800。
英伟达高级AI科学家Jim Fan称赞道:
这是我最近见过的最酷的扩散模型!
有网友感叹:
这让我想起了我在分形压缩方面的经历。我一直以为是纯艺术。
要知道,要创作一幅经过旋转、反转、变形后的新主题的画,需要画家对色彩、造型、空间有一定的了解。
现在连AI都能画出这样的效果。是如何实现的?实际效果有这么好吗?
我们尝试了一下,并探索了其背后的原理。
Colab可以尝试一下。
我们用这个模型画了一组Lowpoly风格的画,让它看起来像一座山,反过来又像城市的天际线。
同时我们让ChatGPT(DALL E-3-3)试着画了一下,结果除了清晰度更高之外似乎没有什么优势。
作者本人展示的效果更丰富,更精彩。
雪后山峰90度变成马;从另一个角度看,餐桌变成了瀑布...
最奇妙的是下图——从上下左右四个角度看,每个方向的内容都不一样。
这里给读者做个测试。你能看出这四种动物是什么吗?)
以兔子为初始状态,每逆时针旋转90度,依次看到小鸟、长颈鹿、泰迪熊。
下面两张图做了三个不同的方向,虽然四个方向都没有做“新内容”。
除了旋转,它还可以将图像切割成拼图,然后重新组合成新的内容,甚至可以直接分解到像素级别。
风格千变万化,水彩、油画、水墨画、线描……应有尽有。
那么在哪里可以玩这个模式呢?
为了让更多的网友体验这款新玩具,笔者准备了一款Colab note。
但是免费版的Colab的T4驱动不了,V100偶尔内存溢出,需要A100才能稳定运行。
连作者自己都说,如果谁发现免费版可以动,请马上告诉他。
反正第一行代码运行完,我们就填拥抱脸令牌,给出访问地址。
同时,您需要同意DeepFloyd的项目页面中的用户协议,然后才能继续下面的步骤。
准备工作完成后,依次运行这三部分代码,完成环境部署。
需要注意的是,作者目前还没有为模型设计图形界面,效果的选择和提示的修改都需要我们手动调整代码。
作者在他的笔记中放了三种效果,取消注释他想要使用的效果(删除该行前面的英镑符号),删除或注释掉未使用的效果(添加英镑符号)。
这里列举的三种效果并不是全部。如果要使用其他效果,可以手动替换代码。具体支持的效果如下:
修改后运行这行代码,然后提示还是一样的:
修改操作后可以进入生成环节,在这里还可以修改推理步数和引导强度。
需要注意的是,必须先运行image_64函数生成小图,然后用后面的图片把它变成大图,否则会报错。
综上所述,我们体验后的一个感受是,这款机型对提示词的要求还是很高的。
作者也意识到了这一点,并给出了一些提示:
机翻,仅供参考。
那么,研究团队是如何实现这些效果的呢?
“混合”多视图图像噪声
首先我们来看作者产生视错觉图像的关键原理。
为了使图像根据不同视角的不同提示呈现出不同的画面效果,作者特意采用了“噪声平均”的方法来进一步融合两个视角的图像。
简单来说,扩散模型(DDPM)的核心是通过训练模型对图像进行“打破和重组”,并基于“噪声图”生成新的图像:
因此,为了使图像在变换前后根据不同的提示生成不同的图像,需要改变扩散模型的去噪过程。
简单来说,就是把原始图像和变换后的图像同时用扩散模型“砸”出来做一个“噪点图”,在这个过程中,把处理后的结果进行平均,计算出一个新的“噪点图”。
随后,基于这种新的“噪声图”生成的图像可以呈现出变换后想要的视觉效果。
当然,这种变换的图像处理过程必须是正交变换,也就是我们在显示效果中看到的旋转、变形、断裂重组或反色等操作。
具体到扩散模式的选择,也是有要求的。
具体来说,本文使用DeepFloyd IF生成视错觉图像。
DeepFloyd IF是一个基于像素的扩散模型。与其他扩散模型相比,它可以直接在像素空间(而不是势空间或其他中间表示)上操作。
这也使得它能够更好地处理图像的局部信息,尤其是在生成低分辨率图像时。
这样,图像才能最终呈现出视错觉的效果。
为了评估这种方法的效果,作者基于GPT-3.5编译了一个由50个图像变换对组成的数据集。
具体来说,他们让GPT-3.5随机生成一个图像风格(比如油画风格和街头艺术风格),然后随机生成两组提示(一个老人和一座雪山),交给模型生成一幅变换画。
这是一些随机变换的结果:
随后,他们还使用CIFAR-10测试了不同模型之间的图像生成:
然后用CLIP进行了评测,结果显示改造后的效果和改造前一样好:
作者还测试了这个AI可以承受多少图像块。
事实证明,从8×8到64×64,破碎和重组的图像看起来都不错:
对于这一系列的形象转变,有网友感叹“印象深刻”,尤其是一个男人变成女人的形象转变:
我看了大概10遍。
有网友已经想把它做成艺术品挂在墙上,或者用电子墨水屏:
然而,一些专业摄影师认为,AI在现阶段生成的这些图像仍然不好:
仔细看,会发现细节经不起推敲。敏锐的眼睛总能看出不好的地方,但大众并不在意。
那么,大家怎么看待AI生成的这一系列视错觉图像的效果呢?还能用在哪里?"
量子比特|微信官方账号QbitAI
艾画的玛丽莲梦露颠倒180°变成爱因斯坦?!
这是最近在社交媒体上爆红的一幅扩散模型视错觉画。只需给AI两组不同的提示,它就能给你画出来!
甚至可以使用完全不同的对象,比如一个男人,经过反色处理后神奇地变成了一个女人:
连文字都可以翻出来创造新的效果,快乐和假日只在一个旋转中:
原来这是密歇根大学对“视觉填字游戏”的一项新研究。论文一发表,就在黑客新闻上炸开了锅,热度飙升至近800。
英伟达高级AI科学家Jim Fan称赞道:
这是我最近见过的最酷的扩散模型!
有网友感叹:
这让我想起了我在分形压缩方面的经历。我一直以为是纯艺术。
要知道,要创作一幅经过旋转、反转、变形后的新主题的画,需要画家对色彩、造型、空间有一定的了解。
现在连AI都能画出这样的效果。是如何实现的?实际效果有这么好吗?
我们尝试了一下,并探索了其背后的原理。
Colab可以尝试一下。
我们用这个模型画了一组Lowpoly风格的画,让它看起来像一座山,反过来又像城市的天际线。
同时我们让ChatGPT(DALL E-3-3)试着画了一下,结果除了清晰度更高之外似乎没有什么优势。
作者本人展示的效果更丰富,更精彩。
雪后山峰90度变成马;从另一个角度看,餐桌变成了瀑布...
最奇妙的是下图——从上下左右四个角度看,每个方向的内容都不一样。
这里给读者做个测试。你能看出这四种动物是什么吗?)
以兔子为初始状态,每逆时针旋转90度,依次看到小鸟、长颈鹿、泰迪熊。
下面两张图做了三个不同的方向,虽然四个方向都没有做“新内容”。
除了旋转,它还可以将图像切割成拼图,然后重新组合成新的内容,甚至可以直接分解到像素级别。
风格千变万化,水彩、油画、水墨画、线描……应有尽有。
那么在哪里可以玩这个模式呢?
为了让更多的网友体验这款新玩具,笔者准备了一款Colab note。
但是免费版的Colab的T4驱动不了,V100偶尔内存溢出,需要A100才能稳定运行。
连作者自己都说,如果谁发现免费版可以动,请马上告诉他。
反正第一行代码运行完,我们就填拥抱脸令牌,给出访问地址。
同时,您需要同意DeepFloyd的项目页面中的用户协议,然后才能继续下面的步骤。
准备工作完成后,依次运行这三部分代码,完成环境部署。
需要注意的是,作者目前还没有为模型设计图形界面,效果的选择和提示的修改都需要我们手动调整代码。
作者在他的笔记中放了三种效果,取消注释他想要使用的效果(删除该行前面的英镑符号),删除或注释掉未使用的效果(添加英镑符号)。
这里列举的三种效果并不是全部。如果要使用其他效果,可以手动替换代码。具体支持的效果如下:
修改后运行这行代码,然后提示还是一样的:
修改操作后可以进入生成环节,在这里还可以修改推理步数和引导强度。
需要注意的是,必须先运行image_64函数生成小图,然后用后面的图片把它变成大图,否则会报错。
综上所述,我们体验后的一个感受是,这款机型对提示词的要求还是很高的。
作者也意识到了这一点,并给出了一些提示:
机翻,仅供参考。
那么,研究团队是如何实现这些效果的呢?
“混合”多视图图像噪声
首先我们来看作者产生视错觉图像的关键原理。
为了使图像根据不同视角的不同提示呈现出不同的画面效果,作者特意采用了“噪声平均”的方法来进一步融合两个视角的图像。
简单来说,扩散模型(DDPM)的核心是通过训练模型对图像进行“打破和重组”,并基于“噪声图”生成新的图像:
因此,为了使图像在变换前后根据不同的提示生成不同的图像,需要改变扩散模型的去噪过程。
简单来说,就是把原始图像和变换后的图像同时用扩散模型“砸”出来做一个“噪点图”,在这个过程中,把处理后的结果进行平均,计算出一个新的“噪点图”。
随后,基于这种新的“噪声图”生成的图像可以呈现出变换后想要的视觉效果。
当然,这种变换的图像处理过程必须是正交变换,也就是我们在显示效果中看到的旋转、变形、断裂重组或反色等操作。
具体到扩散模式的选择,也是有要求的。
具体来说,本文使用DeepFloyd IF生成视错觉图像。
DeepFloyd IF是一个基于像素的扩散模型。与其他扩散模型相比,它可以直接在像素空间(而不是势空间或其他中间表示)上操作。
这也使得它能够更好地处理图像的局部信息,尤其是在生成低分辨率图像时。
这样,图像才能最终呈现出视错觉的效果。
为了评估这种方法的效果,作者基于GPT-3.5编译了一个由50个图像变换对组成的数据集。
具体来说,他们让GPT-3.5随机生成一个图像风格(比如油画风格和街头艺术风格),然后随机生成两组提示(一个老人和一座雪山),交给模型生成一幅变换画。
这是一些随机变换的结果:
随后,他们还使用CIFAR-10测试了不同模型之间的图像生成:
然后用CLIP进行了评测,结果显示改造后的效果和改造前一样好:
作者还测试了这个AI可以承受多少图像块。
事实证明,从8×8到64×64,破碎和重组的图像看起来都不错:
对于这一系列的形象转变,有网友感叹“印象深刻”,尤其是一个男人变成女人的形象转变:
我看了大概10遍。
有网友已经想把它做成艺术品挂在墙上,或者用电子墨水屏:
然而,一些专业摄影师认为,AI在现阶段生成的这些图像仍然不好:
仔细看,会发现细节经不起推敲。敏锐的眼睛总能看出不好的地方,但大众并不在意。
那么,大家怎么看待AI生成的这一系列视错觉图像的效果呢?还能用在哪里?"
作者:焦点娱乐
新闻资讯 News
- “第一个人形机器人将在香港上市...12-04
- 电子商务的未来是怎样的?12-04
- 存储芯片市场正迎来拐点12-04
- 掩模对准器制造商阿斯麦将改变教...12-04