组合式创新？CLIP+VQGAN

2024-04-23 03:54:31

ace

新旧交替之际，不同时代的审美。这个现象真有趣~~

知识库

最近有大量使用CLIP+VQGAN的数字艺术作品出现，这两项组合技术不知大家都玩过没？

OpenAI的CLIP

用于连接文本与图像

具体的应用，比如一位开发者的项目：通过文本搜索精准匹配图片的项目。该项目大约有200 万张Unsplash的图片，通过 CLIP 模型处理后，可以使用自然语言进行精准搜索。

github.com/haltakov/natural-language-image-search

"Two dogs playing in the snow"

"The word love written on the wall"

VQGAN

生成式模型

关键是使用Transformer来把图像encoder后的编码进行了转化，学习到了图像特征的上下文关系

Taming Transformers for High-Resolution Image Synthesis

CVPR 2021

Transformer

从NLP走向CV

Transformer最初应用于NLP任务，是2017年的论文《Attention is All You Need》提出的模型架构，作者实验了机器翻译，获得了当时的SOTA。语言是有很明显的上下文关系的，基于此特点，开始了在CV领域的应用探索。

无界

引用我超喜欢程序猿的一句diss用语：

Talk is cheap ,
show me the code

都是开源的……

那么CLIP+VQGAN是什么？

使用CLIP来代替VQGAN的鉴别器

shadow

eva

我来测试下CLIP+VQGAN ~~

opus

@Bessie 看看~

有那么点味道~~

ibrand

我来试试最近的hack city城市黑客这一主题~~~~

还用上了深度估计+fake 3D来生成GIF

大家可以基于hack city来创作各种数字图像作品~~~哈哈

shadow

opus

在线玩耍地址：

huggingface.co/spaces/akhaliq/VQGAN_CLIP

👨🏼‍🎤👩🏻👨🏻‍💼👤🦸🏻🧑🏻‍🎤

又一篇视觉Transformer综述来了！

重磅干货,第一时间送达最近 Transformer在CV领域真的'杀疯了',很多CV垂直方向出现了不少工作.其中非常有代表性就是:DETR.ViT等. CVer上周第一时间推送了:华为&北大 ...
谷歌最新提出无需卷积、注意力，纯MLP构成的视觉架构！网友：MLP is All You Need...

当前,卷积神经网络(CNN)和基于自注意力的网络(如近来大火的 ViT)是计算机视觉领域的主流选择,但研究人员没有停止探索视觉网络架构的脚步.近日,来自谷歌大脑的研究团队(原 ViT 团队)提出了一种 ...
视觉 Transformer 的可视化｜CVPR2021

报道丨极市平台极市导读可视化对于Transformer的模型调试.验证等过程都非常重要,FAIR的研究者开源了一种Transformer可视化新方法,能针对不同类呈现不同且准确的效果. >& ...
ResNet被全面超越了，是Transformer干的：依图科技开源“可大可小”T2T-ViT，轻量版优于MobileNet

作者丨Happy 审稿|邓富城编辑丨极市平台极市导读又一篇Transformer来了!本文在ViT方面进行了一次突破性探索,提出了首次全面超越ResNet,甚至轻量化版本优于MobileNet系 ...
Transformer再下一城！low-level多个任务榜首被占领，北大华为等联合提出预训练模型IPT

作者丨Happy 编辑丨极市平台极市导读来自Transformer的降维打击!北京大学等最新发布论文,联合提出图像处理Transformer.通过对low-level计算机视觉任务,如降噪.超分. ...
计算机视觉中的Transformer

作者:Cheng He 编译:ronghuaiyang 导读将Transformer应用到CV任务中现在越来越多了,这里整理了一些相关的进展给大家. Transformer结构已经在许多自然语言处理 ...
GitHub项目推荐｜基于强化学习的自动化剪枝模型

今天为大家介绍一个GitHub上最新开源的一个基于强化学习的自动化剪枝模型,本模型在图像识别的实验证明了能够有效减少计算量,同时还能提高模型的精度.项目地址:https://github.com/fr ...
CVPR2021 最新论文汇总（附论文链接/代码/解析）[持续更新]

本文整理了CVPR2021最新的论文汇总情况,主要包括:Transformer, NAS,模型压缩,模型评估,图像分类,检测,分割,跟踪,GAN,超分辨率,图像恢复,去雨,去雾,去模糊,去噪,重建等等 ...
DALL·E—从文本到图像，超现实主义的图像生成器

超现实主义强调梦幻与现实的统一才是绝对的真实,而如今OpenAI创造的DALL·E图像生成器,能够直接通过文本描述生成类似超现实主义的图像,让机器也能拥有顶级画家.设计师的创造力.DALL·E的名字是 ...
医用Transformer：用于3D MRI分析的通用脑编码器

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
预训练模型最新综述：过去、现在和未来

©PaperWeekly 原创 · 作者 | 王馨月学校 | 四川大学本科生研究方向 | 自然语言处理 BERT.GPT 等大规模预训练模型(PTM)最近取得了巨大成功,成为人工智能领域的里程碑. ...
Transformer在计算机视觉领域走到哪了？

编者按:Transformer 模型在自然语言处理(NLP)领域已然成为一个新范式,如今越来越多的研究在尝试将 Transformer 模型强大的建模能力应用到计算机视觉(CV)领域.那么未来,Tra ...
各类Transformer都得稍逊一筹，LV-ViT：探索多个用于提升ViT性能的高效Trick

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读本文探索了用于提升ViT性能的各种训练技巧.通过一系列实验对比.改进与组合,本文所提方案取得了SOTA方案,超越了EfficientNet.T ...
ICCV 2021 | 视觉Transformer中的相对位置编码

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 204篇原创内容 Official A ...
GPT Plus Money！B O O M

连接图像和文本,更多的多模态文章可以看博主整理过的系列(跨界出圈 | 谈谈BERT跨模态预训练),本篇文章主要整理一下OpenAI发表的2篇文章.其中CLIP 能够完成图像与文本类别的匹配,DALL· ...