独旅网

搜索

您的当前位置：首页正文

粗读Zero-Shot Text-to-Image Generation

来源：独旅网

云里雾里的文章，没看懂，方向和我的方向不同就算了，作者写得也感觉有点乱。

第一阶段是用dEVA编码器把图像编码为32*32的图像标记(iamge tokens)

第二步用dEVA解码器把标记还原为图像。

最后用transformer计算图像和token之间的关联度，找出关联度最大的。之后，将读入的文字转为token，就能解码出图像。

因篇幅问题不能全部显示，请点此查看更多更全内容

Top