小红书新发布的一个ssr-encoder,可以实现从一张图片种提取不同的主题(人物、物体等)特征生成。与 sd 现有的能力都能结合,animatediff 也可以。
ssr-encoder,这是一种新架构,旨在从单个或多个参考图像中选择性地捕获任何主题。它响应各种查询模式,包括文本和掩模,而无需在测试时进行微调。
ssr-encoder结合了一个token-to-patch aligner,用于将查询输入与图像块对齐,以及一个细节保留的主题编码器,用于提取和保留主题的精细特征,从而生成主题嵌入。
这些嵌入与原始文本嵌入结合使用,条件化生成过程。ssr-encoder以其模型泛化性和效率为特点,适应于一系列自定义模型和控制模块。通过embedding consistency regularization loss进行增强,以改进训练。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/yun272049.html