多模态模型框架
如果有一个序列一共有四步操作,每一步操作都可以作为一条训练数据。
训练数据如下图:
Model选型
文字和图像编码器分别为CN-clip 的 Vit-B/16和bert
github地址:https://github.com/OFA-Sys/Chinese-CLIP
操作编码器为:一个线性层升维到512维度
工程实现:
数据方面:前期数据不够的时候可以先用,一个icon贴在背景上面生成一堆数据。
模型方面:如果验证,图像编码器或者文字编码器效果不好,可以换成其他模型。
标签:模态,编码器,github,框架,模型,数据 From: https://www.cnblogs.com/tany-g/p/17823515.html