Nomic-embed-text是2月份刚发布的,并且是一个完全开源的英文文本嵌入模型,上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型,如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。
模型、训练代码以及一个包含2.35亿文本对的大型数据集都已经发布,我们可以复现、审计和重新构建这个先进的嵌入模型。
https://avoid.overfit.cn/post/2ed4f1b0173a444f836ccfaee424db0d
标签:嵌入,SOTA,模型,Nomic,开源,复现,Embed,文本 From: https://www.cnblogs.com/deephub/p/18063805