• 2024-06-17构建LangChain应用程序的示例代码:35、如何使用假设性文档嵌入(HyDE)技术来改善文档索引教程
    使用假设性文档嵌入(HyDE)改善文档索引摘要本文介绍了如何使用假设性文档嵌入(HypotheticalDocumentEmbeddings,简称HyDE),这是根据一篇论文中描述的技术。HyDE是一种嵌入技术,它接收查询,生成一个假设性的答案,然后嵌入该生成的文档,并将其作为最终示例使用。代码及注释froml
  • 2024-06-16课前准备-单细胞转录组联合VDJ数据分析
    作者,EvilGenius而我们需要实现的分析,即VDJ聚类与motif分析分析会在课上讲到,报名链接在2024年单细胞空间系列课程完整脚本如下(封装版)importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportrandomimporttensorflowastffr
  • 2024-06-12RAG PAPTOR 示例代码理解笔记
    RAGPAPTOR示例代码理解笔记0.源代码文件1.部分代码理解笔记故事背景导入工具固定种子(随机种子)全局降维函数局部降维函数获取最佳聚类数函数GMM聚类函数执行聚类函数嵌入函数嵌入并聚类文本函数格式化文本函数嵌入、聚类并总结文本函数递归嵌入、聚类并总结函数总结
  • 2024-06-04向量数据库chroma
    概述Chroma是向量数据库,存向量用的。拥有针对向量的查询能力,根据向量的距离远近查询,这一点和传统数据库不一样。安装与简单使用用pipinstallchromadb命令安装。为了创建数据库实例,先要创建一个client。importchromadbchroma_client=chromadb.Client()借助client
  • 2024-06-04探索大模型技术及其前沿应用——TextIn文档解析技术
    前言        中国图象图形大会(CCIG2024)于近期在西安召开,此次大会将面向开放创新、交叉融合的发展趋势,为图像图形相关领域的专家学者和产业界同仁,搭建一个展示创新成果、展望未来发展,集高度、深度、广度三位于一体的交流平台。大会期间,合合信息智能创新事业部研发总监
  • 2024-05-31山东大学项目实训-基于LLM的中文法律文书生成系统(十四)- RAG(3)
    文档问答过程大概分为以下5部分,在Langchain中都有体现。上传解析文档文档向量化、存储文档召回query向量化文档问答今天主要讲langchain在文档embedding以及构建faiss过程时是怎么实现的。源码入口langchain中对于文档embedding以及构建faiss过程有2个分支,1.当第一次
  • 2024-05-27LGMRec Local and Global Graph Learning for Multimodal Recommendation
    目录概符号说明MotivationLGMRecLocalGraphEmbeddingGlobalGraphEmbeddingFusion代码GuoZ.,LiJ.,LiG.,WangC.,ShiS.andRuanB.LGMRec:Localandglobalgraphlearningformultimodalrecommendation.AAAI,2024.概本文采用分解的方法进行对ID和模态信
  • 2024-05-27一起学习大模型 - 从底层了解Token Embeddings的原理(2)
    文章目录前言4.TokenEmbeddings综合运用演示4.1TokenEmbeddings处理4.2伪代码示例4.3计算cat和dog两个词的相近程序4.3.1计算方法4.3.2例子4.3.3输出结果前言上一篇文章了解了TokenEmbeddings的原理,这一篇,我们一起来综合运用学到的知识来深入了解Token
  • 2024-05-22深度学习-nlp-NLP之trainsformer位置编码与余弦距离--77
    目录1.位置编码与词嵌入2.余弦距离1.位置编码与词嵌入importtorchimporttorch.nnasnnimportmath#定义词向量嵌入的大小d_model=512#定义位置编码的维度max_seq_len=5000#定义词向量嵌入层embedding=nn.Embedding(vocab_size,d_model)#定义位置编
  • 2024-05-09Embedding Whitening
    目录概主要内容BERT-FlowBERT-Whitening代码[1]LiB.,ZhouH.,HeJ.,WangM.,YangY.andLiL.Onthesentenceembeddingsfrompre-trainedlanguagemodels.ACL,2020.[2]SuJ.,CaoJ.,LiuW.andOuY.Whiteningsentencerepresentationsforbettersemant
  • 2024-05-08文本向量化模型acge_text_embedding
    1.背景文本向量化模型是自然语言处理(NLP)中的一项核心技术,它可以将单词、句子或图像特征等高维的离散数据转换为低维的连续向量,从而将文本数据转换为计算机能够处理的数值型向量形式。当文本信息被转换为向量形式后,输出的结果能够进一步地为多种后续任务提供有力支持,例如:搜索、聚
  • 2024-05-06Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings
    transformers库里实现的很多模型会有这么两个函数get_output_embeddings和get_output_embeddings。以SwitchTransformer为例classSwitchTransformersForConditionalGeneration(SwitchTransformersPreTrainedModel):defset_output_embeddings(self,new_embeddings):
  • 2024-04-17一张图看懂BERT
    https://zhuanlan.zhihu.com/p/500807675   一张图看懂BERT ​1前言关于BERT模型的原理讲解实在太多了,学习路径主要是理解两篇论文:1)理解Transformer模型,BERT模型的主要结构就是Transformer模型的Encoder部分。论文传送门:Atten
  • 2024-04-12用于显著提高检索速度和降低成本的二进制和标量嵌入量化
    我们引入了嵌入量化的概念,并展示了它们对检索速度、内存使用、磁盘空间和成本的影响。我们将讨论理论上和实践中如何对嵌入进行量化,然后介绍一个演示,展示了4100万维基百科文本的真实检索场景。目录为什么使用嵌入?嵌入可能难以扩展提高可扩展性二进制量化SentenceT
  • 2024-04-07本地知识库解锁答案
    fromlangchain.chainsimportRetrievalQAfromlangchain_community.document_loadersimportTextLoaderfromlangchain_community.embeddingsimportOllamaEmbeddingsfromlangchain_community.llms.ollamaimportOllamafromlangchain_community.vectorstores.faiss
  • 2024-04-05AI大模型应用开发篇之Embeddings向量化
    文章目录前言环境准备一、Embedding介绍二、WordEmbedding技术三、Embedding应用价值四、Embedding开发实践4.1本地数据集Embedding4.2本地知识库检索前言随着AI大模型的不断发展,AI大模型应用开发这门技术也越来越重要,很多人都开启了学习AIGC,本文介绍了AI大模型
  • 2024-04-03神经网络算法:一文搞懂BERT(基于Transformer的双向编码器)
    本文将从BERT的本质、BERT的原理、BERT的应用三个方面,带您一文搞懂BidirectionalEncoderRepresentationsfromTransformers|BERT。GoogleBERT一、BERT的本质BERT架构:一种基于多层Transformer编码器的预训练语言模型,通过结合Tokenization、多种Embeddings和特定任
  • 2024-03-14Langchain-ChatGLM源码解读(二)-文档embedding以及构建faiss过程
    一、简介Langchain-ChatGLM 相信大家都不陌生,近几周计划出一个源码解读,先解锁langchain的一些基础用法。文档问答过程大概分为以下5部分,在Langchain中都有体现。上传解析文档文档向量化、存储文档召回query向量化文档问答今天主要讲langchain在文档embedding以及构建fa
  • 2024-02-13Embedding 模型部署及效果评测
    写在前面最近大模型发展迅速,与之对应的向量化需求也被带动起来了,由此社区也衍生出很多模型,本文选几款,简单做下评测。前置概念为方便读者,先简单介绍几个概念。概念1:VectorEmbedding也即向量化嵌入,举个例子:想象一下,你是一位市场研究员,职责是分析消费者的购买行为,并为你的客
  • 2024-02-01【每周一读】LLM Embeddings — Explained Simply
    原文
  • 2024-01-31【每周一读】Optimize your RAG pt.1 - Data ingestion
    今天与其说是阅读笔记更像是摘录与翻译...本来都用了引用块,但格式不太好看就还是改成正文了。以下英文部分全是原文引用。原文
  • 2023-12-26测试开发 | 词嵌入(Word Embeddings):赋予语言以向量的魔力
    在自然语言处理(NLP)领域,词嵌入是一种强大的技术,通过将词语映射到实数域中的向量空间,实现了对语言信息的高效表示。这种方法不仅提升了文本处理的性能,还为许多NLP任务的成功实现提供了关键支持。本文将深入介绍词嵌入的定义、原理、应用以及其在改善自然语言处理任务中的作用。词嵌入
  • 2023-10-23[论文速览] SimCSE@ Simple Contrastive Learning of Sentence Embeddings
    Pretitle:SimCSE:SimpleContrastiveLearningofSentenceEmbeddingsaccepted:EMNLP2021paper:https://arxiv.org/abs/2104.08821code:https://github.com/princeton-nlp/SimCSEref:https://zhuanlan.zhihu.com/p/368353121关键词:contrastivelearning,sentenc
  • 2023-09-04swag简单示例
    packagemainimport( _"awesomeProject1/docs" "fmt" "github.com/gin-gonic/gin" swaggerFiles"github.com/swaggo/files" ginSwagger"github.com/swaggo/gin-swagger" "net/http" "os"
  • 2023-08-28探索ChatGPT的Fine-tuning和Embeddings
    1.概述今天我们将深入探索ChatGPT的两项核心技术:Fine-tuning(微调)和Embeddings(嵌入)。这些技术在现代自然语言处理领域扮演着至关重要的角色,为模型的性能提升和适应特定任务需求提供了关键支持。ChatGPT作为GPT家族的一员,已经在多个领域展现了出色的表现,而其背后的Fine-tuning和Emb