• 2024-07-01RAG与LLM原理及实践(4)--- 语义相似度距离衡量的三种方式chroma示例
    语义相似度的计算是一个比较复杂的过程。今天打算先比较详细的介绍下几个相似度的距离衡量算法。相似度的排名衡量,在向量数据库vectordb的query中,被大量使用。还是直接上干货,理解下背后的逻辑和概念比较重要,后面看看源码 chromavectordb是怎么处理这个过程的。1)co
  • 2024-06-23基于协同过滤算法的智能推荐系统基础介绍
    协同过滤算法概述协同过滤算法的核心思想是通过用户或物品的相似性进行推荐。该算法主要分为两类:基于用户的协同过滤(User-basedCollaborativeFiltering):寻找相似的用户群体,推荐他们喜欢的产品给目标用户。基于物品的协同过滤(Item-basedCollaborativeFiltering):根据用户的历
  • 2024-06-19Rapidfuzz,一个高效的 Python 模糊匹配神器
    目录01初识Rapidfuzz            什么是Rapidfuzz?为什么选择Rapidfuzz?安装Rapidfuzz配置Rapidfuzz02基本操作简单比率计算03高级功能                 查找单个最佳匹配查找多个最佳匹配使用阈值优化
  • 2024-06-16注意力机制
    遇到看不明白的地方,欢迎在评论中留言呐,一起讨论,一起进步!需掌握的前提知识:Seq2seq、编码器&解码器神经网络本文参考:【官方双语】一个视频理解神经网络注意力机制,详细阐释!在基本的编码器-解码器中,展开的LSTM会将整个输入句子压缩成单个上下文向量,这对于短句子是可行
  • 2024-06-11第6篇:Milvus检索算法详解:从原理到应用
    欢迎来到Milvus检索算法的世界!在本文,我将带你深入了解Milvus的向量相似度计算和常用的检索算法。通过这篇博客,你将了解Milvus是如何高效计算向量相似度并进行向量检索的。准备好了吗?让我们开始这段知识之旅吧!文章目录Milvus的向量相似度计算向量相似度计算的原理
  • 2024-06-10base上海,数据科学,数据挖掘,数据分析等岗位求收留
    裁员了,base上海,数据科学,数据挖掘,数据分析等岗位,期望30k~40k,求推荐求收留1,6年数据算法工作,做过指标体系搭建,用户画像,货品定价,社区分析,销量预测,车货匹配,运筹优化等项目;2,熟悉回归,分类,聚类等机器学习算法,熟练掌握python,MySQL和Clickhouse等数据库,Hadoop大数据生态,Pytorch深度
  • 2024-06-07推荐系统三十六式学习笔记:原理篇.内容推荐07|人以群分,你是什么人就看到什么世界
    目录协同过滤基于用户的协同过滤背后的思想原理实践1、构造矩阵2、相似度计算3、推荐计算4、一些改进应用场景:总结谈及推荐系统,不得不说大名鼎鼎的协同过滤。协同过滤的重点在于协同,所谓协同,也就是群体互帮互助,互相支持是群体智慧的体现,协同过滤也是这般简单直接,历
  • 2024-06-06常见文本相似度计算方法简介:总结
    原文:文本相似度计算方法文本相似度计算方法:有2个关键组件,即【文本表示模型(文本切分粒度、特征构建方法)】和【相似度度量方法】。文本表示模型:将文本表示为计算机可以计算的数值向量,也就是提供特征。相似度度量方法:负责基于前面得到的数值向量计算文本之间的相似度。 文本
  • 2024-06-04衡量相似度:度量学习MetricLearning
    总览一般的机器学任务是,给定一个输入,预测其对应的的标签、值或一组值。这样的任务使用像是交叉熵损失Cross-EntropyLoss和均方误差损失MeanSquareErrorLoss就行。度量学习MetricLearning则不一样,它的目标是预测不同输入的相对距离。例如,衡量两张人脸的相似程度,或是推
  • 2024-05-27一起学习大模型 - 从底层了解Token Embeddings的原理(2)
    文章目录前言4.TokenEmbeddings综合运用演示4.1TokenEmbeddings处理4.2伪代码示例4.3计算cat和dog两个词的相近程序4.3.1计算方法4.3.2例子4.3.3输出结果前言上一篇文章了解了TokenEmbeddings的原理,这一篇,我们一起来综合运用学到的知识来深入了解Token
  • 2024-05-22相似标准型 总结
  • 2024-05-15P1140 相似基因
    链接:https://www.luogu.com.cn/problem/P1140题目:思路:设置递推状态:dp[i][j]表示a的前i个碱基和b的前j个碱基配对的最大值。那么递推:1.ans1设置为dp[i-1][j-1]+val[a[i]][b[j]]就是说a[i]和b[j]可以凑一对,那么就凑;2.ans2设置为dp[i-1][j]+val[0][a[i]]就是说a[i]和b的空凑一
  • 2024-05-13洛谷题单指南-动态规划3-P1140 相似基因
    原题链接:https://www.luogu.com.cn/problem/P1140题意解读:两个只包含A、C、G、T4个字符的序列,根据已经定义好的字符-字符的相似度,计算两个序列最大的相似度,两个序列必须每个字符都配对,如果字符不够,可以插入'-'代替。解题思路:本题要解决几个问题:1、状态表示既然有两个序列,设
  • 2024-05-05【第二章】利用用户行为数据
    基于用户行为分析的推荐算法是个性化推荐系统的重要算法,学术界一般将这种类型的算法称为协同过滤算法。顾名思义,协同过滤就是指用户可以齐心协力,通过不断地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。2.1用户行为数据简介一般来说,
  • 2024-04-23【JAVA】助力数字化营销:基于协同过滤算法实现个性化商品推荐
    ​​周松杰:碧桂园服务后台开发gao级工程师,拥有8年开发经验。1前言本文主要介绍基于协同过滤的推荐算法。在了解实践应用之前,我们先对推荐系统、Mahout学习框架以及算法进行简单介绍,然后再结合实践进行深入探讨。第一部分概述了推荐系统的产生背景、作用和工作原理,并介绍了Ma
  • 2024-04-23并查集
    1.0并查集概念对于具有传递性质、联通集合的题目可以考虑并查集。1.1并查集模板声明:以下模板来自于https://xuq7bkgch1.feishu.cn/docx/CAbedNJ5KobvinxdyKgcKsrlnrd。有n个数,编号是1~n,最开始每个数各自在一个集合中,现在要进行m个操作,操作共有两种:1.Mab,将编号为a
  • 2024-04-16如何评估一个回答的好坏——BERTScore 基于预训练模型的相似度度量方式
    基于预训练模型的相似度度量方式BERTScoreBERTScore是一种基于BERT(双向编码器表示器转换器)语言模型的相似度度量。它将问题和回答编码为BERT向量,然后计算两个向量的余弦相似度。与传统的基于重叠词语的相似度度量不同,BERTScore能够捕获语义相似性,即使两个句子不包含相同的
  • 2024-04-16华为实习4.10机考第二题C++代码
    考的是简单的并查集这道题考法就是并查集,若两个图片相似度大于0,则将他们放到一个家族中,同时维护家族的相似度总和。注意M矩阵是对称矩阵,所以需要避免重复维护相似度,因此可以只针对M矩阵的下三角矩阵或上三角矩阵中的连接块,计算相似度总和;或考虑整个M矩阵,然后相似度总和除
  • 2024-04-11基于内容的电影推荐算法研究
    引言今天读的文章为一篇名为《基于内容的电影推荐算法研究》的文章,文章提出了一种基于内容的电影推荐算法,通过分析电影特征和用户兴趣,实现更精准的电影推荐。文章中使用到了TF-IDF向量化方法,将电影类型和导演信息转化为特征向量,然后使用余弦相似度来衡量电影之间的相关性,接下来
  • 2024-04-10Python计算两个质谱谱图的相似度——Matchms
    在做实验的时候需要在python环境下比较两个谱图的相似度,对于这个需求就遇到两个问题:如何导入谱图,让其在python环境中显示如何对比相似度,谱图之间的相似度与向量之间的相似度有何差别我调研了一些库可以用在python中去处理谱图,包括pyteomics、spectrum_utils还有今天要介绍的
  • 2024-04-07实现基于内容的电影推荐系统—代码实现
    引言昨日在读论文的过程中讲到,要实现一种基于内容的推荐算法,那么今天他来了。今天的算法实现基于Python的pandas数据处理第三方包和机器学习第三方包sklearn,关于sklearn的详细信息可以点击这里查看,关于pandas的详细信息可以点击这里查看代码实现importpandasaspd#导入数
  • 2024-04-06SciTech-Mathmatics-Advanced Algebra-LinearAlgebra: 矩阵的相抵、相似与合同
    https://www.math.pku.edu.cn/teachers/baozq/algebra/alg1.htm矩阵的相抵、相似与合同基本概念:相抵,相抵标准形相似,对角化,迹,可对角化矩阵的相似标准形特征值,特征向量,特征多项式,特征子空间正交矩阵,Kn的内积,标准正交基实对称矩阵的正交相似标准形二次型
  • 2024-03-30毕业设计:深度学习驱动的电影推荐系统
    目录前言项目背景设计思路更多帮助前言  
  • 2024-03-27对比学习到底在学什么?
    对比学习(ContrastiveLearning)是一种自监督学习方法,它的核心目标是学习数据的表示(representation),使得相似的数据点在表示空间中靠近,而不相似的数据点在表示空间中远离。这种方法不依赖于标签数据,而是通过比较数据点之间的相似性和差异性来学习。在对比学习中,模型被训练来识
  • 2024-03-26jieba分词+sk-learn计算样本问题最相似的问题
    场景:输入一段内容,找到问题集中跟该内容最相似的问题importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimportcosine_similaritytemplates=["出来钓鱼了喂","王大腚爱钓鱼","格小格爱爱钓鱼",