• 2024-08-091.14 - 信息检索:TF-IDF/BM25,原理+代码
    1.TF-IDF1.1原理1.1.1名词解释 TF:词频,某token在文档中出现的次数越多,则这个token的特征越能代表这篇文档自身的独特特征。计算:token出现次数/文档总token数IDF:逆文档频率,如果某个token在所有文档中都出现,那么这个token对于区分这些文档的特征最没有帮助。计算:1
  • 2024-08-06在 TfidfVectorizer 标记化后删除二元组
    我正在尝试删除由TfidfVectorizer创建的二元组。我正在使用text.TfidfVectorizer,以便我可以使用自己的预处理器函数。Initfromsklearn.feature_extraction.textimportENGLISH_STOP_WORDSasstop_wordsfromsklearn.feature_extraction.textimportTfidfV
  • 2024-07-28比较列表中的标题并找到相似的标题
    我编写了一个Python代码,该代码接收产品标题作为输入,并从演示文稿中查找类似的标题。一切都运行良好,但它错误地识别了一些标题。我认为它错误地识别了带有数字的标题说明:get_price(myProductTitle)函数的输入是一个标题,例如:RazerGoldPINMalaysia7MYR