• 2024-12-27颠覆认知!Meta 发布全新“概念模型”,或将迎来“乐高式”进化
    最近科技圈又迎来一项重磅突破!Meta悄然发布了一篇名为"LargeConceptModels:LanguageModelinginaSentenceRepresentationSpace"的论文,直接提出了一个颠覆性的AI模型架构,很有可能把我们带入NLP(自然语言处理)的下一个时代!https://arxiv.org/pdf/2412.08821你可能对
  • 2024-11-25第一次博客文章 说一下之前以为多么高大上的词语“算法”
        初步总结算法如下:        程序=算法+数据结构;什么是算法?不要认为只有“计算”的问题才有算法。广义的说为解决一个问题而采取的方法和步骤就称为“算法”。我们讨论的只限于在计算机中,即计算机能执行的算法。    例如:我们计算从1加到100,有人
  • 2024-11-23亚马逊搜索关键词怎么写?
    在亚马逊这个全球领先的电子商务平台,如何让自己的产品被更多的消费者发现,是每一个卖家都需要深入思考的问题。而搜索关键词,作为连接卖家与买家的桥梁,其重要性不言而喻。那么,如何撰写有效的亚马逊搜索关键词呢?先确定种子关键词,从产品的各种角度、特点、功效等出发,再站在用户角
  • 2024-12-10基于Spring Boot的干洗店预约洗衣系统
    目录前言功能设计系统实现相关代码为什么选择我?获取源码作者介绍:✌️大厂全栈码农|毕设实战开发,CSDN平台全栈领域优质创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。✌️博主主页:百成Java往期系列:SpringBoot、SSM、JavaWeb、python、小程序
  • 2024-09-14文本相似度计算
    一、PSP表格PSP2.1PersonalSoftwareProcessStages预估耗时(分钟)实际耗时(分钟)Planning计划3035·Estimate·估计这个任务需要多少时间3035Development开发400450·Analysis·需求分析(包括学习新技术)6070·DesignSpec·生成设计文
  • 2024-09-09[NLP] TextRank 算法
    1概述:TextRank算法1.1TextRank算法:源于PageRank算法感兴趣PageRank的朋友,请转阅:[机器学习/Python]PageRank原理与实现-博客园/千千寰宇TextRank算法基于PageRank,用于为文本生成关键字、摘要、计算语句(短语或者词汇)的重要性排名,而PageRank最初是因Google搜索
  • 2024-08-18使用TF-IDF进行情感分析的实战指南
    随着自然语言处理(NLP)的迅速发展,情感分析作为其中的重要应用领域,越来越受到关注。无论是社交媒体的舆情分析、用户评论的情感判断,还是企业年报的情感倾向识别,情感分析在多个领域都有广泛的应用。本文将聚焦于如何利用TF-IDF(TermFrequency-InverseDocumentFrequency)技术进
  • 2024-08-08循环神经网络和自然语言处理二-文本情感分类
    一.案例介绍为了练习一下wordembedding,现在有一个经典的数据集IMDB数据集,其中包含了5完条流行电影的评价,训练集25000条,测试集25000条,根据这些数据,通过pytorch完成模型,实现对评论情感进行预测二.思路首先可以把上述问题定义为分类问题,情感评分分为1-10分。十个类别,那么怎样
  • 2024-07-15NPA论文阅读笔记
    NPA:NeuralNewsRecommendationwithPersonalizedAttention论文阅读笔记这个又是一篇很老但是很经典的论文,这里来读一下Abstract现存的问题:​ 不同的用户通常有不同的兴趣爱好,同一用户也可能有不同的兴趣爱好。因此,不同的用户点击同一篇新闻时可能会关注不同的方面。提出
  • 2024-07-10一文搞懂NLP自然语言处理
    自然语言处理(NLP,NaturalLanguageProcessing)作为人工智能的一个重要分支,近年来得到了广泛的关注和应用。无论你是AI初学者还是有经验的开发者,深刻理解NLP的基本概念和应用场景都是非常必要的。本文将带你从零开始,全面了解NLP的核心知识与技术。一、什么是自然语言处理?自然
  • 2024-04-16如何评估一个回答的好坏——BERTScore 基于预训练模型的相似度度量方式
    基于预训练模型的相似度度量方式BERTScoreBERTScore是一种基于BERT(双向编码器表示器转换器)语言模型的相似度度量。它将问题和回答编码为BERT向量,然后计算两个向量的余弦相似度。与传统的基于重叠词语的相似度度量不同,BERTScore能够捕获语义相似性,即使两个句子不包含相同的
  • 2024-04-07协同过滤笔记
    笔记记录一下学习工作中遇到的一些知识,以防遗忘,不清楚的可以回来再看。一些专有名词embedding:隐向量非常重要无处不在召回:粗略计算要返回结果,例如从100W商品中取比较可能的100个负采样负采样(NegativeSampling)是一种用于训练词嵌入模型的技术。在自然语言处理中,词嵌入
  • 2024-03-27毕业设计:基于深度学习的电影属性抽取及情感分析系统
    前言  
  • 2024-03-27词-词共现概率与Transformer
    1.词词共现概率    词-词共现概率是自然语言处理中的一个关键概念,它描述的是在一段文本或一个大型语料库中,任意两个词在同一上下文中共同出现的概率。具体来说,如果我们在分析语料库时发现词A和词B经常相邻出现或者在一定距离范围内出现,那么我们就说词A和词B具有较高的
  • 2024-03-17Word2vec 学习笔记
    word2vec学习笔记0.引言1.Word2vec简介1-1.CBOW1-2.SG2.实战0.引言最近研究向量检索,看到有同事使用MeCab、Doc2Vec,所以把Word2vec这块知识学习一下。1.Word2vec简介Word2vec即wordtovector,顾名思义,就是把词转换成向量,该方法在2013年由谷歌公司
  • 2024-02-27英语语法1,词性:不同的词语可以被归类为不同的词性
    不同的词语可以被归类为不同的词性名词(Noun):名词是用来表示人、事物、地方或概念的词语。名词可以是具体的(如"猫"、"桌子")或抽象的(如"爱"、"幸福")。名词可以用来作为主语、宾语、表语等。代名词(Pronoun):代名词是用来替代名词的词语,以避免重复使用特定的名词。代名词包括
  • 2024-02-18自然语言生成任务中的5种采样方法介绍和Pytorch代码实现
    在自然语言生成任务(NLG)中,采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。束搜索(BeamSearch)是贪婪解码的一种扩展,通过在每个时间步保留多个候选序列来克服贪婪解码的局部最优问题。在每个时间步保留概率最高的前几个候选词语,然
  • 2024-01-19协同过滤笔记
    笔记记录一下学习工作中遇到的一些知识,以防遗忘,不清楚的可以回来再看。一些专有名词embedding:隐向量非常重要无处不在召回:粗略计算要返回结果,例如从100W商品中取比较可能的100个负采样负采样(NegativeSampling)是一种用于训练词嵌入模型的技术。在自然语言处理中,词嵌入
  • 2023-12-27字节跳动的自然语言处理技术
    1.背景介绍自然语言处理(NLP,NaturalLanguageProcessing)是计算机科学与人工智能的一个分支,研究如何让计算机理解、生成和处理人类语言。自然语言处理技术广泛应用于各个领域,包括机器翻译、语音识别、情感分析、文本摘要等。字节跳动是一家全球性的科技公司,拥有多个业务线,包括社交媒
  • 2023-12-26测试开发 | 词嵌入(Word Embeddings):赋予语言以向量的魔力
    在自然语言处理(NLP)领域,词嵌入是一种强大的技术,通过将词语映射到实数域中的向量空间,实现了对语言信息的高效表示。这种方法不仅提升了文本处理的性能,还为许多NLP任务的成功实现提供了关键支持。本文将深入介绍词嵌入的定义、原理、应用以及其在改善自然语言处理任务中的作用。词嵌入
  • 2023-12-17语文阅读理解总结
    需要注意的事项:1.答题思路要保持清晰,如果题目让分析词语的作用,首先应该写出这个词语的意思,再根据其释义分析作用例如:问:第六段加点词“越来越多”体现了说明文的准确性,请具体说明原始答案:越来越多说明人们更加地重视保护叫卖声,不希望叫卖声就此消失参考答案:越来越多表示数量逐
  • 2023-12-13HanLP — HMM隐马尔可夫模型 -- 训练和预测
    BMES=>B-begin:词语开始、M-middle:词语中间、E-end:词语结束、S-single:单独成词训练的过程,就是求三个矩阵的过程初始概率矩阵转移概率矩阵发射矩阵每个字有4种可能性,上图中有7个字,就是4^7种可能性维特比算法,从众多路径中,挑出最优的那条,他和隐马尔可夫没有强关联初
  • 2023-12-13HanLP — HMM隐马尔可夫模型 -- 语料库
    BMES=>B:词语开始、M:词语中间、E:词语结束、S:单独成词并非所有中文任务都需要分词语料库每行是一篇“文章”每篇文章用空格分开语料库的准确性,严重影响分词结果理论上,语料库越大越好每个字都有一个标识(隐藏状态),可以根据语料库得到所有标识中文分词就是为了得到状态