• 2024-09-14文本相似度计算
    一、PSP表格PSP2.1PersonalSoftwareProcessStages预估耗时(分钟)实际耗时(分钟)Planning计划3035·Estimate·估计这个任务需要多少时间3035Development开发400450·Analysis·需求分析(包括学习新技术)6070·DesignSpec·生成设计文
  • 2024-09-09[NLP] TextRank 算法
    1概述:TextRank算法1.1TextRank算法:源于PageRank算法感兴趣PageRank的朋友,请转阅:[机器学习/Python]PageRank原理与实现-博客园/千千寰宇TextRank算法基于PageRank,用于为文本生成关键字、摘要、计算语句(短语或者词汇)的重要性排名,而PageRank最初是因Google搜索
  • 2024-08-18使用TF-IDF进行情感分析的实战指南
    随着自然语言处理(NLP)的迅速发展,情感分析作为其中的重要应用领域,越来越受到关注。无论是社交媒体的舆情分析、用户评论的情感判断,还是企业年报的情感倾向识别,情感分析在多个领域都有广泛的应用。本文将聚焦于如何利用TF-IDF(TermFrequency-InverseDocumentFrequency)技术进
  • 2024-08-08循环神经网络和自然语言处理二-文本情感分类
    一.案例介绍为了练习一下wordembedding,现在有一个经典的数据集IMDB数据集,其中包含了5完条流行电影的评价,训练集25000条,测试集25000条,根据这些数据,通过pytorch完成模型,实现对评论情感进行预测二.思路首先可以把上述问题定义为分类问题,情感评分分为1-10分。十个类别,那么怎样
  • 2024-07-15NPA论文阅读笔记
    NPA:NeuralNewsRecommendationwithPersonalizedAttention论文阅读笔记这个又是一篇很老但是很经典的论文,这里来读一下Abstract现存的问题:​ 不同的用户通常有不同的兴趣爱好,同一用户也可能有不同的兴趣爱好。因此,不同的用户点击同一篇新闻时可能会关注不同的方面。提出
  • 2024-07-10一文搞懂NLP自然语言处理
    自然语言处理(NLP,NaturalLanguageProcessing)作为人工智能的一个重要分支,近年来得到了广泛的关注和应用。无论你是AI初学者还是有经验的开发者,深刻理解NLP的基本概念和应用场景都是非常必要的。本文将带你从零开始,全面了解NLP的核心知识与技术。一、什么是自然语言处理?自然
  • 2024-04-16如何评估一个回答的好坏——BERTScore 基于预训练模型的相似度度量方式
    基于预训练模型的相似度度量方式BERTScoreBERTScore是一种基于BERT(双向编码器表示器转换器)语言模型的相似度度量。它将问题和回答编码为BERT向量,然后计算两个向量的余弦相似度。与传统的基于重叠词语的相似度度量不同,BERTScore能够捕获语义相似性,即使两个句子不包含相同的
  • 2024-04-07协同过滤笔记
    笔记记录一下学习工作中遇到的一些知识,以防遗忘,不清楚的可以回来再看。一些专有名词embedding:隐向量非常重要无处不在召回:粗略计算要返回结果,例如从100W商品中取比较可能的100个负采样负采样(NegativeSampling)是一种用于训练词嵌入模型的技术。在自然语言处理中,词嵌入
  • 2024-03-27毕业设计:基于深度学习的电影属性抽取及情感分析系统
    前言  
  • 2024-03-27词-词共现概率与Transformer
    1.词词共现概率    词-词共现概率是自然语言处理中的一个关键概念,它描述的是在一段文本或一个大型语料库中,任意两个词在同一上下文中共同出现的概率。具体来说,如果我们在分析语料库时发现词A和词B经常相邻出现或者在一定距离范围内出现,那么我们就说词A和词B具有较高的
  • 2024-03-17Word2vec 学习笔记
    word2vec学习笔记0.引言1.Word2vec简介1-1.CBOW1-2.SG2.实战0.引言最近研究向量检索,看到有同事使用MeCab、Doc2Vec,所以把Word2vec这块知识学习一下。1.Word2vec简介Word2vec即wordtovector,顾名思义,就是把词转换成向量,该方法在2013年由谷歌公司
  • 2024-02-27英语语法1,词性:不同的词语可以被归类为不同的词性
    不同的词语可以被归类为不同的词性名词(Noun):名词是用来表示人、事物、地方或概念的词语。名词可以是具体的(如"猫"、"桌子")或抽象的(如"爱"、"幸福")。名词可以用来作为主语、宾语、表语等。代名词(Pronoun):代名词是用来替代名词的词语,以避免重复使用特定的名词。代名词包括
  • 2024-02-18自然语言生成任务中的5种采样方法介绍和Pytorch代码实现
    在自然语言生成任务(NLG)中,采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。束搜索(BeamSearch)是贪婪解码的一种扩展,通过在每个时间步保留多个候选序列来克服贪婪解码的局部最优问题。在每个时间步保留概率最高的前几个候选词语,然
  • 2024-01-19协同过滤笔记
    笔记记录一下学习工作中遇到的一些知识,以防遗忘,不清楚的可以回来再看。一些专有名词embedding:隐向量非常重要无处不在召回:粗略计算要返回结果,例如从100W商品中取比较可能的100个负采样负采样(NegativeSampling)是一种用于训练词嵌入模型的技术。在自然语言处理中,词嵌入
  • 2023-12-27字节跳动的自然语言处理技术
    1.背景介绍自然语言处理(NLP,NaturalLanguageProcessing)是计算机科学与人工智能的一个分支,研究如何让计算机理解、生成和处理人类语言。自然语言处理技术广泛应用于各个领域,包括机器翻译、语音识别、情感分析、文本摘要等。字节跳动是一家全球性的科技公司,拥有多个业务线,包括社交媒
  • 2023-12-26测试开发 | 词嵌入(Word Embeddings):赋予语言以向量的魔力
    在自然语言处理(NLP)领域,词嵌入是一种强大的技术,通过将词语映射到实数域中的向量空间,实现了对语言信息的高效表示。这种方法不仅提升了文本处理的性能,还为许多NLP任务的成功实现提供了关键支持。本文将深入介绍词嵌入的定义、原理、应用以及其在改善自然语言处理任务中的作用。词嵌入
  • 2023-12-17语文阅读理解总结
    需要注意的事项:1.答题思路要保持清晰,如果题目让分析词语的作用,首先应该写出这个词语的意思,再根据其释义分析作用例如:问:第六段加点词“越来越多”体现了说明文的准确性,请具体说明原始答案:越来越多说明人们更加地重视保护叫卖声,不希望叫卖声就此消失参考答案:越来越多表示数量逐
  • 2023-12-13HanLP — HMM隐马尔可夫模型 -- 训练和预测
    BMES=>B-begin:词语开始、M-middle:词语中间、E-end:词语结束、S-single:单独成词训练的过程,就是求三个矩阵的过程初始概率矩阵转移概率矩阵发射矩阵每个字有4种可能性,上图中有7个字,就是4^7种可能性维特比算法,从众多路径中,挑出最优的那条,他和隐马尔可夫没有强关联初
  • 2023-12-13HanLP — HMM隐马尔可夫模型 -- 语料库
    BMES=>B:词语开始、M:词语中间、E:词语结束、S:单独成词并非所有中文任务都需要分词语料库每行是一篇“文章”每篇文章用空格分开语料库的准确性,严重影响分词结果理论上,语料库越大越好每个字都有一个标识(隐藏状态),可以根据语料库得到所有标识中文分词就是为了得到状态
  • 2023-12-06r语言绘制云雨图
    在R语言中,可以使用wordcloud包来绘制云雨图。云雨图是一种以词语频率为基础的词云图,其中词语的大小表示其在文本中的频率或重要性。首先,确保已安装wordcloud包。如果未安装,可以使用以下命令进行安装:install.packages("wordcloud")接下来,加载wordcloud包并准备数据。假设我们有一个
  • 2023-11-13搜索引擎使用技巧
    使用引号:如果您想搜索一个确切的短语,可以将短语放在引号中,搜索引擎将只返回包含该短语的结果。排除特定词语:如果您希望搜索结果中不包含特定词语,可以在搜索词前加上减号“-”,搜索引擎将排除包含该词语的结果。使用站点限定符:通过在搜索词后加上"site:",您可以限定搜索结果来自
  • 2023-11-06自然语言处理概述
    自然语言处理概述     以前的自然语言大多数停留在去根据业务来编写相应的规则来解决实际的问题,但是仅仅靠手工编写的规则是无法覆盖全部的内容,而且不同的规则之间也具有一定的矛盾,随着统计学的发展,人们逐渐的用统计的思想去解决一些实际的问题,例如马尔可夫假设,即一个词
  • 2023-11-01Linux操作(第四周)
    这节课无缝衔接接着上节课的cat命令,cat命令0用于查看内容比较少的文件,而今天的more命令是以逐页的方式来显示文件内容的,其中空格键用以向下翻页,“b”键用于向上翻页。学习的第二个命令则是head命令,该命令用以查询文件的前几行,我们还可以用head-n的方式来查询前n行内容。与head
  • 2023-10-11什么是词频-逆文档频率(TF-IDF)?
    我们玩AI会听说一个词叫做向量化,那么什么是向量化呢?文本向量化:将文本信息表示成能够表达文本语义的向量,是用数值向量来表示文本的语义。词嵌入(WordEmbedding):一种将文本中的词转换成数字向量的方法,属于文本向量化处理的范畴。常见的文本向量和词嵌入方法包括独热模型(OneHot
  • 2023-09-16约定俗成的语言
    在回答关于什么是‘善’这一问题时,我们可能面临循环论证的一个问题。我们翻开汉语字典中对善的解释,可以看到该解释必然使用其他描述性文字来对该汉字做出解释。譬如,‘善’在形容事物时,做好,美好这一解释。但,何为好的和美好的呢?你可能说这是废话,然后给我一堆关于好的定义:譬如,美味的