- 2024-09-18Java调用Apache commons-text求解字符串相似性
前言 在之前的一篇漂亮国的全球的基地博客中,我们曾经对漂亮国的全球基地进行了一些梳理。博文中使用的数据来源,重点是参考以为博主分享的KML的数据,同时针对其国内的基地部署信息,我们从互联网百科的数据中搜寻到一些。其实拿到这两份数据的时候,是存在一些问题的,比如,KML的
- 2024-07-07AIGC的行业发展
1.AIGC的行业发展AIGC(ArtificialIntelligenceGeneratedContent,人工智能生成内容)是利用人工智能技术来自动生成内容的一种新型内容创作方式。它基于生成对抗网络(GAN)、大型预训练模型等技术,通过对已有数据进行学习和模式识别,以适当的泛化能力生成相关内容。近年来,AIGC技术在
- 2024-06-11欢乐多 国际尬聊 语料库 n-gram分析 23个视频
hihellosize2Type Rank Freqim 1 202dont 2 181its 3 156idon 4 126haha 5 118thats 6 109youknow 7 104(youknowi)youre 8 95thankyou 9 84okayokay 1
- 2024-06-05深度学习--风格迁移 原理以及实现--84
目录1.简介4.损失函数参考链接:https://blog.csdn.net/ssshyeong/article/details/1270923541.简介ImageStyleTransferUsingConvolutionalNeuralNetworks:Gram矩阵(CVPR2016)链接TextureSynthesisUsingConvolutionalNeuralNetworks图像经过卷积层后得到的特征图
- 2024-06-03LLM基础知识
LLM背景知识介绍1大语言模型(LLM)背景大语言模型(英文:LargeLanguageModel,缩写LLM)是一种人工智能模型,旨在理解和生成人类语言.大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等。
- 2024-06-03深度学习--风格迁移Gram matric的计算--83
目录在计算机视觉中,Gram矩阵常用于衡量图像的风格特征。给定一个特征图(例如,卷积层的输出),Gram矩阵是该特征图的内积。在TensorFlow中,你可以使用tf.linalg.einsum来计算Gram矩阵。以下是一个计算Gram矩阵的TensorFlow实现样例:importtensorflowastfdefgram_matrix(input_ten
- 2024-06-01基于n-gram语言模型实现输入单词推荐功能(附源码及语料库)
一、开发环境1.语言:python2.开源工具:nltk3.语料库:维基百科英文语料库二、环境配置关于pyhton项目对nltk的部署,我看了以下文章。NLTK库安装教程在安装nltk库的过程中,我又遇到了pip更新的问题,看了以下文章。PIP更新三、实验要求利用n-gram语言模型完成,输入文字
- 2024-04-24Elasticsearch N-gram分词器介绍 (7)
一.概述Ngram是一种基于统计语言模型的算法。Ngram基本思想是将文本里面的内容按照字节大小进行滑动窗口操作,形成长度是N的字节片段序列。此时每一个字节片段称为gram。对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特
- 2024-04-23【视频】N-Gram、逻辑回归反欺诈模型文本分析招聘网站欺诈可视化|附数据代码
原文链接:https://tecdat.cn/?p=36028原文出处:拓端数据部落公众号随着互联网的快速发展,招聘网站已成为求职者与雇主之间的重要桥梁。然而,随之而来的欺诈行为也日益猖獗,给求职者带来了极大的困扰和风险。因此,如何帮助客户有效地识别和防范招聘网站上的欺诈行为,已成为一个亟待解决
- 2024-04-16如何评估一个回答的好坏——BERTScore 基于预训练模型的相似度度量方式
基于预训练模型的相似度度量方式BERTScoreBERTScore是一种基于BERT(双向编码器表示器转换器)语言模型的相似度度量。它将问题和回答编码为BERT向量,然后计算两个向量的余弦相似度。与传统的基于重叠词语的相似度度量不同,BERTScore能够捕获语义相似性,即使两个句子不包含相同的
- 2024-04-08深度学习-nlp--词向量--68
目录1.统计语言模型2.N-gram3.NPLM神经语言模型4.Word2Vec--基础中的基础5.CBOW模型6.Skip-gram进入新的领域加油!1.统计语言模型语言模型本质就是让机器学会说话但是机器本质上是只会1+1统计语言模型是所有NLP的基础,被广泛应用与语音识别、机器翻译、分词、词性标注
- 2024-04-05【论文精读】Detecting Out-of-Distribution Examples with Gram Matrices 使用Gram矩阵检测分布外实例
文章目录一、文章概览(一)Gram矩阵1、Gram(格朗姆)矩阵的定义2、Gram矩阵计算特征表示3、风格迁移中的Gram矩阵(二)ood检测(三)核心思路:扩展Gram矩阵以进行分布外检测(四)研究成果二、模型细节(一)符号定义(二)Gram矩阵和高阶Gram矩阵(三)预处理(四)计算分层偏差(五)测试图像的总偏差(
- 2024-02-29Huggingface初上手即ERNIE-gram句子相似性实战
大模型如火如荼的今天,不学点语言模型(LM)相关的技术实在是说不过去了。只不过由于过往项目用到LM较少,所以学习也主要停留在直面——动眼不动手的水平。Huggingface(HF)也是现在搞LM离不开的工具了。出于项目需要,以及实践出真知的想法,在此记录一下第一次使用HF和微调ERNIE-gram的过程
- 2024-01-15N-gram模型如何工作?
我们知道语言模型(LanguageModel,LM)实际上是对一种token序列的概率分布。例如对一个句子\(S=w_1,...,w_t\),我们要估计这一个句子的概率,计算过程如下:\[P(S)=P(w_1,...,w_t)\\=P(w_1,...,w_{t-1})*P(w_t|w_1,...,w_{t-1})\\=P(w_1,...,w_{t-2})*P(w_{t-1}
- 2024-01-08Ngram模型在机器翻译中的应用与挑战
1.背景介绍机器翻译是自然语言处理领域的一个重要研究方向,其目标是将一种自然语言文本自动翻译成另一种自然语言文本。在过去的几十年里,机器翻译技术发展了很长一段时间,从基于规则的方法(如规则引擎和统计规则)开始,到基于模型的方法(如统计模型、深度学习模型等)发展。在这些方法中,N-gr
- 2024-01-05[NLP复习笔记] N-gram 及基本平滑方法
1.N-gram模型1.1N-gram模型介绍\(\text{N-gram}\)是一种基于统计语言模型的算法,用于预测文本中的单词,其中\(\text{N}\)一般指的是序列中的单词数量。其基本思想是将文本内容进行大小为\(\text{N}\)的滑动窗口操作来计算概率。例如:当\(\text{N}=1\)时,模型被称为"u
- 2023-07-16人工智能自然语言处理:N-gram和TF-IDF模型详解
人工智能自然语言处理:N-gram和TF-IDF模型详解1.N-gram模型N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设
- 2023-07-03机器翻译 | 机器翻译评测指标
机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。事实上,在科学研究和工业界的任何一个领域,如果提出一个新的算法并声称其具有良好的性能,都需要使用某种通用的、被广泛承认的评价标准为这个算法“打分”。这个分数不仅要体现出
- 2023-04-27Image captioning常用的指标
1.n-gram是什么?n-gram是自然语言处理中常用的一种模型,它是指由n个连续的词组成的序列。例如,在句子"Ilovenaturallanguageprocessing"中,1-gram可以表示为{“I”,“love”,“natural”,“language”,“processing”},2-gram(也称为bigram)可以表示为{“Ilove”,“lovenatura
- 2023-04-17图表示学习-deepwalk
GraphEmbedding先从WordEmbedding来说,现在的NLP语言取得了巨大突破一大部分原因是将高度离散化的词语符号表示,转换为了低维的连续分布的表示。eg:我爱香蕉我爱苹果用onehot来表示:我0[1,0,0,0]爱1[0,1,0,0]苹果2[0,0,1,0]香蕉3[0,0,0,1]但是这种方法不能够
- 2023-04-15语言模型与语法树
week1语言模型与语法树基于规则的语言模型importrandomdefadj(): ###随机选取一个returnrandom.choice('蓝色的|好看的|小小的'.split('|')).split()[0]defadj_star(): ####返回一个adj()或多个或者返回''returnrandom.choice([lambda:'',lambd
- 2023-04-12数据采集——数据清洗
数据清洗到目前为止,我们还没有处理过那些样式不规范的数据,要么是使用样式规范的数据源,要么就是彻底放弃样式不符合我们预期的数据。但是在网络数据采集中,你通常无法对采集的数据样式太挑剔。由于错误的标点符号、大小写字母不一致、断行和拼写错误等问题,零乱的数据(dirtydata)是
- 2023-02-10感知机:学习算法之对偶形式【统计学习方法】
概述在原始形式中,若(x_i,y_i)为误分类点,可如下更新参数:$$w\leftarroww+\etay_ix_i;\quadb\leftarrowb+\etay_i$$假设初始值$w_0=\boldsymbol0,b_0=0$,对误分类点$(x_
- 2023-02-06N-GRAM文本挖掘
N-GRAM介绍:N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。(隐马尔科夫当中的假设。)整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率
- 2023-01-18word2vec数学推导过程
WelcomeToMyBlogword2vec包含两种框架,一种是CBOW(ContinuousBag-of-WordsModel),另一种是Skip-gram(ContinuousSkip-gramModel),如下图所示。这两种模型的任