首页 > 其他分享 >2024/1/27学习进度笔记

2024/1/27学习进度笔记

时间:2024-01-27 20:12:18浏览次数:49  
标签:27 实体 笔记 2024 北京大学 文本 分词 向量 标注

1) NLP 基本概念

① NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言,即将人的自然语言转换为计算机可以阅读的指令。

② 分词是 NLP 任务的一个起始,分词的好坏会影响整体模型的好坏。并且分词不一样,语义不一样。

1. 中国北京大学 → 中国、北京、大学,语义为北京的大学
2. 中国北京大学 → 中国、北京大学,语义为北京大学

② hanLP 是 NLP 处理工具,它是处理文本的工具,hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。

③ NLP 有很多处理工具,不同的处理工具处理的方法不一样,例如对一个词标注的标注可能不一样。

2) NLP 基础应用

1、分词

① 不同的分词模型,同一个句子可以分成不同的结果。

② BIO 序列标注方法[有监督学习算法]:B:代表块的开始 I:代表块的中间或者结束 O:单独一个块,例如,模型输入文本:我 在 中 国 北 京 大 学 读 书,输出标注后的序列为:O O B I I I I I B I。

1. 我在中国北京大学读书 → 我在、中国、北京、大学、读书
2. 我在中国北京大学读书 → 我在、中国北京、大学、读书
3. 我在中国北京大学读书 → 我、在、中国、北京大学、读书
4. 我在中国北京大学读书 → 我、在、中国、北京大学、读、书

2、词性标注

① 识别单词的词性,标注它是名词、动词、形容词、副词.....

② 词性标志有让标注工程师对所有词进行标注,也有算法工程师用代码先实现一遍文本的预标注,例如正则表达式,然后标注工程师直接检查是否标注错误,并补充没有标注的数据。

3. 命名实体识别

① 从PDF的句子中提取实体,例如人名、地名、时间等,通过实体寻找关系。

1. 文字型 PDF 提取实体方法:把 PDF 转成 xtml,再用 xpath 提取实体。
2. 扫描型 PDF 用 opencv 的方法把它转换为文字,再用 nlp 做命名实体识别,把实体框出来。

[ 1-3 都可以叫做序列标注问题 ]

4) 关键词提取

① 关键词代表句子意思,常通过摘要提取文本核心。

5) 关系提取

① 抽取句子中的实体和关系,生成实体和实体的关系叫做关系提取,如:乔布斯发明了苹果(句子输入模型中) 返回:乔布斯[实体]、苹果[实体]、发明[发明]。

6) 事件提取

① 提取文体中的事件(时间、地点、主体、金额......)。

7) 文本相似度

① 计算文本之间的相似度,例如,根据商品标题和商品描述信息的相似度找相似的商品。

8) 文本分类

① 对文件进行识别,分类出对应的类别,如:对文件进行新闻分类:体育、经济、政治、综艺.....,如:对文本进行情感分析:正面或者负面。

9) 文本表示(文本向量化、文本数值化)

① 把文本用数字转换,例如词袋模型。词袋模型首先会有一个语料库,语料库即一个文本,文本中含有成千上万个单词、每个单词对应向量,有2的n次方个单词就有以n为长度的向量。例如,"在" 对应向量为:[0,0,0,1,0,0,0],"北京大学" 对应向量为:[0,0,0,0,1,0,0],"读书"对应向量为:[0,0,0,0,1,0,0]。文本"我在北京大学读书" 分词为:我、在、北京大学、读书,转换为数值化为:[1,0,0,0,0,0,0] [0,0,0,1,0,0,0] [0,0,0,0,1,0,0] [0,0,0,0,1,0,0] ,然后用 [1,0,0,1,1,0,0] 用表示一段文本。

1. 同理,可以用文本向量化[1,0,1,1,0,0,0,0,0,0,0] 表示:我 打 你
2. 同理,可以用文本向量化[1,0,1,1,0,0,0,0,0,0,0] 表示:你 打 我

② 词袋模型缺陷:

1. 如果语料库很大,向量会稀疏,也就是一个向量里面很多都是零。
2. 没有顺序关系,向量"我打你"和向量"你打我"的文本向量表现形式一样。
3. 不能解决一词多译问题,例如,今天去店里买苹果,苹果手机还是吃的苹果,词袋模型的文本向量中无法表现出来。
4. 无法融合上下文关系,例如,今天去水果店里买苹果,苹果对应的向量仅仅是取词料库中的向量进行匹配,而并不是在前面的水果向量的基础上产生的向量,因此词向量无法融合上下文关系。

静态词向量方法有:word2vec,不能解决一词多译问题;动态词向量方法有: elmo、opt、bert,能解决一词多译问题。

标签:27,实体,笔记,2024,北京大学,文本,分词,向量,标注
From: https://www.cnblogs.com/wzs-study/p/17991860

相关文章

  • 2024.1.27寒假每日总结18
    算法题:2861.最大合金数-力扣(LeetCode)git学习Git是一款免费、开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。Git是一个开源的分布式版本控制系统,可以有效、高速的处理从很小到非常大的项目版本管理。Git是LinusTorvalds为了帮助管理Linux内核开发而......
  • Solution Set【2024.1.27】
    CF1778FMaximizingRoot首先不难证明不操作根节点一定不优,因此我们考虑操作根节点的情况。现在我们的问题转化为了:最大化操作根节点前的整个树的节点权值的最大公约数。由于可能的最大公约数值只有\(\mathcal{O}(\sqrt{V})\)种。因此我们考虑将其压入状态进行动态规划。设......
  • 1.27
    2update.html<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><title>修改旅游费</title><linkrel="stylesheet"href="../Style.css"></head><s......
  • 1.27学习进度
    1.jieba库可以对中文进行分词2.由于yarn是集群运行,executor可以在所有服务器上执行,所以每个服务器都需要有哦jieba库提供支撑3.如何尽量提高任务计算的资源计算cpu核心和内存量,通过–executor-memory指定executor内存,通过–executor-cores指定executor的核心通过—num-executors指......
  • HTML笔记
    1.HTML笔记1.1HTML文件1.1.1文档声明<!Doctypehtml>1.1.2.基本页面模板<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"/><!--媒体设置字符集设置--><metaname="viewport"content=&q......
  • MAC地址的格式与分类(学习笔记)
    Mac地址一.明晰概念MAC地址是以太网的MAC子层所使用的地址,是设备在以太网中的物理标识,在以太网中是用来实现多媒体接入控制(MediaAccessControl也是命名的由来),如同学生的学号,校园内可以通过学号(类似于MAC地址)来找到某个唯一确定的学生。学习时的收获:在学习时尽管查阅了许多......
  • Node.js笔记
    第一篇 一、Node.js模块:模块使用npm运行管理。events:事件模块,提供事件触发和事件监听功能。util:核心功能模块,用于弥补核心JS功能的不足。fs:文件操作模块,提供文件操作APIhttp:Web协议模块,提供Web协议交互功能express:Web框架,用于快速构建Web应用服务vm:沙箱模块,用于提......
  • CSAPP学习笔记——Chapter10,11 系统级I/O与网络编程
    CSAPP学习笔记——Chapter10,11系统级I/O与网络编程Chapter10系统级I/O系统级I/O这一章的内容,主要可以通过这张图概括:UnixI/O模型是在操作系统内核中实现的。应用程序可以通过诸如open、close、lseek、read、write和stat这样的函数来访UnixI/O。较高级别的RIO和标......
  • 2024-01-27:用go语言,阿里巴巴走进了装满宝藏的藏宝洞。藏宝洞里面有N堆金币, 第i堆金币
    2024-01-27:用go语言,阿里巴巴走进了装满宝藏的藏宝洞。藏宝洞里面有N堆金币,第i堆金币的总重量和总价值分别是m[i]、v[i],阿里巴巴有一个承重量为T的背包,但并不一定有办法将全部的金币都装进去,他想装走尽可能多价值的金币,所有金币都可以随意分割,分割完的金币重量价值比(也就是单位......
  • 最小表示法&Manacher学习笔记+杂题
    字符串系列前言:孩子从小就自卑。四、最小表示法&Manacher学习笔记+杂题相关题单:戳我1.最小表示法最小表示法是用于解决字符串最小表示问题的方法。(1)字符串的最小表示:字符串\(s\)的最小表示为与\(s\)循环同构的所有字符串中字典序最小的字符串。循环同构指的是当字符......