首页 > 其他分享 >Spacy的一些用法留档(有待更新)

Spacy的一些用法留档(有待更新)

时间:2024-10-20 11:32:57浏览次数:1  
标签:nlp spacy zh web doc 留档 doc1 用法 Spacy

Spacy的一些用法:

# 分词
nlp = spacy.load("zh_core_web_sm")
doc = nlp(u'中国是世界上最大的发展中国家')
for token in doc:
    print(token)

    
# 另一种分词(不分割特有名词)
nlp = spacy.load("zh_core_web_sm")
# 添加自定义词汇
nlp.tokenizer.pkuseg_update_user_dict(["南京长江大桥","金陵四十景"]) # 防止将特定词汇分割

doc = nlp("南京长江大桥是金陵四十景之一!")
for token in doc:
    print(token.text)
# 判定实体类别1 查找实体在文本段中(字符串)的位置,
nlp = spacy.load("zh_core_web_sm")
# 添加自定义词汇
nlp.tokenizer.pkuseg_update_user_dict(["东方明珠"])

# 自定义词汇可能不会进入实体识别。
doc = nlp("东方明珠是一座位于中国上海市的标志性建筑,建造于1991年,是一座高度为468米的电视塔。")
for ent in doc.ents:
    # 实体文本,开始位置,结束位置,实体标签
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

# result:
# 中国上海市 (位置 9 到 14,标签 GPE)
# 文本:中国上海市
# 开始位置:9
# 结束位置:14
# 标签:GPE(地理政治实体,Geopolitical Entity),表示地名。
# 查找相关性
import numpy as np
import spacy
nlp = spacy.load("zh_core_web_sm")
doc1 = nlp("东方明珠是一座位于中国上海市的标志性建筑")
doc2 = nlp("南京长江大桥是金陵四十景之一!")
# 获取doc1和doc2的词向量
vec1 = doc1.vector
vec2 = doc2.vector

# 使用NumPy计算相似度得分,np.linalg.norm(vec1)就是doc1.vector_norm
similarity_score = np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

print(doc1, "<->", doc2,similarity_score)
#判定实体类别2 只是更换了输出格式,使其更加清晰

model = spacy.load('zh_core_web_sm')
entitles = []
doc = model('【郑渝高铁首发,南阳日报社记者带你沿线游】#郑渝高铁 现代化“副中心”建设新支撑# #郑渝高铁全线贯通# #郑渝高铁开通首发# 6月20日上午的在郑渝高铁首发车上,省人大代表马金霞接受南阳日报社记者采访。')
for entity in doc.ents:
    entitles.append(str(entity)+ ':' + str(entity.label_))
print(entitles)

标签:nlp,spacy,zh,web,doc,留档,doc1,用法,Spacy
From: https://www.cnblogs.com/Akimizuss101/p/18487058

相关文章

  • 测开必备-java基础-for循环语句的用法
    什么是for循环?for循环的基本结构什么是for循环?for循环是一种编程中的控制结构,它允许你重复执行一段代码固定的次数。当你需要执行一系列重复的任务时,for循环就非常有用。for循环的基本结构在Java中,for循环的基本结构如下:for (初始化表达式; 循环条件; 步进表达式) {  ......
  • C++ -string -常见用法4
    博客主页:【夜泉_ly】本文专栏:【C++】欢迎点赞......
  • Delphi10.3 RadioGroup1 组件基本用法
    https://www.cnblogs.com/jijm123/p/14237063.html1]添加Radio项目 也可用代码添加RadioGroup1.Items.Add('Delphi7');RadioGroup1.Items.Add('Delphi10.3');而不是添加RadioButton11.RadioGroup的主要属性(1)Columns:属性属性Columns:用于设置单选按钮组中按......
  • 深入理解拓展运算符与剩余运算符:功能、用法与区别
    目录深入理解拓展运算符与剩余运算符:功能、用法与区别一、拓展运算符(SpreadOperator)1、什么是拓展运算符?2、拓展运算符的作用3、拓展运算符的使用示例①数组展开与合并②对象展开与合并③函数调用时传递数组作为参数二、剩余运算符(RestOperator)1、什么是剩余运算符......
  • WheelChoose组件的用法
    文章目录1.概念介绍2.使用方法3.代码与效果3.1示例代码3.2运行效果4.内容总结我们在上一章回中介绍了"如何实现Numberpicker"相关的内容,本章回中将介绍wheelChoose组件.闲话休提,让我们一起TalkFlutter吧。1.概念介绍我们在本章回中介绍的whee......
  • C++ -string -常见用法2
    博客主页:【夜泉_ly】本文专栏:【C++】欢迎点赞......
  • spacy-transformers: 在spaCy中使用预训练Transformer模型
    spacy-transformersspacy-transformers简介spacy-transformers是一个强大的库,它为spaCy提供了使用预训练Transformer模型的能力。这个库允许用户在spaCy管道中无缝集成像BERT、RoBERTa、XLNet和GPT-2这样的先进Transformer模型。通过spacy-transformers,我们可以轻松地将最先进......
  • UIAbility组件基本用法
    ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(MaoistLearning)➤博客园地址:为敢技术(https://www.cnblogs.com/strengthen/ )➤GitHub地址:https://github.com/strengthen➤原文地址:https://www.cnblogs.com/strengthen/p/......
  • Spacy之下载和使用
    下载并使用spacy正常下载和使用参考这个:安装spaCy(最简单的教程)_spacy安装-CSDN博客如果不成功以下提供一种玄学的方法:环境使用anaconda环境,在这个环境下开一个.py文件,写一行importspacy会有波浪线提示你直接下载,点击下载即可。然后在下面打开终端,选择commonprompt,acti......
  • 二维数组的简单用法
    publicclassIntArrayDemo{publicstaticvoidPrint(){for(inti=0;i<IntArray.Ints.Length;i++){Console.WriteLine(i);}}publicstaticvoidGetValue(......