Spacy的一些用法留档（有待更新）

时间：2024-10-20 11:32:57浏览次数：6

标签：nlp spacy zh web doc 留档 doc1 用法 Spacy

Spacy的一些用法：

# 分词
nlp = spacy.load("zh_core_web_sm")
doc = nlp(u'中国是世界上最大的发展中国家')
for token in doc:
    print(token)

    
# 另一种分词（不分割特有名词）
nlp = spacy.load("zh_core_web_sm")
# 添加自定义词汇
nlp.tokenizer.pkuseg_update_user_dict(["南京长江大桥","金陵四十景"]) # 防止将特定词汇分割

doc = nlp("南京长江大桥是金陵四十景之一！")
for token in doc:
    print(token.text)

# 判定实体类别1 查找实体在文本段中（字符串）的位置，
nlp = spacy.load("zh_core_web_sm")
# 添加自定义词汇
nlp.tokenizer.pkuseg_update_user_dict(["东方明珠"])

# 自定义词汇可能不会进入实体识别。
doc = nlp("东方明珠是一座位于中国上海市的标志性建筑，建造于1991年，是一座高度为468米的电视塔。")
for ent in doc.ents:
    # 实体文本，开始位置，结束位置，实体标签
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

# result:
# 中国上海市 (位置 9 到 14，标签 GPE)
# 文本：中国上海市
# 开始位置：9
# 结束位置：14
# 标签：GPE（地理政治实体，Geopolitical Entity），表示地名。

# 查找相关性
import numpy as np
import spacy
nlp = spacy.load("zh_core_web_sm")
doc1 = nlp("东方明珠是一座位于中国上海市的标志性建筑")
doc2 = nlp("南京长江大桥是金陵四十景之一！")
# 获取doc1和doc2的词向量
vec1 = doc1.vector
vec2 = doc2.vector

# 使用NumPy计算相似度得分，np.linalg.norm(vec1)就是doc1.vector_norm
similarity_score = np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

print(doc1, "<->", doc2,similarity_score)

#判定实体类别2 只是更换了输出格式，使其更加清晰

model = spacy.load('zh_core_web_sm')
entitles = []
doc = model('【郑渝高铁首发，南阳日报社记者带你沿线游】#郑渝高铁 现代化“副中心”建设新支撑# #郑渝高铁全线贯通# #郑渝高铁开通首发# 6月20日上午的在郑渝高铁首发车上，省人大代表马金霞接受南阳日报社记者采访。')
for entity in doc.ents:
    entitles.append(str(entity)+ ':' + str(entity.label_))
print(entitles)

标签：nlp,spacy,zh,web,doc,留档,doc1,用法,Spacy
From： https://www.cnblogs.com/Akimizuss101/p/18487058

测开必备-java基础-for循环语句的用法
什么是for循环？for循环的基本结构什么是for循环？for循环是一种编程中的控制结构，它允许你重复执行一段代码固定的次数。当你需要执行一系列重复的任务时，for循环就非常有用。for循环的基本结构在Java中，for循环的基本结构如下：for (初始化表达式; 循环条件; 步进表达式) { ......
C++ -string -常见用法4
博客主页：【夜泉_ly】本文专栏：【C++】欢迎点赞......
Delphi10.3 RadioGroup1 组件基本用法
https://www.cnblogs.com/jijm123/p/14237063.html1]添加Radio项目也可用代码添加RadioGroup1.Items.Add('Delphi7');RadioGroup1.Items.Add('Delphi10.3');而不是添加RadioButton11.RadioGroup的主要属性(1)Columns:属性属性Columns:用于设置单选按钮组中按......
深入理解拓展运算符与剩余运算符：功能、用法与区别
目录深入理解拓展运算符与剩余运算符：功能、用法与区别一、拓展运算符（SpreadOperator）1、什么是拓展运算符？2、拓展运算符的作用3、拓展运算符的使用示例①数组展开与合并②对象展开与合并③函数调用时传递数组作为参数二、剩余运算符（RestOperator）1、什么是剩余运算符......
WheelChoose组件的用法
文章目录1.概念介绍2.使用方法3.代码与效果3.1示例代码3.2运行效果4.内容总结我们在上一章回中介绍了"如何实现Numberpicker"相关的内容，本章回中将介绍wheelChoose组件.闲话休提，让我们一起TalkFlutter吧。1.概念介绍我们在本章回中介绍的whee......
C++ -string -常见用法2
博客主页：【夜泉_ly】本文专栏：【C++】欢迎点赞......
spacy-transformers: 在spaCy中使用预训练Transformer模型
spacy-transformersspacy-transformers简介spacy-transformers是一个强大的库,它为spaCy提供了使用预训练Transformer模型的能力。这个库允许用户在spaCy管道中无缝集成像BERT、RoBERTa、XLNet和GPT-2这样的先进Transformer模型。通过spacy-transformers,我们可以轻松地将最先进......
UIAbility组件基本用法
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号：山青咏芝（MaoistLearning）➤博客园地址：为敢技术（https://www.cnblogs.com/strengthen/ ）➤GitHub地址：https://github.com/strengthen➤原文地址：https://www.cnblogs.com/strengthen/p/......
Spacy之下载和使用
下载并使用spacy正常下载和使用参考这个：安装spaCy（最简单的教程）_spacy安装-CSDN博客如果不成功以下提供一种玄学的方法：环境使用anaconda环境，在这个环境下开一个.py文件，写一行importspacy会有波浪线提示你直接下载，点击下载即可。然后在下面打开终端，选择commonprompt，acti......
二维数组的简单用法
publicclassIntArrayDemo{publicstaticvoidPrint(){for(inti=0;i<IntArray.Ints.Length;i++){Console.WriteLine(i);}}publicstaticvoidGetValue(......

Spacy的一些用法留档（有待更新）

相关文章

赞助商

阅读排行