首页 > 其他分享 >spacy入门一

spacy入门一

时间:2024-04-10 10:46:12浏览次数:28  
标签:入门 doc component token text print spacy

一.中文库下载

国内可以使用镜像https://hf-mirror.com/下载。地址:https://hf-mirror.com/spacy/zh_core_web_md/tree/main,中文所以下载的是zh_core_web_md-any-py3-none-any.whl。然后使用pip install安装。

二.简单测试

import spacy
from spacy.language import Language
# 自定义管道组件
@Language.component("custom_component")
def custom_component(doc):
    print("自定义管道组件:",doc)
    print(type(doc))
    return doc

# 下载并加载中文模型
# 可以从 https://github.com/howl-anderson/spacy_model 获取中文模型
nlp = spacy.load('zh_core_web_md')
nlp.add_pipe("custom_component",last=True)

# 分词并打印实体
text = "中国是一个伟大的国家,它拥有庞大的人口和丰富的文化。"
doc = nlp(text)

tokens=[token.text for token in doc]
print("分词结果:",tokens)

pos_tags=[(token.text,token.pos_)for token in doc]
print("词性标注结果:",pos_tags)

entities=[(ent.text,ent.label_)for ent in doc.ents]
print("实体识别结果:",entities)

dependency_tree=[(token.text,token.dep_,token.head.text)for token in doc]
print("依赖关系分析结果:",dependency_tree)

三、运行结果

 

标签:入门,doc,component,token,text,print,spacy
From: https://www.cnblogs.com/5ishare/p/18125525

相关文章

  • 踩坑指南:入门OpenTenBase之部署篇
    引言OpenTenBase企业级分布式HTAP开源数据库,具备高扩展性、商业数据库语法兼容、分布式HTAP引擎、多级容灾和多维度资源隔离等能力,成功应用在金融、医疗、航天等行业的核心业务系统。这是我第一次参与开源项目,所以感到有些摸不着头脑。我看了一下源代码,发现它是用C语言开发的,......
  • Java入门基础知识第八课(数组)——冒泡排序、Arrays工具类
    前面二白讲了关于数组的概念、语法以及简单的输入输出,实际上关于数组的知识还有很多,接下来咱们讲一下冒泡排序以及一些常用的Arrays工具类,需要记忆的知识很多,而且容易混淆。一、冒泡排序简介(原理)升序为例:从头开始,每次比较相邻两数小的交换到前面每轮结束后最大的数交换到......
  • 计算机视觉CV从入门到精通
    题注:本人一线大厂工作多年,有丰富的项目实战经验,计划编写计算机视觉CV从入门到精通。一、计算机视觉CV本教程主要大纲如下:数学基本理论;图像处理的基本应用,包括opencv库的基本图像处理运用;python编程、pytorch深度学习框架的理论与应用;标注工具的使用以及数据集的处理适配;算法......
  • 2024年幻兽帕鲁/Palworld服务器部署指南:从入门到精通的实战教程
    随着幻兽帕鲁(Palworld)这款游戏的持续升温,越来越多的玩家渴望能够拥有自己的专属服务器,与好友们畅享不受限的组队冒险。好消息是,现在搭建幻兽帕鲁服务器,比以往任何时候都要简单。今天,就让我带你走进这个神秘而富有创意的幻兽世界,手把手教你如何轻松搭建自己的游戏服务器。一、......
  • 幻兽帕鲁/Palworld服务器部署教程:从入门到精通的完整创建流程
    近期,备受瞩目的游戏《幻兽帕鲁》风潮再起,无数热爱冒险与探索的玩家们都渴望在这片神秘的土地上留下自己的足迹。然而,随着玩家数量的激增,官方服务器开始显现出其不稳定性,卡顿、掉线等问题时有发生。这时,拥有一台专属的《幻兽帕鲁》游戏服务器便成了许多玩家的新追求。好消息是,......
  • 数据库sql入门
    目录前言:一、什么是sql1、定义2、类型二、什么是数据库三、数据库的增删改1、查询数据库  2、创建数据库 3、删除数据库4、选择进入数据库5、创建表6、查看表的信息7、查看数据表列表8、删除数据表9、修改数据库表名 10、修改字符集11、写入内容12、增......
  • 【编译原理】Antlr 入门使用
    前面文章我们学习了编译器前端的词法和语法分析工具,本篇我们来看看如何借助Antlr工具,快速生成词法和语法分析代码。一、安装mac环境:1)安装brewinstallantlr2)配置classpath(把Antlr的JAR文件设置到CLASSPATH环境变量中,以便顺利编译所生成的Java源代码。)vi~/.b......
  • 第 9 场 小白入门赛 字典树考试
    题目:4.字典树考试【算法赛】-蓝桥云课(lanqiao.cn)思路:我们可以先抛开题目,想一下一个二进制数是111111111 --->9个1,题目说(Ai&Aj)所以两个1一个组合,我们用最笨的方式取枚举----->是8+7+6+5+.......+1是36两两一组,想想X个1如何算呢?是不是应......
  • Qt使用Sqlite数据库-1(入门级)
    1.在Pro文件中加入sql资源QT+=coreguisql    这是第一步也是最重要的一步,没有加入sql资源。在包含数据库文件时会报错找不到该文件。2.创建链接及打开数据库//包含数据库头文件#include<QSqlDatabase>#include<QSqlError>#include<QSqlQuery>//创建链接......
  • 【牛客SQL快速入门】SQL基础(二)
    一、高级查询1.计算函数AVGAVG()为平均值函数,通过对表中行数计数并计算其列值之和,求得该列的平均值。AVG()可用来返回所有列的平均值,也可以用来返回特定列或行的平均值。Selectavg(gpa)Fromuser_profileCOUNTCOUNT()函数为计数函数,可利用COUNT() 确定表中行的数......