HanLP — 词性标注

时间：2024-01-31 11:25:31浏览次数：30

标签：词性 NN PU 语料库 VV HanLP 标注

词性（Part-Of-Speech，POS）指的是单词的语法分类，也称为词类。同一个类别的词语具有相似的语法性质
所有词性的集合称为词性标注集。

词性的用处

当下游应用遇到OOV时，可以通过OOV的词性猜测用法词性也可以直接用于抽取一些信息，比如抽取所有描述特定商品的形容词等

词性标注

词性标注指的是为句子中每个单词预测一个词性标签的任务

汉语中一个单词多个词性的现象很常见（称作兼类词）
OOV是任何自然语言处理任务的难题

词性标注模型

联合模型

同时进行多个任务的模型称为联合模型（joint model）

商 B-名词
品 E-名词
和 S-连词
服 B-名词
务 E-名词

流水线式

中文分词语料库远远多于词性标注语料库
实际工程上通常在大型分词语料库上训练分词器
然后与小型词性标注语料库上的词性标注模型灵活组合为一个异源的流水线式词法分析器

词性标注语料库与标注集

目前还没有一个被广泛接受的汉语词性划分标准
本节选取其中一些授权宽松，容易获得的语料库作为案例，介绍其规模、标注集等特点

《人民日报》语料库与PKU标注集
语料库中的一句样例为：
１９９７年/t １２月/t ３１日/t 午夜/t ，/w 聚集/v 在/p 日本/ns 东京/ns 增上寺/ns 的/u 善男信女/i 放飞/v 气球/n ，/w 祈祷/v 新年/t 好运/n 。

**国家语委语料库与863标注集 **

国家语言文字工作委员会建设的大型语料库
国家语委语料库的标注规范《信息处理用现代汉语词类标记集规范》在2006年成为国家标准
其词类体系分为20个一级类、29个二级类

《诛仙》语料库与CTB标注集

哈工大张梅山老师公开了网络小说《诛仙》上的标注语料
远处/NN ，/PU 小竹峰/NR 诸/DT 人/NN 处/NN ，/PU 陆雪琪/NR 缓缓/AD 从/P 张小凡/NR 身上/NN 收回/VV 目光/NN ，/PU 落到/VV 了/AS 前方/NN 碧瑶/NR 的/DEG 身上/NN ，/PU 默默/AD 端详/VV 著/AS 她/PN 。/PU
《诛仙》语料库采用的标注集与CTB（Chinese Treebank，中文树库）相同，一共33种词类

序列标注模型应用于词性标注

HanLP中词性标注由POSTagger接口提供

基于隐马尔可夫模型的词性标注

基于感知机的词性标注

基于条件随机场的词性标注

词性标注评测

自定义词性

在工程上，许多用户希望将特定的一些词语打上自定义的标签，称为自定义词性

朴素实现

规则系统，用户将自己关心的词语以及自定义词性以词典的形式交给HanLP挂载

CustomDictionary.insert("苹果", "手机品牌 1")CustomDictionary.insert("iPhone X", "手机型号 1")analyzer = PerceptronLexicalAnalyzer()analyzer.enableCustomDictionaryForcing(True)print(analyzer.analyze("你们苹果iPhone X保修吗？"))print(analyzer.analyze("多吃苹果有益健康"))

你们/r 苹果/手机品牌 iPhone X/手机型号保修/v 吗/y ？/w
多/ad 吃/v 苹果/手机品牌有益健康/i

标注语料

PerceptronPOSTagger posTagger = trainPerceptronPOS(ZHUXIAN); // 训练AbstractLexicalAnalyzer analyzer = new AbstractLexicalAnalyzer(new PerceptronSegmenter(), posTagger); // 包装System.out.println(analyzer.analyze("陆雪琪的天琊神剑不做丝毫退避，直冲而上，瞬间，这两道奇光异宝撞到了一起。")); // 分词+标注

陆雪琪/NR 的/DEG 天琊神剑/NN 不/AD 做/VV 丝毫/NN 退避/VV ，/PU 直冲/VV 而/MSP 上/VV ，/PU 瞬间/NN ，/PU 这/DT 两/CD 道/M 奇光/NN 异宝/NN 撞/VV 到/VV 了/AS 一起/AD 。/PU

总结

隐马尔可夫模型、感知机和条件随机场三种词性标注器
为了实现自定义词性
依靠词典匹配虽然简单但非常死板，只能用于一词一义的情况
如果涉及兼类词，标注一份领域语料才是正确做法

标签：词性,NN,PU,语料库,VV,HanLP,标注
From： https://www.cnblogs.com/vipsoft/p/17998604

C# 使用自定义特性标注类的方法，直接在当前类中让Main函数调用它
有的时候我们想要再Main执行一些代码，如果直接在里面写的话，下次再想用的时候就会把之前的代码删掉，好不容易写的代码不想删掉于是我们可以将这些代码写到类文件中，想要执行了，就在Main中调用该类的方法，但是有的时候我们又懒的去Main函数指定的，有没有什么办法能直接在新类中就能指定......
科技云报道：AI自动化标注崛起，数据标注员要失业了？
科技云报道原创。在数据标注行业流行着一句话：“有多少智能，就有多少人工”。由于需要标注的数据规模庞大且成本较高，一些互联网巨头及一些AI公司很少自己设有标注团队，大多交给第三方数据服务公司或者数据标注团队来做。这也衍生出了专为AI而生的人力密集型的数据标注产业链。例如，众包......
HanLP — 汉字转拼音 -- JAVA
目录语料库训练加载语料库训练模型保存模型加载模型计算调用HanLP在汉字转拼音时，可以解决多音字问题，显示输出声调，声母、韵母，通过训练语料库，本文代码为《自然语言处理入门》配套版本HanLP-1.7.5对重载不是重任进行转拼音，效果如下：原文：重载不是重任拼音（数字音调）：chong2,zai3,bu......
HanLP — HMM隐马尔可夫模型 -- 维特比(Viterbi)算法 --完整示例代码
完成代码importpicklefromtqdmimporttqdmimportnumpyasnpimportosdefmake_label(text_str):"""从单词到label的转换,如:今天---->BE麻辣肥牛:--->BMME的--->S"""text_len=len(text_str)iftext_len==1:......
EasyCVR国标注册不能上线是什么原因？该如何解决？
有用户定制的EasyCVR项目平台出现国标注册通道无法上线的情况，于是请求我们协助解决。收到反馈后，技术人员立即开展排查。1）通过沟通，用户的国标设备可以正常注册，初步判断是在国标sip消息catalog更新通道信息解析有问题；2）随后排查日志及抓包，发现有参数编码格式无法解析，如下图：3）找出问题后......
自然语言处理的语料标注：工具与方法
1.背景介绍自然语言处理（NLP）是人工智能的一个重要分支，其主要目标是让计算机能够理解、生成和处理人类语言。语料标注是NLP的一个关键技术，它涉及将未标注的文本数据转换为已标注的文本数据，以便于计算机学习和理解语言规律。这篇文章将介绍语料标注的工具和方法，以及相关的算法原理和应......
自然语言处理中的语义角色标注：理论与应用
1.背景介绍自然语言处理（NLP）是人工智能的一个重要分支，其主要目标是让计算机能够理解和生成人类语言。语义角色标注（SemanticRoleLabeling，SRL）是NLP中的一个重要任务，它涉及到识别句子中的动词和其相关的实体之间的语义关系。这些语义关系通常被表示为语义角色（SemanticRoles），例如主体（A......
23. 名词性从句-考点分析-长难句分析-识别主从2
Howwellthepredictions（预言）willbevalidated（使生效，证明，证实）bylaterperformance（行为）depondsupontheamout（数量）,reliablity（可靠性）,andapproprinteness（合适性）ofthe informationused（不是动词，是定语修饰前面名词）andontheskillandwisdom（智慧）withwhichitis......
22. 名词性从句-考点分析-长难句分析-识别主从1
名词性从句-考点分析-长难句分析——能够各个名词性从句，并能翻译出来如何识别主从：从句充当主语——句首引代词是主语从句？（不一定）；句首引代词是主语从句？——可能是是主语从句；也可能是状语从句.。如何识别主从：——1》只要见到引导词放句首，并且从句没有被逗号隔开，就一定是主从。主......
Python实搞：自动给文本标注拼音并输出excel
一、为什么要搞？前几天有同学在讨论家中小盆友的作业问题，说连一些拼音作业的难度已经超出了能力范围，感叹自己已经比不上现在的小学生了。听得滋滋有味的我又产生了一个大胆的想法：使用Python自动在每个文字的上方标注拼音预期输出示例如下：二、准备如何搞？查阅一番资料后，发现一个神奇的......