NPL---自然语言处理单词界定问题

时间：2024-03-18 22:56:00浏览次数：29

2.1 单词界定问题

单词定界问题是属于词法层面的消歧任务。在口语中，词与词之间通常是连贯说出来的。在书面语中，中文等语言也没有词与词之间的边界。由于单词是承载语义的最小单元，要解决自然语言处理，单词的边界界定问题首当其冲。特别是中文文本通常由连续的字序列组成，词与词之间缺少天然的分隔符，因此中文信息处理比英文等西方语言多一步工序，即确定词的边界，我们称为“中文自动分词”任务。通俗的说就是要由计算机在词与词之间自动加上分隔符，从而将中文文本切分为独立的单词。例如一个句子“今天天气晴朗”的带有分隔符的切分文本是“今天|天气|晴朗”。中文自动分词处于中文自然语言处理的底层，是公认的中文信息处理的第一道工序，扮演着重要的角色，主要存在新词发现和歧义切分等问题。我们注意到：正确的单词切分取决于对文本语义的正确理解，而单词切分又是理解语言的最初的一道工序。这样的一个“鸡生蛋、蛋生鸡”的问题自然成了（中文）自然语言处理的第一条拦路虎。

"""
 author:jjk
 datetime:2018/11/1
 coding:utf-8
 project name:Pycharm_workstation
 Program function: 中文分词
                   结巴分词
 
"""
import jieba # 导入结巴分词包
import jieba.posseg as pseg
import time #  时间

time_Start = time.time()

#f=open("t_with_splitter.txt","r")#读取文本  
#string=f.read().decode("utf-8")

string = '中文自动分词指的是使用计算机自动对中文文本进行词语的切分，' + \
         '即像英文那样使得中文句子中的词之间有空格以标识。' + \
         '中文自动分词被认为是中文自然语言处理中的一个最基本的环节'

words = pseg.cut(string) # 进行分词
result = "" #记录最终结果的变量 
for w in words:
    result += str(w.word) + "/" + str(w.flag) # 加词性标注  
print(result) # 输出结果
f = open("result.txt","w") #将结果保存到另一个文档中 
f.write(result)
f.close()
time_Stop = time.time()
print("分词及词性标注完成，耗时："+str(time_Stop-time_Start)+"秒。")# 输出结果

标签：NPL,中文,---,result,time,单词,自然语言,分词
From： https://www.cnblogs.com/wajava/p/18081702

CF1943C - Tree Compass | 树的直径思维
links给定一棵$n$个点的树，可以执行任意次以下操作：选定一个距离$u$，并将与$u$距离为$d$的点都染色。求使得所有节点都染上颜色的最小操作次数，并输出方案。$n\leq2000$看着数据范围，朝着$O(n^2)$的dp去想，但是没有想出来。然后又尝试大胆猜测，$d$只......
BFS记忆化搜索---标记
迷宫（洛谷）题目描述给定一个$N\timesM$方格的迷宫，迷宫里有$T$处障碍，障碍处不可通过。在迷宫中移动有上下左右四种方式，每次只能移动一个方格。数据保证起点上没有障碍。给定起点坐标和终点坐标，每个方格最多经过一次，问有多少种从起点坐标到终点坐标的方案。输入格式第......
datawhale-动手学数据分析task4笔记
动手学数据分析task4数据可视化matplotlib的图像都位于figure对象中，创建新的对象用plt.figure。plt.subplot()方法可以更方便地创建一个新figure，并返回一个含有以创建的subplot对象的numpy数组。'''参数说明:nrows=int，subplot的行数ncols=int，subplot的列数sharex=Bool......
HarmonyOS-基础之内置组件学习
1、Image图片组件鸿蒙内置组件Image的4种写法//鸿蒙内置Image图片组件案例@Entry@ComponentstructImagePage{build(){Column({space:20}){//1、图片的第一种写法media文件夹下Image($r('app.media.pig')).width(200).height(200);//2......
Java毕业设计-基于SSM框架的学生成绩管理系统项目实战(附源码+论文)
大家好！我是岛上程序猿，感谢您阅读本文，欢迎一键三连哦。......
阿里云-零基础入门推荐系统【排序模型+模型融合】
文章目录学习过程赛题介绍评价方式理解赛题理解排序模型读取排序特征转化类型返回排序后的结果排序结果归一化LGB排序模型定义特征列排序模型分组排序模型定义排序模型训练lgb_ranker模型预测lgb_ranker预测结果重新排序及生成提交结果lgb_ranker五折交叉验证lgb_ranker......
Mybatis-Plus 快速入门
快速入门地址：快速测试|MyBatis-Plus(baomidou.com)使用第三方组件：1、导入对应依赖2、研究依赖如何配置3、代码如何编写4、提高扩展技术能力步骤1、创建数据库mybatis_plus2、创建user表DROPTABLEIFEXISTS`user`;CREATETABLE`user`( idBIGINTN......
计算机毕业设计-基于Java+SSM架构的学生综合考评管理系统项目开发实战(附论文+源码)
大家好！我是职场程序猿，感谢您阅读本文，欢迎一键三连哦。......
中考英语首字母快速突破010-2021上海浦东英语二模-Living a Fun Zero-Waste Lifestyle
PDF格式公众号回复关键字:ZKSZM010原文Canlivingazero-wastelifestylebetrue?OneNewYorkerisprovingit'snotonlypossible,butitlooksfunaswell.TheNewYorker,Ms.Singerdidn'tgrowupinareally"green"home.&qu......
旭日x3派部署自己训练的模型（安全帽识别、视频流推理、yolov5-6.2）
旭日x3派部署自己训练的模型（安全帽识别、视频流推理、yolov5-6.2）windows，框架pytorch，python3.7效果模型训练模型转换1、pt模型文件转onnx2、检查onnx模型3、准备校准数据4、onnx转bin上板视频流推理1、图片推理2、视频流推理效果模型训练进官网可克隆yolov5......

NPL---自然语言处理单词界定问题

2.1 单词界定问题

相关文章

赞助商

阅读排行