首页 > 其他分享 >NLP项目实战02:英文文本识别

NLP项目实战02:英文文本识别

时间:2023-12-16 15:56:49浏览次数:28  
标签:02 NLP 识别 项目 英文 model 文本 输入

简介:

欢迎来到本篇文章!今天我们将讨论一个新的自然语言处理任务——英文短文识别。具体而言,即通过分析输入的英文文本来判断其是比较消极的还是比较积极的。

展示:

1、项目界面
如下所示是项目启动后用户使用使用界面
image

2、布局介绍
首先可以看到用户使用界面上存在这么几个部分:
2.1、最左边的功能栏
2.2、最上面的添加识别文本的输入框
2.3、一个start model按钮
2.3、Test & Result
2.4、Wordcloud
2.5、WordFrequency

image

3、功能介绍
image
3.1、最左边的功能栏
这部分暂时没有功能接入,可以根据个人需求进行功能接入

3.2、最上面的添加识别文本的输入框
在这里输入需要模型进行识别的文本,这里需要注意,由于本项目是关于英文文本识别的,所以这里输入的文本需要是英文才可以。如果输入的是其他语言的文本,可能模型没有办法进行识别,或者说会出现识别出错的情况。此外由于是英文文本识别,所以用户使用界面,我也全用英文写的

3.3、一个start model按钮
当我们输入好了文本以后,我们就可以点击这个Start model进行文本的识别了

3.3、Test & Result
当模型识别以后,用户界面会将识别结果进行展示,Test & Result的结果TaoTao这里使用的图表的形式展示的,图表有两个属性,一个是Positive还有一个是Negative,其中Positive表示输入的识别文本是积极的一类,而Negative则表示消极

3.4、Wordcloud
这里属于词云的范畴了,也就是说这里会给我们输入的文本进行统计,并给数据以词云的方式展示出来。单个词在文本中出现的次数多,则词云的字体就越大。相反当单个单词在文本中出现的次数越少,则词云的字体就越小

3.5、WordFrequency
这里统计的是输入文本中每一个单词出现的单词频率。
详细的界面效果如下所示
image

4、项目设计思路
本项目的实现思路如下流程图所示:
image
这里的model采用的是深度学习中比较基础的全连接网络实现的。
数据使用的是开源数据数据集IMDB,然后用户界面采用的是Flask结合着echarts实现的。可以看到数据和模型算法都是比较容易实现的。所以我建议大家还是需要多多练习实践,只有实践,才可以对代码有更加深刻的理解。
5、运行环境介绍
环境:windows+anaconda
主要的python库如下:
Flask 3.0.0
torch 1.8.2+cu102
torchaudio 0.8.2
torchdata 0.7.1
torchtext 0.9.2
torchvision 0.9.2+cu102
说明:运行本项目cpu版本的torch也是可以运行的,但是建议使用GPU进行

6、运行项目:
首先在项目目录下打开cmd,然后输入:python model.py
当然了,你也可以在pycharm中直接run
等待项目启动就可以了。项目启动可能会慢一点,这是由于代码需要加载数据集和模型,但是之后的使用还是比较快的,包括模型的识别速度。
image
之后,在terminal中会有一个url,如下所示:
http://127.0.0.1:5000/
我们给这个url输入到网页中回车,就可以访问了
image

之后正常使用就可以了

最后说明:
由于笔者能力有限,所以在描述的过程中难免会有不准确的地方,还请多多包含!
更多NLP和CV文章以及完整代码请到"陶陶name"获取。

标签:02,NLP,识别,项目,英文,model,文本,输入
From: https://www.cnblogs.com/taotaoName/p/17904914.html

相关文章

  • 2023 Dec. 16th
    上一周晚去补了语文英语,每天两节课,感觉没什么实质性的作用,而且每天都写不完作业,落了一堆。每天都因为写不完作业很烦......周六还迎来了周测,没想象中的那么难,也没那么简单,语文还没出分,只感觉作文写的跟屎一样;数学周三考的,115,还行;英语102.5/120,在班里挺靠前的,但还是感觉拉了;生物挺......
  • Prime Time-02
    TimingConstrainclk3和clk4-异步clk2和clk1-同步有四个clk,所以要设置四个clk的周期latency-Netdelay,走线的延时uncertainty-clkskew和clkjitter和毛刺transition-时钟跳变的时间falsepath-PT虽然穷举了所有的path,但是并不是所有的path都需要进行......
  • 2023-2024 20231302《计算机基础与程序设计》第十二周学习总结
    作业信息这个作业属于哪个课程2023-2024-1-计算机基础与程序设计这个作业要求在哪里2023-2024-1计算机基础与程序设计第十二周作业这个作业的目标自学教材《C语言程序设计》第11章并完成云班课测试作业正文https://www.cnblogs.com/9q2z2z/p/17904818.html......
  • 2023-2024-1 20232311 《网络空间安全导论》第六章学习
    教材学习内容总结思维导图教材学习中的问题和解决过程问题1:什么叫去中心化?问题1解决方案:询问ChatGPT。了解到去中心化是指从原本的中心化结构或中心机构中移除“中心”或“权威”的过程,使得权力、控制和决策权分散化。问题2:什么是容器?问题2解决方案:询问ChatGPT。容器将应用......
  • 2024年元旦节放假通知
    辞旧卯年迎新甲辰年根据国务院办公厅放假规定,并结合公司实际情况,现天柏将元旦放假安排如下:元旦节放假时间:2023年12月31日至2024年01月01日,共计2天。放假期间不发货,正常接单哟!亲爱的朋友们,感谢你们一直以来的支持和陪伴。在新的一年中,我们将不断努力创新,为建设开放的数字通信应用平......
  • 【笔记】2023.12.16 动态规划
    笔记2023.12.16:动态规划今天题目很多,可能有些题不口胡了。LOJ6089小Y的背包计数问题前\(\sqrtn\)个物品直接做单调队列优化是\(O(n\sqrtn)\)。大于\(\sqrtn\)的是完全背包。考虑到完全背包\(v\)的OGF为\(\dfrac{1}{1-x^{v}}\)。这不行。你考虑到对于一个物......
  • 2023-2024-1 20232408《网络空间安全导论第六周学习总结》
    2023-2024-120232408《网络空间安全导论第六周学习总结》教材内容总结这一章主要聚焦于应用安全,具体分为身份认证与信任管理、隐私保护、云计算及其安全、区块链与安全、人工智能及其安全等多个方面,从用户端、服务端等不同视角描述了我们应该如何保障应用安全。本章内容结合了......
  • 2023-12-16 闲话 中午没睡着
    这半年受这个b回答的影响,发奋图强,现在实力如下:通过考前突击进行刷绩点,绩点寄了。通过每天复健卷竞赛,杭州吃屎了。所有区域赛第45顺位进入ecfinal,金牌堪忧。通过每天知乎b站强训neuronnetwork/robotics,现在水平是等着寒假再学一遍通过boss直聘找实习,找了半个月一个实习机会......
  • 2023最新中级难度CSS3面试题,包含答案。刷题必备!记录一下。
    好记性不如烂笔头内容来自面试宝典-中级难度CSS3面试题合集问:描述一下你对CSS盒模型的理解。CSS盒模型是一种用于描述元素布局和大小的方式。在HTML中,每个元素都可以看作是一个矩形框,这个框由内容(content)、填充(padding)、边框(border)和外边距(margin)组成。内容(Content):这......
  • 计概杂烩2021
    2021期末A+BProblem?#include<stdio.h>intmain(void){inta,b,d;charc;scanf("%d%c%d",&a,&c,&b);if(c=='+')d=a+b;if(c=='-')d=a-b;if(c=='*')d=a*b;if(c=='/')d=......