首页 > 其他分享 >NLP入门01

NLP入门01

时间:2022-12-07 17:16:12浏览次数:34  
标签:NLP 01 入门 USA India Feature China 数字

 

NLP 入门

基础

数据分为两种:1、Numeric Feature 2、Categorical Feature    //我理解的是本身就是数字的就是Numeric Feature ,本身不能用数字表示的就是Categorical Feature

  • 年龄是一个Numeric Feature

  • 国家是一个Categorical Feature

但是计算机还是处理要数字数据,所以我们可以将一些categorical 参数编码成数字形式,就想ASCII码一样,把”a“编码成 97 类似的

  • USA -> 01 China -> 02 India -> 03

这样以后输入01 就知道代表的USA,输入02就代表的China,可是计算机还要进行运算,如果像这样简单的用数字代表国家,会遇到一个问题:

  • 01+02=03是不是就等于了USA+China=India//美国人和中国人生了印度人?

这样表示就会存在歧义性,让人迷茫,那么其实人们又想了一种新的方法:

  • 假设只有三个国家:USA、China、India,我现在不用数字表示,而是采用向量表示

    • USA ->[1,0,0]T China -> [0,1,0]T India-> [0,0,1]T

    • 这样子表示,就可以避免USA + China = India的问题了

      • USA+China=[1,0,0]T+[0,1,0]T=[1,1,0]T,很明显India是[0,0,1]T而不是[1,1,0]T

      • [1,1,0]T代表什么呢? 其实可以代表为双重国籍的人,他既是美国人,又是中国人(中国是不允许双国籍的,只是举个例子)

注意,这里保留[0,0,0]T,这个表示未知国籍

所以说categorical feature 不能简单的按照字典转化成数字,必须要改成向量,这样才不会产生歧义


接下来开始对简单的文本进行处理:

  1. Tokenization (Text to Words) (将文本分割为词组)

  2. Count Word Frequencies (计算词的频率)

  3. One-Hot Encoding (向量编码)

Tokenization (Text to Words)

假设这里有一句话: "the cat sat on the mat"

现将其放在一个文本数组中

     text[i] = the cat sat on the mat

进行tokeniaztion,分割成为单个词组

      tokens[i] = [the,cat,sat,on,the,mat]

  注意:1、是否应该统一大小写;2、有些词是不是应该省略,eg:"of,a,the";3、应该要纠正词的拼写错误("goood" - > "good")

标签:NLP,01,入门,USA,India,Feature,China,数字
From: https://www.cnblogs.com/potatowriter/p/16963617.html

相关文章

  • 第六课 IPFS 星际文件系统入门
    IPFS介绍IPFS的全称是InterPlanetaryFileSystem星际文件系统,是一个点对点的网络超媒体协议。它的目标是成为更快、更安全、更开放的下一代互联网。IPFS尝试解决HTTP目前存......
  • 01.单例设计模式
    单例设计模式​ 所谓单例设计模式,就是采取一定的方法在保证整个软件系统当中,对某个类只能存在一个对象实例,并且该类只提供了一个取得其对象实例的方法单例设计模式有八种......
  • 《小白WEB安全入门》01. 扫盲篇
    目录基础知识什么是WEB什么是前端什么是后端什么是数据库什么是协议什么是WEB安全什么是服务器什么是IP地址、端口什么是局域网、广域网、内网、外网什么是URL什么是MAC地......
  • Javascript-极速入门指南-3-jQuery使用教程
    内容概要jQuery类库类库jQuery简介jQuery的宗旨:Writeless,domore写的更少做的更多jQuery的特点为: 1.加载速度快 2.选择器更多更好用 3.一行代码走天下......
  • 001- hive文件存储格式
    1.文件存储格式TextFileSequeceFileRCFileORCFilePARQuet2.说明其中TEXTFILE为默认格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SequenceFile,RCF......
  • Scrapy入门到放弃01:我为什么选择Scrapy
    前言Scrapyiscoming!!在写了七篇爬虫基础文章之后,终于写到心心念念的Scrapy了。Scrapy开启了爬虫2.0的时代,让爬虫以一种崭新的形式呈现在开发者面前。在18年实习的时候......
  • Kotlin学习快速入门(11)—— 枚举类的使用
    原文地址:Kotlin学习快速入门(11)——枚举类的使用-Stars-One的杂货小窝由于有时候偶尔用到枚举类,所以简单记录一下,和Java的一起对比记录下面以一个简单的四季设计一个枚......
  • flask入门
    1.helloword示例fromflaskimportFlaskapp=Flask(__name__)@app.route('/')defhello_world():return'HelloWorld!'if__name__=='__main__':......
  • 大数据杂谈:我和大数据(2017 - 2021)
    前言又是一年乍暖还寒,春天的风迎面而来,凉意中夹杂着些许温暖。哦,你知道,是春天来了。就像那年的实习期,在挥手告别的毕业季,定格在了那年的七月。人会怀念,怀念青涩时期的自......
  • 全都会!预测蛋白质标注!创建讲义!解释数学公式!最懂科学的智能NLP模型Galactica尝鲜 ⛵
    ......