NLP 入门

基础

数据分为两种：1、Numeric Feature 2、Categorical Feature //我理解的是本身就是数字的就是Numeric Feature ，本身不能用数字表示的就是Categorical Feature

年龄是一个Numeric Feature

国家是一个Categorical Feature

但是计算机还是处理要数字数据，所以我们可以将一些categorical 参数编码成数字形式，就想ASCII码一样，把”a“编码成 97 类似的

USA -> 01 China -> 02 India -> 03

这样以后输入01 就知道代表的USA，输入02就代表的China，可是计算机还要进行运算，如果像这样简单的用数字代表国家，会遇到一个问题：

01+02=03是不是就等于了USA+China=India//美国人和中国人生了印度人？

这样表示就会存在歧义性，让人迷茫，那么其实人们又想了一种新的方法：

假设只有三个国家：USA、China、India，我现在不用数字表示，而是采用向量表示
- USA ->[1,0,0]T China -> [0,1,0]T India-> [0,0,1]T
- 这样子表示，就可以避免USA + China = India的问题了
  - USA+China=[1,0,0]T+[0,1,0]T=[1,1,0]T，很明显India是[0,0,1]T而不是[1,1,0]T
  - [1,1,0]T代表什么呢？其实可以代表为双重国籍的人，他既是美国人，又是中国人（中国是不允许双国籍的，只是举个例子）

注意，这里保留[0,0,0]T，这个表示未知国籍

所以说categorical feature 不能简单的按照字典转化成数字，必须要改成向量，这样才不会产生歧义

接下来开始对简单的文本进行处理：

Tokenization (Text to Words) （将文本分割为词组）
Count Word Frequencies （计算词的频率）
One-Hot Encoding （向量编码）

Tokenization (Text to Words)

假设这里有一句话: "the cat sat on the mat"

现将其放在一个文本数组中

text[i] = the cat sat on the mat

进行tokeniaztion，分割成为单个词组

tokens[i] = [the,cat,sat,on,the,mat]

注意：1、是否应该统一大小写；2、有些词是不是应该省略，eg："of,a,the"；3、应该要纠正词的拼写错误（"goood" - > "good"）

标签：NLP,01,入门,USA,India,Feature,China,数字
From： https://www.cnblogs.com/potatowriter/p/16963617.html

第六课 IPFS 星际文件系统入门
IPFS介绍IPFS的全称是InterPlanetaryFileSystem星际文件系统，是一个点对点的网络超媒体协议。它的目标是成为更快、更安全、更开放的下一代互联网。IPFS尝试解决HTTP目前存......
01.单例设计模式
单例设计模式所谓单例设计模式，就是采取一定的方法在保证整个软件系统当中，对某个类只能存在一个对象实例，并且该类只提供了一个取得其对象实例的方法单例设计模式有八种......
《小白WEB安全入门》01. 扫盲篇
目录基础知识什么是WEB什么是前端什么是后端什么是数据库什么是协议什么是WEB安全什么是服务器什么是IP地址、端口什么是局域网、广域网、内网、外网什么是URL什么是MAC地......
Javascript-极速入门指南-3-jQuery使用教程
内容概要jQuery类库类库jQuery简介jQuery的宗旨:Writeless,domore写的更少做的更多jQuery的特点为： 1.加载速度快 2.选择器更多更好用 3.一行代码走天下......
001- hive文件存储格式
1.文件存储格式TextFileSequeceFileRCFileORCFilePARQuet2.说明其中TEXTFILE为默认格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理；SequenceFile,RCF......
Scrapy入门到放弃01：我为什么选择Scrapy
前言Scrapyiscoming！！在写了七篇爬虫基础文章之后，终于写到心心念念的Scrapy了。Scrapy开启了爬虫2.0的时代，让爬虫以一种崭新的形式呈现在开发者面前。在18年实习的时候......
Kotlin学习快速入门（11）—— 枚举类的使用
原文地址：Kotlin学习快速入门（11）——枚举类的使用-Stars-One的杂货小窝由于有时候偶尔用到枚举类，所以简单记录一下，和Java的一起对比记录下面以一个简单的四季设计一个枚......
flask入门
1.helloword示例fromflaskimportFlaskapp=Flask(__name__)@app.route('/')defhello_world():return'HelloWorld!'if__name__=='__main__':......
大数据杂谈：我和大数据（2017 - 2021）
前言又是一年乍暖还寒，春天的风迎面而来，凉意中夹杂着些许温暖。哦，你知道，是春天来了。就像那年的实习期，在挥手告别的毕业季，定格在了那年的七月。人会怀念，怀念青涩时期的自......
全都会！预测蛋白质标注！创建讲义！解释数学公式！最懂科学的智能NLP模型Galactica尝鲜 ⛵
......

NLP入门01

NLP 入门

基础

Tokenization (Text to Words)

相关文章

赞助商

阅读排行