首页 > 其他分享 >北京市政百姓信件分析--数据清洗

北京市政百姓信件分析--数据清洗

时间:2023-06-12 10:23:21浏览次数:27  
标签:terminated onesec -- replace 信件 home 清洗 row

-- 建表
create table xingfang(
kind string,
`time` string,
processingDepartment string,
content string
)
row format delimited fields terminated by ',';

 


-- 数据导入
load data local inpath '/home/onesec/xinfang_data.csv' into table xingfan

 


-- 每年的信件数量 统计和导出
insert overwrite local directory '/home/onesec/result1.csv'
row format delimited fields terminated by ','
stored as textfile
select year(replace(`time`,'/','-')) year,count(*) cnt from xingfang group by year(replace(`time`,'/','-'))

 

 

 

 

 


-- 信件种类及数量 统计和导出
insert overwrite local directory '/home/onesec/result2.csv'
row format delimited fields terminated by ','
stored as textfile
select kind,count(*) cnt from xingfang group by kind;

 

 

 

-- 政府部门及处理数量的信件数量 统计和导出
insert overwrite local directory '/home/onesec/result3.csv'
row format delimited fields terminated by ','
stored as textfile
select replace(processingDepartment,'"',""),count(*) cnt from xingfang group by replace(processingDepartment,'"',"");

 

 

 

 

标签:terminated,onesec,--,replace,信件,home,清洗,row
From: https://www.cnblogs.com/gnn40036/p/17474218.html

相关文章

  • 使用SubWCRev命令将SVN版本号自动设置到vs软件版本中
    背景在软件开发过程中,每次对一个软件产品的release,都要处理该软件版本号。有的版本号是人为定的,有些是自动生成的,本文介绍在使用SVN版本管理软件的情况下,利用SVN的SubWCRev命令来自动生成对应svn修改版本的版本号,这样便于快速找到对应二进制的编译时的SVN版本号。操作步骤1.......
  • everything的高级用法
     更多·语法见下图 ......
  • 实验六
    任务1:fromturtleimport*defmove(x,y):penup()goto(x,y)pendown()defdraw(n,size=100):foriinrange(n):fd(size)left(360/n)defmain():pensize(2)pencolor('red')move(-200,0)draw(3)m......
  • 0x00 Hello Go
    GO程序的基本结构Go语言的文件后缀是.go结尾,例如hello.goGo项目的文件目录通常是这样的:.└──src└──go_code└──learn项目名└──package1└──package2以下代码是一个helloworld程序的代码示例/***he......
  • 北京市政百姓信件分析---热词云以及存储关系图谱
    使用neo4j数据库进行存储关系的展示   热词云    importjsonimportmatplotlib.pyplotaspltimportreimportjiebafrompy2neoimportGraph,Node,Relationship,NodeMatcherfromwordcloudimportWordCloudfromcollectionsimportCounterimport......
  • Segment-Anything的一些相关论文总结
    1、SegmentAnythingModel(SAM)EnhancedPseudoLabelsforWeaklySupervisedSemanticSegmentation https://avoid.overfit.cn/post/92f50aa2951d4dd89cfc4fe71e0531ef......
  • Jmeter测试本地web登录接口
    安装配置Jmeter下载下来就是一个包,我下的是5.4.3版本的 去bin目录下找到Jmeter.bat 点击运行 语言的修改问题可以去配置文件里面改,也可以下载汉化包,具体教程自己搜 首先添加线程组 添加http请求   添加查看结果树 运行 ......
  • iOS SDK打包引入外边的文件
    一、SDK打包引入外边的文件添加外边项目引入包的路径/Users/renhao/Desktop/安硕/Project/AE-SDK/td-ios-sdk/ReleaseResources/TalkingDataSDKDemo/TDEncrypt/CocoaSecurity/Users/renhao/Desktop/安硕/Project/AE-SDK/td-ios-sdk/ReleaseResources/TalkingDataSDKDemo/TDEncr......
  • clickhouse 21.1.5 单机性能测试
    数据集1英国房地产支付价格https://clickhouse.com/docs/zh/getting-started/example-datasets/uk-price-paid问题由于公司电脑的Ubuntu子系统访问不了内网,下载不了数据,我是在电脑之间下载csv文件然后在子系统Ubuntu进行如下SQL导入的错误是因为在尝试解析CSV文件的过程中,C......
  • django views 序列化
      RESTframework中的序列化类与Django的Form和ModelForm类非常相似。我们提供了一个Serializer类,它提供了一种强大的通用方法来控制响应的输出,以及一个ModelSerializer类,它为创建处理模型实例和查询集的序列化提供了有效的快捷方式。Serializers 序列化器允许把像查询......