hadoop开发案例

时间：2023-08-21 19:11:27浏览次数：30

标签：comment string hadoop 发送案例开发 receiver msg sender

本次基于陌陌数据案例实现可视化数据分析

数据准备:两个tsv文件，总计包含14w条数据，数据字段包括发送人，接收人账号，性别，GPS坐标等20多个字段，这些字段利用制表符进行分隔开，其中有为null的杂乱数据，需要将这些数据过滤，时间数据格式为年月日时分秒，需要substr()进行截取，GPS坐标利用split函数分割，并且取到经纬度的具体数值。
操作:首先使用datagrip关联Windows的文件，即为sql文件，然后连接hIve数据源，连接时首先解决驱动问题，驱动采用hive3的驱动，然后配置基本链接信息。连接后即可正常使用数据。

上传数据:首先需要在数据库建好一张基本信息表，此表为数据的冗合表，采用\t作为分隔符，建好表之后从本地服务器上加载数据到数据库，本地是指的虚拟机的目录下的数据，命令为:
--建表
create table db_msg.tb_msg_source(
  msg_time             string comment "消息发送时间"
  , sender_name        string comment "发送人昵称"
  , sender_account     string comment "发送人账号"
  , sender_sex         string comment "发送人性别"
  , sender_ip          string comment "发送人ip地址"
  , sender_os          string comment "发送人操作系统"
  , sender_phonetype   string comment "发送人手机型号"
  , sender_network     string comment "发送人网络类型"
  , sender_gps         string comment "发送人的GPS定位"
  , receiver_name      string comment "接收人昵称"
  , receiver_ip        string comment "接收人IP"
  , receiver_account   string comment "接收人账号"
  , receiver_os        string comment "接收人操作系统"
  , receiver_phonetype string comment "接收人手机型号"
  , receiver_network   string comment "接收人网络类型"
  , receiver_gps       string comment "接收人的GPS定位"
  , receiver_sex       string comment "接收人性别"
  , msg_type           string comment "消息类型"
  , distance           string comment "双方距离"
  , message            string comment "消息内容"
)
--指定分隔符为制表符
row format delimited fields terminated by '\t';

--加载数据到表中

load data local inpath '/root/hivedata/data1.tsv' into table db_msg.tb_msg_source;

load data local inpath '/root/hivedata/data2.tsv' into table db_msg.tb_msg_source;

--查询表验证数据文件是否映射成功

select * from tb_msg_source limit 10;

前置准备工作准备好后即可开始数据清洗，可能涉及到有空字段需要过滤，有字段需要截取或者分割，总之将所有的数据清洗完之后保存到新的表之中。
之后即可编写sql

标签：comment,string,hadoop,发送,案例,开发,receiver,msg,sender
From： https://www.cnblogs.com/copyjames/p/17646818.html

Streamlit项目：基于讯飞星火认知大模型开发Web智能对话应用
1前言科大讯飞公司于2023年8月15日发布了讯飞认知大模型V2.0，这是一款集跨领域知识和语言理解能力于一体的新一代认知智能大模型。前日，博主对讯飞认知大模型进行了详细的分析，详情请至博文《星星之火：国产讯飞星火大模型的实际使用体验（与GPT对比）》了解。总的来说，讯飞星火认知大模......
Android开发如何斩获高薪offer？给大家几点面试建议
前言又到了每年的求职季，Android开发工程师在找工作过程对于简历设计和面试技巧通常会有一定的欠缺，而这往往是求职过程是否顺利的决定性因素。因此，掌握一定的面试技巧对于找互联网技术岗位的工作帮助非常大。本篇文章给大家分享一波面试必备技巧，全文是通过在阿里的面试官的交流整理......
微信开发之一键获取好友详情的技术实现
简要描述：获取联系人信息请求URL：http://域名地址/getContact请求方式：POST请求头Headers：Content-Type：application/jsonAuthorization：login接口返回参数：参数名必选类型说明wId是String登录实例标识wcId是String好友微信id/群id,多个好友/群以","分......
服务器数据恢复-HP EVA存储VDISK被删，磁盘被UNGROUP的数据恢复案例
服务器数据恢复环境：某单位有一台HPEVA存储，连接2组扩展柜，扩展柜中有12块FATA磁盘和10块FC磁盘，不确定数量的LUN，主机安装WINDOWSSERVER操作系统，存储设备用来存放该单位的重要资料。服务器故障初检：存储不可用。因故障存储在多家数据恢复服务商处理过，所以在暂时无法直接定位故障原......
如何高效实现混合App开发？
随着越来越多的软件都是以saas或者云端的形式提供，因此，混合App的开发占比越来越大，大厂们纷纷都转向此类的开发。最近看到一些文章，混合App的开发，还能用计算机之父的那套理论--冯诺依曼结构来开开脑洞。本篇文章，我们来大概介绍一下。前置科普：哪些App能上架至应用市场？苹......
微信开发之一键删除好友的技术实现
简要描述：删除联系人请求URL：http://域名地址/delContact请求方式：POST请求头Headers：Content-Type：application/jsonAuthorization：login接口返回参数：参数名必选类型说明wId是String微信实列IDwcId是String需删除的微信id返回数据：参数名类型说明codestring1000成功，1001失败msgstring反馈......
（三河凡科科技飞讯教学版）学习开发振弦采集模块的注意事项
学习开发振弦采集模块的注意事项（三河凡科科技飞讯教学版）振弦采集模快是一种用来实时采集和处理振弦信号的电子设备，在工业、航空、医疗等领域都有广泛应用。学习开发振弦采集模块需要注意以下几点：一、硬件选择首先需要选择适合自己开发的振弦采集模块硬件，这需要根据自己的应用场......
低代码开发轻松解决企业数字化能力建设困局
谈及数字化，这是一个几乎所有领域都在使用的概念。当下，数字化正在经历从以企业为中心向产业为中心转移、从追求效能为主的价值诉求向追求业务创新和业务发展的价值诉求转变，不断增加的不确定性也为数字化的发展蒙上了一层阴影。除了企业自身的认知理念不清的困难，另一痛点来源于助力......
低代码开发轻松解决企业数字化能力建设困局
谈及数字化，这是一个几乎所有领域都在使用的概念。当下，数字化正在经历从以企业为中心向产业为中心转移、从追求效能为主的价值诉求向追求业务创新和业务发展的价值诉求转变，不断增加的不确定性也为数字化的发展蒙上了一层阴影。除了企业自身的认知理念不清的困难，另一痛点来源于助力方......
从零做软件开发项目系列之二——需求调研
在接到软件开发任务之后，第一件要做的事情就是进行需求调研工作，基于前期的沟通以及合同向用户了解具体需求，从而有针对性地开展后续工作。整个调研过程分为调研准备，调研实施，需求分析。 1调研准备俗话说，不打无准备之仗，在正式调研之前，软件开发方需要做一些调研前的准备工作，做软件......

hadoop开发案例

相关文章

赞助商

阅读排行