首页 > 其他分享 >hive使用

hive使用

时间:2022-10-08 12:22:32浏览次数:41  
标签:nbr sale hive day 使用 卖出 id round

在一个有138MB的csv文件(580万行数据)里统计每天每家公司的利润等等信息。。。。。

用mysql多半会爆掉,mysql一张表最多可处理的数据量为 千万 级的(每秒数据库并发量在几千,也就是说可以同时支持最多一千个人在线)

只能用”大数据“的力量,hadoop+hive+sqoop ,hadoop将本地csv文件导入集群,然后用hive跑mr任务,最后sqoop把元数据导入mysql。


需求:

样表(sales_sample_20170310)字段说明:
day_id     日期编号;
sale_nbr    卖出方代码;
buy_nbr    买入方代码;
cnt        数量
round      金额

字段说明
day_id,sale_nbr,buy_nbr,cnt,round
日期编号,卖出方代码,买入方代码,数量,金额

卖出方和买入方又分为3种类型:
以'C'开头的表示类型为C,代表“航空公司”,只可以卖出,不可以买入;
以'O'开头的表示类型为O,代表“代理人”,既可以卖出,也可以买入,并且允许自己卖给自己(简单来讲:每个“代理人”代码可能对应多个售票点,售票点之前有交换票的情况,所以体现为自己卖给了自己);
'PAX'表示类型为PAX,代表“旅客”,只可以买入,不可以卖出。

(1)统计每天各个机场的销售数量和销售金额。
要求的输出字段
day_id,sale_nbr,,cnt,round
日期编号,卖出方代码,数量,金额
(2)统计每天各个代理商的销售数量和销售金额。
要求的输出字段
day_id,sale_nbr,,cnt,round
日期编号,卖出方代码,数量,金额
(3)统计每天各个代理商的销售活跃度。
要求的输出字段
day_id,sale_nbr, sale_number
日期编号,卖出方代码,交易次数(买入或者卖出均算交易次数)
(4)汇总统计10月1日到10月15日之间各个代理商的销售利润。
编号,卖出方代码,买入数量,买入金额,卖出数量,卖出金额,销售利润(卖出金额-买入金额)
(5)设计分析代理商的市场地位根据市场交易次数、交易对象个数、销售机票数量、销售利润等。

要求将上述结果数据保存到mysql数据库中

相关数据量:

  • 原始数据量:

  • 执行查询

    select day_id,sale_nbr,count(cnt),count(round) from test0 where sale_nbr like 'C%' group by day_id, sale_nbr;
    select day_id,sale_nbr,count(cnt),count(round) from test0 where sale_nbr like 'O%' group by day_id, sale_nbr;
    


导入到mysql:

标签:nbr,sale,hive,day,使用,卖出,id,round
From: https://www.cnblogs.com/zhuangzhongxu/p/16768555.html

相关文章

  • MongoDB基本使用
    MongoDB基本使用1.创建数据库MongoDB创建数据库的语法格式如下:useDATABASE_NAME如果数据库不存在,则创建数据库,否则切换到指定数据库。实例以下实例我们创建了数据库youj:......
  • Consul的HTTP API和使用方法
    Consul支持基础结构的服务注册和发现(称为内部服务),也支持外部服务(第三方SAAS服务以及无法直接运行Consul代理的其它环境,例如redis)。直接使用sudoapt-getinstallc......
  • consul安装及使用
    Consul是HashiCorp公司的一个用于实现分布式系统的服务发现与配置工具。Consul内置了服务注册与发现框架、分布一致性协议实现、健康检查、Key/Value存储、多数据中心方......
  • 什么时候使用websocket(即时通讯)
    用于多个用户相互交流用于展示服务器端经常变动的数据websocket和http的区别http只能是客户端向服务器发出请求,服务器返回查询结果。HTTP协议做不到服务器主动向客户......
  • Mastercam9.1使用技巧及常见问题
    mastercam9.1中文版使用技巧mastercam9.1快捷键Alt+2设置系统颜色F2缩小Alt+3设置系统图层F3重画Alt+4设置限定图层F4分析Alt+5......
  • Java--匿名内部类--使用场景/实例
    原文网址:Java--匿名内部类--使用场景/实例_IT利刃出鞘的博客-CSDN博客简介    本文用示例介绍Java中匿名内部类的一些使用场景。    这些场景包括:多......
  • 关于Object.keys()和Object.values()的使用
    关于Object.keys()和Object.values()的使用1.关于Object.keys()1)处理对象,返回可枚举的所有可枚举属性的字符串数组letperson={name:'张三',age:25,address:'深圳'......
  • vCenter 6.7 使用Grafana监控失败的处理
    背景国庆处理的vCenter监控.老的vCenter6.0的平台很正常.但是新的vCenter6.7就经常出现断连的情况.花费了快一个多小时才搞定,这里记录一下.问题现象vCenter......
  • ABAP 选择屏幕内的类型以及使用
    选择屏幕组件主要记录了ABAP编程中选择屏幕常用的组件选择框范围选择框radio单选check选择单行展现配合radio和check使用较多下拉框自定义下拉框按钮文件框文......
  • Flutter(四):Flutter 语言 Dart基础使用
    一、变量和常量变量vara=1;varstr='abc';常量constPI=3.14;不可变对象finalPI=3.14;finalTIME=newDateTime.now()二、流程控制语句if(year......