本周花在学习上的时间大概为21小时,花在代码上的时间大概为11小时。花在解决问题上的时间大概为4小时。本周,我完成了hive数据库的使用,包括但不限于创建数据库,删除数据库,数据库和hdfs的关系,创建表的语法,数据类型,内部表,外部表,内部表和外部表的区别,比如创建内部表的语法为create table......,而创建外部表的语法为create external table......,内部表由hive管理,默认在/user/hive/warehouse目录下,而外部表随意位置,由location关键字指定,内部表在删除元数据时,数据一样会被删除,而外部表在删除元数据时,会保留数据。内部表为hive管理的表,可持久使用,外部表在临时链接外部数据时用。hive的字段分隔符默认为\001,可以通过建表时修改:row format delimited fields terminated by。外部表和其数据是相互独立的,可以先有表后有数据,也可以先有数据,后有表,表和数据只是一个链接的关系,所以删除表,表不存在了,但是数据会依然保留。内部表和外部表是可以相互转换的。我还学习了数据的导入和导出。以及分区表,分桶表。分区表可以选择地段作为分区。我还学习了修改表,基本查询,正则匹配,联合查询等,并且会数据抽样。我完成了案例,加载数据,清洗数据,还有指标统计,并且安装了BI进行可视化的展现。下周准备继续学习大数据,并有机会学习学习python。这周我遇到了问题,在dbeaver创建表时,注释会乱码。这是因为没有修改mysqlutf8。
标签:总结,内部,删除,外部,第三周,hive,表在,暑期,数据 From: https://www.cnblogs.com/liuxuefeng/p/17537574.html