常用api用法
agg:groupdata对象的api,作用是在里面可以写多个聚合
alias:column对象的api,可以针对一个列进行改名
withcolumnrenamed:dataframe的api,可以对df中的列进行改名,一次改一个列 ,改多个列,可以链式调用
7.sparksql数据清洗api
去重方法:drop duplication,其功能为:对df数据进行处理,如果重复数据多条,去第一条
8.总结
dataframe在结构层面上由structfield组成列描述,由struvttype构造表描述。在数据层面上,column对象记录列数据,row对象记录含数据
dataframe可以从rdd转换、pandas df转换、读取文件、读取jdbc等方法构建
spark.read.format()和df.write.format()是dataframe读取和写出的统一化标准api
sparksql默认在shuffle阶段200个分区,可以修改参数获得更好的性能
drop duplication可以去冲、dropna可以删除缺失值、fillna可以填充缺失值