datafram的组成
在结构层面:
structtype对象描述整个datafrme的表结构
structfield对象描述一个列的信息
在数据层面:
row对象记录一行数据
column对象记录一列数据并包含列的信息
2.dataframe的代码构建–基于rdd方式
dataframe对象可以从rdd转换而来,都是分布式数据集,其实就是转换一下内部存储结构,转换为二维表的结构
通过structtype对象来定义dataframe的“表结构”转换rdd
使用rdd的todf方法转换rdd