首页 > 其他分享 >2.3学习进度

2.3学习进度

时间:2024-02-03 11:58:44浏览次数:26  
标签:读取 df 可以 dataframe 学习 api 进度 2.3 数据

常用api用法

    agg:groupdata对象的api,作用是在里面可以写多个聚合
    alias:column对象的api,可以针对一个列进行改名
    withcolumnrenamed:dataframe的api,可以对df中的列进行改名,一次改一个列 ,改多个列,可以链式调用

7.sparksql数据清洗api

    去重方法:drop duplication,其功能为:对df数据进行处理,如果重复数据多条,去第一条

8.总结

    dataframe在结构层面上由structfield组成列描述,由struvttype构造表描述。在数据层面上,column对象记录列数据,row对象记录含数据
    dataframe可以从rdd转换、pandas df转换、读取文件、读取jdbc等方法构建
    spark.read.format()和df.write.format()是dataframe读取和写出的统一化标准api
    sparksql默认在shuffle阶段200个分区,可以修改参数获得更好的性能
    drop duplication可以去冲、dropna可以删除缺失值、fillna可以填充缺失值

标签:读取,df,可以,dataframe,学习,api,进度,2.3,数据
From: https://www.cnblogs.com/zhangmingmkzj/p/18004492

相关文章

  • 狂神说Java Web学习笔记_Cookie&Session
    Cookie,Session保存会话的两种技术,Cookie(客户端技术),Session(服务端技术)Cookie服务器端设置token,从客户端获取tokenCookie[]cookies=req.getCookies();//从客户端获取cookiecookie.getName();//获取cookie名字cookie.getValue();//获取cookie值Cookiecookie=newCoo......
  • 2.2学习进度
    spark并行度推荐全局并行度;集群中的并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数5.spark的任务调度sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作DAG调度器:讲逻辑的dAG图进行处理,最终得到逻辑上......
  • 2.1学习进度
    有向无环图有向:有方向无环:没有闭环DAG:有方向没有形成闭环的一个执行流程图action:执行链条的开关,返回值不是rdd算子一个action会产生一个job(一个应用程序内的子任务),每个job会产生一个DAG图一个action=一个DAG=一个JOB一个application中,每一个job内含一个DAG,同时每一个job又是由......
  • 寒假day2 2.3 ds
    讲师:杨宁远,NOI2022Au,rk20,from成都七中DSlistauto定义指针。*i访问元素。prev(i)next(i)访问前驱、后继的值。rbrgenrend含义相反。frontback放回头元素和尾元素。insert(iterator,value),会在迭代器前插入元素。erase(iterator),删除元素。a.swap(b):O(1)merge......
  • 【学习笔记】Python 环境隔离
    目录前言venvvenv环境管理venv包管理virtualenv以及virtualenvwrapper安装virtualenvwrapper环境管理virtualenvwrapper包管理condaconda环境管理conda包管理总结参考资料Python作为最常用的脚本语言,有着非常丰富的第三方库,但是这也导致了Python的环境管理非常必要。......
  • 算法学习
    今天学习了约数的个数怎么求,一般的算法会超时。这时我们需要用到一个定理:p=[n/i]:表示在[1,n]的区间内,有约数i的个数为p个。所以这时,在求约数个数的问题上,我们只需要遍历[1,n],设置一个计数器即可。当n很大时,跨越太大,这时i++、就会很慢,设置j=n/(n/i)+1;下一次让i=j;这样跨度较......
  • NTFS文件系统支持功能 尽量完整完善资料,让后面学习的人少走弯路 欢迎补充
    NTFS文件系统支持以下功能:NTFS权限,EFS加密,磁盘限额,压缩,卷影副本,NTFS(NewTechnologyFileSystem)是Windows操作系统中的一种现代文件系统,它支持多种先进的功能以确保数据的安全性、可靠性和高效性。以下是NTFS文件系统支持的主要功能:安全性:NTFS提供了高级的文件和文件夹权限设置,可......
  • 运输层的TCP与UDP协议(学习笔记)
    一、运输层1.逻辑通信结构2.端口号、复用与分用二、TCP与UDP的区别1.概览图2.用户数据报协议UDP(UserDatagramProtocol)UDP面向应用层报文,可以在任何时候发起传输(无连接),向上层提供不可靠传输服务,即如果传输过程中出现误码,也不会触发重传。可以支持一对一、......
  • GS学习——初体验
    GaussianSplatting测试了一个精灵4无人机飞的MOV格式视频,重建效果如下:  对应的ply点云效果如图:采用神经隐式表达的场景,稠密点云应该不再是重要的了。信息隐含在神经网络中,通过function计算,需要哪一个视场动态合成了。 ......
  • 人工智能(第3版) 第三章—学习笔记
    人工智能(第3版)第三章—学习笔记知情搜索(informedsearch,也称有信息搜索)利用启发式方法,通过限定搜索的深度或宽度来缩小问题空间。3.0引言介绍了本章的主要内容与几个重要的概念。3.1启发式方法乔治·波利亚——“启发式方法之父”​启发式方法的目的是大幅度减少到......