首页 > 其他分享 >1/27 学习进度笔记

1/27 学习进度笔记

时间:2024-01-27 14:57:29浏览次数:26  
标签:load 27 .. format df 笔记 进度 data schema

今日学习了DataFrame的代码构建--读取外部数据

读取数据源包括text,csv,json,parquet四种数据源

schema = StructType().add("data",StringType(),nullable=True)
df = spark.read.format("text").\
schema(schema=schema).\
load("../data/sql/people.txt")

df = spark.read.format("json").\
load("../data/sql/people.json")

df = spark.read.format("csv").\
option("sep", ";").\
option("header", "True").\
option("encoding", "utf-8").\
schema("name STRING, age INT, job STRING").\
load("../data/sql/people.csv")

df = spark.read.format("parquet").\
load("../data/sql/users.parquet")
还学习了DSL的风格语法操作
DataFrame支持两种风格进行编程,分别是:
.DSL风格
.SQL风格
DSL语法风格
DSL称之为︰领域特定语言。其实就是指DataFrame的特有API
DSL风格意思就是以调用API的方式来处理Data比如:df.where().limit()

标签:load,27,..,format,df,笔记,进度,data,schema
From: https://www.cnblogs.com/yuncannotjava/p/17991414

相关文章

  • 2024.1.27日报
    3.4SparkSQL应用3.4.1创建DataFrame/DataSet方式一:读取本地文件①在本地创建一个文件,有id、name、age三列,用空格分隔,然后上传到hdfs上。vim/root/person.txt12内容如下:1zhangsan202lisi293wangwu254zhaoliu305tianqi356kobe4012345......
  • HCCF论文阅读笔记
    Abstract存在的挑战:使用更深层次的基于图的CF架构有过平滑效应,会导致难以区分的用户表示和推荐结果的退化监督信号在现实中是稀疏和偏态分布的,限制了CF范式的表达能力提出了一种新的自监督框架超图对比协同过滤(HCCF),通过一个超图增强的交叉视图对比学习架构来联合捕获局部......
  • Linux基础命令笔记(黑马)
    Linux基础命令Linux常用快捷键ctrl+c:强制停止程序运行ctrl+d:退出用户登录或某些特定程序的专属页面(不能用于vim)!历史命令前缀:执行历史中最后使用带有该命令前缀的命令例:!p相当于python、!t相当于tailctrl+r:可输入历史命令关键字搜索到想要到命令,按回车直接执行,按左......
  • 关于javascript的一些笔记(一)
    在script标签内使用import的时候,必须在script标签加上type=“module”当使用script标签加上type="module"的时候,是当所有模块都加载进来才进行工作的,也就是如果html在script标签下面也是可以正常运行的,他是后解析的当使用script标签加上type="module"的时候,script标签里面......
  • 数位 dp 学习笔记(灵神模板)
      我谔谔,数位dp几年了还不会,学的都是些奇奇怪怪的写法,导致每次比赛遇到数位dp的题要么不会,要么写半天。灵神的数位dp模板其实很早就有看过,不过当时不是很理解递归的含义于是放弃了,最近重新来回来看发现还是递归好写,不仅简短而且基本都是一个框架,这就可以大大减少思考量,基......
  • 构建之法的读书笔记与读后感1
    概论软件工程中的概念,源程序,软件构建,需求分析,软件项目的管理,国际化和本地化。各种商业模式的介绍,提出了职业道德规范。“现在回头看本节开头的疑惑,答案就很清楚了,程序(算法、数据结构)是基本功,但是在算法和数据结构之上,软件工程决定了软件的质量;商业模式决定了一个软件企业的成败......
  • 2024 笔记类软件对比(非常主观)
    在线的离线的自用之后的体验主要关注易用性,持久性,价格敏感Logseq:软件在github上开源,文档都是本地的markdown文件形式。工作上用它记了差不多一年,双向链接功能很好用。card和画板功能我没怎么用。因为同步不方便/记录需要先组织好逻辑,逐渐放弃Notion:白嫖了一个教育plan,不......
  • 《程序员的修炼之道:从小工到专家》的阅读笔记
    《程序员的修炼之道:从小工到专家》是由AndrewHunt和DavidThomas合著的一本经典之作,以实用的方式探讨了成为卓越程序员的路径。以下是我对这本书的阅读笔记:首先,书中强调了“注重实践”和“不断学习”的重要性。程序员并非仅仅需要理论知识,更需要通过实践不断提升自己。书中提到......
  • 《人月神话》的阅读笔记
    《人月神话》是由美国计算机科学家弗雷德里克·布鲁克斯所著,是一本关于软件工程的经典之作。以下是我对这本书的阅读笔记:在《人月神话》中,布鲁克斯提出了一系列关于软件工程的深刻见解,主要围绕着软件项目管理和团队协作展开。书中最为著名的贡献之一是“人月神话”这个概念,即认为......
  • 《构建之法》的阅读笔记
    《构建之法》是一本由美国计算机科学家、软件工程师RobertC.Martin所著的书籍,主要探讨了软件构建的原则和实践方法。以下是我对这本书的阅读笔记:在《构建之法》中,Martin强调了良好的软件设计和构建的重要性。他提出的"SOLID"原则是书中的核心概念之一。这一原则分别代表了单一......