首页 > 数据库 >SparkSQL与RDD的选择?

SparkSQL与RDD的选择?

时间:2024-03-21 19:58:36浏览次数:543  
标签:结构化 数据 选择 RDD SparkSQL 原始数据 schema

        对当下的企业级数据应用来说,SparkSQL的应用空间肯定要比单纯的写RDD处理大很多,因为SparkSQL比RDD好写的多,也更贴近业务需求和更友好的能处理数据,而且技术门槛也更低。

        但RDD是Spark中所有的数据抽象的基础,最大的特点是对开发者而言暴露的是不带schema的原始数据,如果当前要处理的业务数据刚好是一些非结构或者半结构化的格式,比如用户的网络行为日志数据,因为数据长度不固定、字段个数也不固定,那么就没有办法给他确定固定的schema这个时候就根本无法用SQL的,必须通过算子对其进行各种逻辑判断与转换才能将这个数据给洗成一个规整的后续业务可用的结构化数据集,而这个过程最简单高效的方式就是使用RDD(API接口),而如果使用DataFrame或DataSet他会把这个数据强行赋予一个默认的schema,开发人员还得额外多一个步骤把这个原始数据从中给提取出来反而变的不方便,所以RDD对于某些场景下而言依然有优势。

标签:结构化,数据,选择,RDD,SparkSQL,原始数据,schema
From: https://blog.csdn.net/2301_79551573/article/details/136917988

相关文章

  • 如何选择一款合适的安全运维工具?
    运维工作的核心目标就是保障业务系统的安全、稳定。因此在运维工具的选择上极其谨慎。在厘清自身需求的前提下,需要软件满足企业降本增效的目标。我们从风险管理、效率提升和成本控制方面介绍,帮助企业选择最佳运维软件。风险管理--将日常风险降至最低我与系统相安无事,这是理......
  • 深入理解 CSS:基础概念、注释、选择器及优先级
    在构建网页的过程中,我们不仅需要HTML来搭建骨架,还需要CSS来装扮我们的网页。那么,什么是CSS呢?本文将带大家了解css的基础概念,注释、选择器及优先级。一、CSS简介1.1什么是CSSCSS,全称为CascadingStyleSheets(层叠样式表),是一种用于描述网页上的信息格式化和显示方式的语言。它的......
  • CSS样式表 样式优先级 选择器以及选择器的权重优先级
     CSS组成    css由选择符和声明组成,声明又分为属性和属性值    属性必须放在花括号里面,属性与属性值必用冒号连接    每条声明用分号结束    当一个属性有多个属性值的时候,属性值与属性值部分先后顺序,用空格隔开    在书写样......
  • C++标准库容器选择
    C++标准库提供了多种容器,每种容器都有其自身的特点和适用场景。以下是C++标准库中常用的容器以及它们的特点:std::vector:动态数组,支持随机访问,适用于需要快速随机访问元素的场景。std::list:双向链表,支持快速插入和删除操作,适用于需要频繁插入和删除元素的场景。std::deque......
  • ACCESS 关于使用VBA选择路径时提示"方法'FileDislog作用于对象'_Application’时失败"
    以下是源码:PrivateSubCommand0_Click()'打开文件选择对话框WithApplication.FileDialog(msoFileDialogFilePicker).AllowMultiSelect=False.Filters.Clear.Filters.Add"Excel文件","*.xls;*.xlsx",1I......
  • golang vs python 应用项目语言选择
    目录1.语言选择2.python语言特点及应用场景2.1语言特点1.简单2.易于学习3.自由且开放4.丰富的库5.互动模式6.跨平台性7.可扩展8.数据库9.可嵌入10.高级语言2.2应用场景Python在系统编程中的应用Python在网络爬虫方面的应用Python在人工智能、科学计算中的应用Python在WEB开发中......
  • 计算机选择题真题(大全)
    计算机系统(132)计算机完成一条指令所花费的时间称为一个(指令周期)顺序程序不具有(并发性)总线带宽是指总线的(数据传输率)一进程已获得除CPU以外的所有所需运行资源,经调度分配CPU给它后,该进程将进入(运行状态)CPU芯片内部连接各元件的总线是(内部总线)如果一个进程在运行时因某种原因......
  • 冒泡、选择排序;二维数组;函数三要素,形参实参
    冒泡排序法012max08,12,13,98,12,13,98,12,9,131318,12,98,9,121228,993第一轮从前往后两两比较,4个元素比较3次,得出最大值为13。第二轮,3个元素比较2次,最大值为12。第三轮,2个元素比较1次,最大值为9。通过简单较少的数据推导得出结论,i个元素需要比较i-1轮,第j轮需要比较i-1......
  • 01-CSS基础(选择器)
    一、css基本语法1、CSS概述CSS指层叠样式表(CascadingStyleSheets)样式定义如何显示HTML元素样式通常存储在样式表中把样式添加到HTML4.0中,是为了解决内容与表现分离的问题外部样式表可以极大提高工作效率外部样式表通常存储在CSS文件中多个样式定义可层叠为一个......
  • 选择题题库(含参考答案)100题
    题目选项A选项B选项C选项D答案所属章节CAI是()的英文缩写.A:计算机辅助教学B:计算机辅助设计C:计算机辅助制造D:计算机辅助管理A第1章CAI是指().A:系统软件B:计算机辅助教学C:计算机辅助设计D:办公自动化系统B第1章CAM软件可用于计算机().A:辅助制造B:辅助测试C:辅助教学D:辅助......