首页 > 其他分享 >【Spark】Spark基础教程

【Spark】Spark基础教程

时间:2023-09-12 19:31:35浏览次数:43  
标签:基于 并行计算 内存 基础教程 速度 Spark 执行

Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。

Spark特点

Spark具有如下几个主要特点:

  • 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍;

标签:基于,并行计算,内存,基础教程,速度,Spark,执行
From: https://blog.51cto.com/chengzheng183/7447692

相关文章

  • Spark基础——scala基础1.0
    定义对象和强制转化1.定义规则var变量名:变量类型=初始值vari:Int=10varj:Double=3.33//var变量名:变量类型=初始值valo:Int=2//val常量名:变量类型=初始值变量声明时,必须要有初始值i=20//var修饰的变量可以改变,val则不可改变varl=3.33valp="......
  • Iceberg从入门到精通系列之十五:Spark集成Iceberg
    Iceberg从入门到精通系列之十五:Spark集成Iceberg一、下载Spark安装包二、解压Spark安装包三、配置环境变量四、激活环境变量五、下载Sparkiceberg的jar包六、Spark集成Iceberg七、Spark配置Catalog八、配置HiveCatalog九、配置HadoopCatalog十、spark集成hive十、启动Sparkshe......
  • Zeppelin起Spark任务报错:RECEIVED SIGNAL TERM
    Zeppelin起Spark任务报错:RECEIVEDSIGNALTERM解决方法如下所示:调大spark任务资源exportSPARK_SUBMIT_OPTIONS="--driver-memory4G--executor-memory4G--driver-cores2--executor-cores2--num-executors20--confspark.sql.shuffle.partitions=1000--confspark.......
  • zeppelin设置spark的启动参数
    zeppelin设置spark的启动参数vimzeppelin-env.shexportSPARK_SUBMIT_OPTIONS="--driver-memory4G--executor-memory4G--driver-cores2--executor-cores2--num-executors10--confspark.sql.shuffle.partitions=1000--confspark.default.parallelism=300......
  • spark2.4.4安装
    1、环境准备:下载spark-2.4.4-bin-hadoop2.7.tgz上传安装包到Linux中解压安装包tar-zxf spark-2.4.4-bin-hadoop2.7.tgz-C/hadoop/app2、配置环境2.1修改hadoop中yarn-site.xml<property><name>yarn.nodemanager.pmem-check-enabled</name><value>f......
  • 开发笔记-大数据技术栈-spark基础
     Spark是一个快速、通用、可扩展的大数据分析引擎,是集批处理、实时流处理、交互式查询、机器学习与图计算为一体的大数据开源项目。 一、对比MapReduce1.Hadoop中的job处理流程:》从hdfs读取数据》在map阶段,执行mapperfunction,然后split到磁盘》在reduce阶段,从各个map......
  • CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark
    ApacheHudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类,它简化了流式数据入湖并存储为Hudi表的操作,自0.10.0版开始,Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力,这使得其可以直接将Debezium采集的CDC数据落地成Hudi表,这一功能极大地简......
  • pyspark学习
    frompysparkimport*frompyspark.sqlimportSparkSessionfrompyspark.sqlimportfunctionsasfimportjsonimportosfrompyspark.sql.typesimportStructType,IntegerType,StringType#os.environ['HADOOP_CONF_DIR']='/export/server/h......
  • 第01章-Spark SQL简介和常用语句
    第01章SparkSQL简介和常用语句21.1表21.1.1什么是SparkSQL中的表21.1.2内部表和外部表21.1.3视图31.1.4查看表描述31.2分区和分桶31.2.1什么是SparkSQL的分区(partition)31.2.2什么是SparkSQL的分桶(bucket)41.3写入数据51.3.1通过create写入数据51.3.2通过in......
  • 图解Spark Graphx基于connectedComponents函数实现连通图底层原理
    原创/朱季谦第一次写这么长的graphx源码解读,还是比较晦涩,有较多不足之处,争取改进。一、连通图说明连通图是指图中的任意两个顶点之间都存在路径相连而组成的一个子图。用一个图来说明,例如,下面这个叫graph的大图里,存在两个连通图。左边是一个连接图,该子图里每个顶点都存在路......