首页 > 其他分享 >寒假生活

寒假生活

时间:2024-01-13 22:56:56浏览次数:21  
标签:生活 模式 寒假 examples Spark SPARK spark mode

什么是Spark?

     Spark是大数据的调度,监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算 ,但对于在磁盘上运行的复杂应用程序,系统也比MapReduce更有效

2、Spark部署模式

2.1、独立模式

  在独立模式下,Spark使用Master守护进程来协调运行执行程序的Worker的工作。独立模式是默认模式,Worker运行executor, 但不能在安全集群上使用。当提交应用程序时,可以选择其执行程序将使用多少内存,以及所有执行程序中的内核总数

2.2、yarn模式 

在YARN模式下,YARN ResourceManager执行Spark Master的功能。 Workers的功能由运行执行程序的YARN NodeManager守护程序执行。 YARN模式设置稍微复杂一些,但它支持安全性。

3、Spark主要功能

多语言,速度,多格式支持,延迟执行,实时计算,Hadoop集成,机器学习

多语言:Spark提供Java,Scala,Python和R中的高级API .Spark代码可以用这四种语言中的任何一种编写。 它为Scala和Python提供了shell。 可以通过./bin/spark-shell进入Scala Shell和通过./bin/pyspark 进入Python shell

速度:Spark的运行速度比Hadoop MapReduce快100倍,适用于大规模数据处理。 Spark能够通过控制分区实现此速度。 它使用分区管理数据,这些分区有助于以最小的网络流量并行化处理分布式数据处

多种格式:Spark支持多种数据源,如Parquet,JSON,Hive和Cassandra。 Data Sources API提供了一种可插入的机制,用于通过Spark SQL访问结构化数据。 数据源不仅仅是简单的管道,可以转换数据并将其拉入Spark。

延迟执行:Apache Spark延迟执行,直到绝对必要。 这是促进其速度的关键因素之一。 对于transformations,Spark将它们添加到计算的DAG中,并且仅当驱动程序请求某些数据时,才会实际执行此DAG。

实时计算:Spark的计算是实时的,并且由于其内存计算而具有较少的延迟。 Spark专为大规模可扩展性而设计,Spark团队已经记录了运行具有数千个节点的生产集群的系统用户,并支持多种计算模型。

Hadoop集成:Apache Spark提供与Hadoop的兼容性。 Spark是Hadoop的MapReduce的潜在替代品,而Spark能够使用YARN在现有的Hadoop集群上运行资源调度。

机器学习:Spark的MLlib是机器学习组件,在大数据处理方面很方便。 它消除了使用多种工具的需求,一种用于处理,一种用于机器学习。 Spark为数据工程师和数据科学家提供了一个功能强大,统一的引擎,既快速又易于使用。

4、客户端模式

       每个应用程序都有一个协调其执行的驱动程序进程 此过程可以在前台(客户端模式)或后台(群集模式)中运行。 客户端模式稍微简单一些,但集群模式允许在启动Spark应用程序后轻松注销,而无需终止应用程序。

独立客户端模式(client mode)下运行spark?

spark-submit \\\n \nclass org.apache.spark.examples.SparkPi \\

deploy-mode client \\

master spark//$SPARK_MASTER_IP:$SPARK_MASTER_PORT \\

$SPARK_HOME/examples/lib/spark-examples_version.jar

在独立群集模式(cluster mode)下运行spark

spark-submit \\class org.apache.spark.examples.SparkPi \\

deploy-mode cluster \\

master spark//$SPARK_MASTER_IP:$SPARK_MASTER_PORT \\

$SPARK_HOME/examples/lib/spark-examples_version.jar

在YARN客户端模式下(client mode)运行spark

spark-submit \\lass org.apache.spark.examples.SparkPi \\

deploy-mode client \\

master yarn \\

$SPARK_HOME/examples/lib/spark-examples_version.jar

在YARN集群模式(cluster mode)下运行spark

spark-submit \\class org.apache.spark.examples.SparkPi \\deploy-mode cluster \\

master yarn \\

$SPARK_HOME/examples/lib/spark-examples_version.jar 

标签:生活,模式,寒假,examples,Spark,SPARK,spark,mode
From: https://www.cnblogs.com/xiao-hong111/p/17963156

相关文章

  • 大三寒假学习进度笔记4
    今日学习时间两小时,开始学习RDD的内容,学习了RDD的创建和RDD算子的定义分类RDD学习:RDD五大特征:RDD是有分区的分区是RDD数据存储的最小单位计算方法会作用到每一个分区上RDD之间是由相互依赖的关系的KV型RDD可以有分区器KV型RDD:存储的数据是二元元组RDD分区数据的读取会尽......
  • 1.13寒假每日总结4
    今天,主要尝试了在java中调用已有的python脚本并输出相关信息。 参考:百度文心一言的回复。 packagetest0113;importjava.io.*;publicclasstest{publicstaticvoidmain(String[]args){try{//指定Python解释器的路径......
  • 寒假生活指导05
    今天继续完成实验4.实验报告题目:SparkStreaming编程初级实践姓名 日期2024.1.13实验环境:操作系统:Ubuntu16.04Spark版本:2.1.0Flume版本:1.7.0实验内容与完成情况:Flum安装(1)解压安装包tar-zxvfapache-flume-1.7.0-bin.tar.gz-C/export/s......
  • 寒假总结三
    今天复习了一下正交实验法,取最少的实验用例来完成测试。主要是有一个实验正交表需要进行对比。  交表例如L9(34),表1-1,它表示需作9次实验,最多可观察4个因素,每个因素均为3水平。一个正交表中也可以各列的水平数不相等,我们称它为混合型正交表,如L8(41×24),表2-1,此表的5列中,有1列为4......
  • 生活有感(一)
    今早车子又过了一把瘾和刺激。总是担心生活太过平静,而想找点刺激。可是在公路上,自己宁可不找刺激。生活总会时不时给点自己“刺激”,如果自己不够的话,不能在大马路上找。一定要慢。有些地方不能侵犯,生活中决不能在马路上逞英雄和马虎。在某些地方,某些时刻,存在某些人开车抢时间,各种因......
  • 如何将数据可视化应用在我们的日常生活中?
    在这个信息爆炸的时代,我们周围充斥着各种数据,而数据可视化正是一种强大的工具,帮助我们更好地理解和利用这些信息。那么,如何将数据可视化应用在我们的日常生活中呢?让我们一起探索这个引人入胜的话题。数据可视化概述首先,让我们简单了解一下数据可视化的概念。数据可视化是将抽象......
  • 数据可视化是通过什么方式走进我们生活中的?
    数据可视化是如何通过多种方式走进我们生活的呢?它不仅仅是冰冷的数字和图表,更是一门让信息跃然纸上的艺术。让我们一同探讨数据可视化如何以多种方式渗透进我们的日常生活,为我们呈现丰富而生动的信息画卷。下面我就以可视化从业者的角度来简单说说这个话题。数据可视化以图表的......
  • 寒假生活指导03
    今天继续rddd练习:frompysparkimportSparkConf,SparkContext#创建sparkconf对象conf=SparkConf().setMaster("local[*]").setAppName("test_app")#基于sparkconf对象创建sparkContext对象sc=SparkContext(conf=conf)##########基本结构#map计算#rdd=sc.parall......
  • 寒假生活指导02
    今天学习了rdd的过滤和去重:frompysparkimportSparkConf,SparkContext#创建sparkconf对象conf=SparkConf().setMaster("local[*]").setAppName("test_app")#基于sparkconf对象创建sparkContext对象sc=SparkContext(conf=conf)##########基本结构#map计算#rdd=s......
  • 生活常识-物品辩真假
    前言全局说明生活常识内容来源于网络,个体差异,如有不适,请到正规医院就诊一、白酒辩真假白酒加入食用油:酒精酒:全部漂浮在白酒之上粮食酒:和酒混合,筷子搅动也融合来源:微信视频号“品酒师莹莹”二、三、四、免责声明:本号所涉及内容仅供交流学习,如出现......