什么是Spark?
Spark是大数据的调度,监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算 ,但对于在磁盘上运行的复杂应用程序,系统也比MapReduce更有效
2、Spark部署模式
2.1、独立模式
在独立模式下,Spark使用Master守护进程来协调运行执行程序的Worker的工作。独立模式是默认模式,Worker运行executor, 但不能在安全集群上使用。当提交应用程序时,可以选择其执行程序将使用多少内存,以及所有执行程序中的内核总数
2.2、yarn模式
在YARN模式下,YARN ResourceManager执行Spark Master的功能。 Workers的功能由运行执行程序的YARN NodeManager守护程序执行。 YARN模式设置稍微复杂一些,但它支持安全性。
3、Spark主要功能
多语言,速度,多格式支持,延迟执行,实时计算,Hadoop集成,机器学习
多语言:Spark提供Java,Scala,Python和R中的高级API .Spark代码可以用这四种语言中的任何一种编写。 它为Scala和Python提供了shell。 可以通过./bin/spark-shell进入Scala Shell和通过./bin/pyspark 进入Python shell
速度:Spark的运行速度比Hadoop MapReduce快100倍,适用于大规模数据处理。 Spark能够通过控制分区实现此速度。 它使用分区管理数据,这些分区有助于以最小的网络流量并行化处理分布式数据处
多种格式:Spark支持多种数据源,如Parquet,JSON,Hive和Cassandra。 Data Sources API提供了一种可插入的机制,用于通过Spark SQL访问结构化数据。 数据源不仅仅是简单的管道,可以转换数据并将其拉入Spark。
延迟执行:Apache Spark延迟执行,直到绝对必要。 这是促进其速度的关键因素之一。 对于transformations,Spark将它们添加到计算的DAG中,并且仅当驱动程序请求某些数据时,才会实际执行此DAG。
实时计算:Spark的计算是实时的,并且由于其内存计算而具有较少的延迟。 Spark专为大规模可扩展性而设计,Spark团队已经记录了运行具有数千个节点的生产集群的系统用户,并支持多种计算模型。
Hadoop集成:Apache Spark提供与Hadoop的兼容性。 Spark是Hadoop的MapReduce的潜在替代品,而Spark能够使用YARN在现有的Hadoop集群上运行资源调度。
机器学习:Spark的MLlib是机器学习组件,在大数据处理方面很方便。 它消除了使用多种工具的需求,一种用于处理,一种用于机器学习。 Spark为数据工程师和数据科学家提供了一个功能强大,统一的引擎,既快速又易于使用。
4、客户端模式
每个应用程序都有一个协调其执行的驱动程序进程 此过程可以在前台(客户端模式)或后台(群集模式)中运行。 客户端模式稍微简单一些,但集群模式允许在启动Spark应用程序后轻松注销,而无需终止应用程序。
独立客户端模式(client mode)下运行spark?
spark-submit \\\n \nclass org.apache.spark.examples.SparkPi \\
deploy-mode client \\
master spark//$SPARK_MASTER_IP:$SPARK_MASTER_PORT \\
$SPARK_HOME/examples/lib/spark-examples_version.jar
在独立群集模式(cluster mode)下运行spark
spark-submit \\class org.apache.spark.examples.SparkPi \\
deploy-mode cluster \\
master spark//$SPARK_MASTER_IP:$SPARK_MASTER_PORT \\
$SPARK_HOME/examples/lib/spark-examples_version.jar
在YARN客户端模式下(client mode)运行spark
spark-submit \\lass org.apache.spark.examples.SparkPi \\
deploy-mode client \\
master yarn \\
$SPARK_HOME/examples/lib/spark-examples_version.jar
在YARN集群模式(cluster mode)下运行spark
spark-submit \\class org.apache.spark.examples.SparkPi \\deploy-mode cluster \\
master yarn \\
$SPARK_HOME/examples/lib/spark-examples_version.jar
标签:生活,模式,寒假,examples,Spark,SPARK,spark,mode From: https://www.cnblogs.com/xiao-hong111/p/17963156