Apache Spark是一个开源的分布式计算框架,拥有四大显著特点:
1. **速度快**:Spark基于内存的运算效率要快100倍以上,基于硬盘的运算效率也要快10倍以上。其先进的DAG调度程序、查询优化程序和物理执行引擎,使得Spark能高效处理数据流。
2. **易用性**:Spark支持Java、Python、Scala及R语言编程,还拥有超过80种高级算法。同时,它也支持交互式的Shell操作,开发人员可以在Shell客户端中方便地使用Spark集群解决问题。
3. **通用性**:Spark提供了统一的编程模型,并支持多种数据处理场景,包括批处理、流处理、机器学习和图处理等。
4. **随处运行**:除了可以运行在本地模式下,Spark还可以在云中运行,并且可以无缝地与其他大数据生态系统(如Hadoop)进行集成。
标签:Shell,运算,编程,特点,四大,Spark,运行 From: https://www.cnblogs.com/daitu66/p/17956824