🔥码云GVP开源项目 12k star Uniapp+ElementUI 功能强大 支持多语言、二开方便! 广告
## Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景? 1)Spark core:是其它组件的基础,spark的内核,主要包含:有向循环图、RDD、Lingage、Cache、broadcast等,并封装了底层通讯框架,是Spark的基础。 2)SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kafka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,将流式计算分解成一系列短小的批处理作业。 3)Spark sql:Shark是SparkSQL的前身,Spark SQL能够统一处理关系表和RDD,可使用SQL命令进行外部查询,同时进行更复杂的数据分析。 4)MLBase是Spark生态圈的一部分专注于机器学习。MLBase分为四部分:MLlib、MLI、ML Optimizer和MLRuntime。 5)GraphX是Spark中用于图和图并行计算 6)集群管理器 :Spark支持在各种集群管理器(cluster manager)上运行,包括Hadoop的YARN、Apache的Mesos以及Spark自带的一个简易调度器,叫独立调度器。