企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
* 速度快 * <ins>基于内存数据处理</ins>,比MR快100个数量级以上(逻辑回归算法测试) * 基于硬盘数据处理,比MR快10个数量级以上 * 易用性 * 支持Java、Scala、Python、R语言,在 Spark 的实际项目开发中多用 Scala 语言,约占 70%;其次是 Java,约占 20%;而 Python 约占 10%。 * 交互式shell方便开发测试 * 通用性 * 一栈式解决方案:批处理、交互式查询、实时流处理、图计算及机器学习 ![](https://img.kancloud.cn/bd/98/bd98514dc0ec80879ac82dd89d412053_945x232.png) * 多种运行模式 * YARN、Mesos、EC2、Kubernetes、Standalone、Local * Spark on Yarn 模式:在这一模式下,Spark 作为一个提交程序的客户端将 Spark任务提交到 Yarn 上,然后通过 Yarn 来调度和管理 Spark 任务执行过程中所需的资源。在搭建此模式的 Spark 集群过程中,需要先搭建 Yarn 集群,然后将 Spark作为 Hadoop 中的一个组件纳入到 Yarn 的调度管理下,这样将更有利于系统资源的共享。 * Spark on Mesoes 模式:Spark 和资源管理框架 Mesos相结合的运行模式。ApacheMesos与Yarn类似,能够将CPU、内存、存储等资源从计算机的物理硬件中抽象地隔离出来,搭建了一个高容错、弹性配置的分布式系统。Mesos 同样也采用 Master/Slave 架构,并支持粗粒度模式和细粒度模式两种调度模式。 * Spark Standalone 模式:该模式是不借助于第三方资源管理框架的完全分布式模式。Spark 使用自己的 Master 进程对应用程序运行过程中所需的资源进行调度和管理。对于中小规模的 Spark 集群首选 Standalone 模式。