Livy系列- Livy的核心功能及模块概述

内容整理自:

  1. Apache Livy 实现思路及模块概述

Livy的核心功能点

  1. 通过http请求将任务发送到 Livy server
  2. Livy server端接收用户的请求, 并进行相应的路由去调用某个类的某个方法
  3. 鉴权(可以不开启)
  4. 根据任务请求启动 Spark应用服务
  5. 执行用户指定的任务,提供获取运行状态、获取运行结果、共享 SparkContext 以及被正常停止等能力
  6. 容错机制,任务能够从失败前状态恢复

模块概述

对应上面功能点可以归纳出以下几个模块:

  • Client
  • router
  • 权限管理
  • 生成 Spark App
  • 交互式 Driver(仅对于 session 任务有,batch 并没有)
  • 状态数据存储

image.png

router

Livy server 提供的 api 是 rest api,Client 发送的请求也是针对各个资源(uri)的增删改查。router 的核心职责是管理好要把对什么资源的什么操作指派给哪个类的哪个函数来处理。
该模块核心类是 SessionServlet,,有两个子类:InteractiveSessionServletBatchSessionServlet,分别用来路由对 session 及 batch 相关的请求

权限管理

权限由 AccessManager 类管理,维护了几种不同级别的 user:

  • superUser
  • modifyUser
  • viewUser
  • allowedUser

以及不用级别的 acl(访问控制列表):

  • viewAcls:superUsers ++ modifyUsers ++ viewUsers,对应查看权限
  • modifyAcls:superUsers ++ modifyUsers,对应修改权限(包括 kill 权限)
  • superAcls:superUsers,有所有权限
  • allowedAcls:superUsers ++ modifyUsers ++ viewUsers ++ allowedUsers,表示 acl 的全集

生成SparkAPP

对于 session 和 batch 的任务,生成 Spark App 的逻辑及最终生成的 Spark App 都是不同的

生成 batch 的 Spark App 涉及的主要类

  • SparkProcessBuilder:用于从 livyConf 中提取出运行一个 Spark App 所需的一切,包括 mainClass、executableFile、deployMode、conf、master、queue、env 及 driver 和 executors 的资源配置等等;并最终生成一条启动 Spark App 的 spark-submit 命令

  • SparkYarnApp:用来运行 SparkProcessBuilder 生成的启动命令,并监控管理启动运行起来的 Spark App,包括获取状态、日志、诊断信息、kill 等(目前 livy 只支持 local 和 yarn 两种模式)

生成 session 的 Spark App 涉及的主要类:

  • ContextLauncher:用于启动一个新的 Spark App(通过 SparkLauncher)以及获取如何连接到其 driver 的信息(地址、clientId 及秘钥)

  • RSCClient:与 Spark Driver 建立连接,向其发送创建、查看状态结果日志、修改statement、job 等请求并获取响应

交互式 Driver

核心类是 RSCDriver,其继承与 RpcDispatcher,RpcDispatcher 接收来自 RSCClient 发送的 rpc 请求,根据请求的类型调用 RSCDriver相应的方法去处理请求中包含的具体信息,对于最核心的执行代码片段(statement)请求,调用 repl/Session 去处理,repl/Session 最终会根据不同的 session kind 调用不同的 Interpreter 进行真正的代码执行.

状态数据存储

核心类是 StateStore,状态数据的存储都是以 key-value 形式,目前有基于filesystem文件系统Zookeeper 的实现。另外,SessionStore 继承了该类提供高阶 Api 来进行 sessions 的存储和恢复