分布式定时任务框架Dkron使用指南

dkron是使用golang写的一个分布式定时任务框架，作者称是因为受到google的Reliable Cron across the Planet的启发写的；

特性：

遇到的问题：

其中我们主要的使用方式为定期对任务进行调度

在使用的过程中，有用户频繁手工触发训练和检测，导致那个时间段内出现任务无法正常调度的情况，短则十几分钟，长则一个小时，影响线上服务稳定性；

线上的运行图

通过读代码，了解了dkron的整体架构

dkron架构图

以上是一个dkron架构的简略图，它有如下一些设计要点

每个Agent就是一个运行的实例
每个Agent大概包括三个组成部分
1. store是用来和数据库交互的模块
2. serf是用来在实例直接传递消息的，主要是分发定时任务到节点上
3. sched是调度器，用来驱动定时任务的执行，一旦时间点到了之后就通过serf发送执行任务的消息到集群中
每个Agent可以标记自己是否为server，只有sever才会运行sched调度器，纯agent只被动接收server发过来的广播信息，来执行任务
集群的选主是通过etcd的分布式锁实现的

添加任务/修改任务/删除任务的过程

基于以上设计，每次的对任务进行CUD都会造成重启scheduler，当一段时间密集的进行任务的CUD的时候，会造成scheduler一直在重启，没有时间执行任务；

这么设计好处在于可以保证scheduler内存中的数据始终保持和store中的一致，减少管理的复杂度；

打个比喻来说，这种设计方式可以理解为飞机开着的时候不允许上下乘客，必须降落才能上下乘客，我们遇到的问题是乘客不断上下飞机，导致飞机刚起飞就必须降落来拉乘客，所以飞机一直飞不远，为了解决这个问题，我们需要让飞机支持一边飞还可以上下乘客；

具体方式就是在添加任务/修改任务/删除任务的时候一方面修改store中的值，一方面修改scheduler内存中的任务，从而达到目的;

经过一段时间的运行，可以看到scheduler次数大大减少，再也没有出现过任务无法调度的情况。