IDCC2018|民生银行毕永军：智能运维处于1.0阶段，要从痛点出发

发布时间：2018-12-13 23:17:10 所属栏目：云计算来源：中国IDC圈

导读：中国IDC圈讯 12月11日-13日，由中国IDC产业年度大典组委会主办，中国IDC圈、CloudBest承办的以赋能企业数字化转型为主题的第十三届中国IDC产业年度大典（简称IDCC2018）在北京国家会议中心隆重召开。 13日上午，IDCC2018分论坛智能运维安全论坛正式召开！

要解决这些挑战怎么去做？我们也做了一些思考，一，智能运维本身还处于初级发展阶段，现在还没有成熟，我们想的第一个就是场景驱动，重点解决运维当中的痛点问题，可能有一个痛点问题让我们觉得头疼，就会有动力去解决这个问题，我们就做这样的场景，要做场景服务。第二点，有了场景之后，数据怎么来？怎么去做加工？我们提到运维数据中台，这两年中台的概念特别火，我们搞了运维数据中台，之前已经建立了比较完善的工具，我们需要中台系统能够把数据进行收集，存储，整理起来，变成一个标准化的数据体系。另外，我们把一些标准的算法放到中台上去。第三，需要组建一些敏捷团队，首先要有懂运维的业务，得知道运维业务是怎么做的，还要懂数据，懂算法，还得懂开发，你要落地，说了半天最后人家等着用，发现三个月啥事都没有，这个事就凉了，所以就需要快速交付，我们要建立虚拟化的敏捷团队来解决这样的问题。

数据治理，我们搭了数据平台之后，上面是大家都在做的一些事情，其实我们在建立数据这块，原来数据中心都是标准化的，建立了几年成效也不算太好，究其原因还是消费场景太少，用得不够多，做数据治理的时候还是从需求驱动，拉动的方式，需要什么样的数据我给你加工什么样的数据，当然也有标准化的数据，我们做了数据建模，标准层按照标准做了28种计算模型，把有些数据按照这个体系建了四大体系，比如运维工单的数据，比如监控数据，性能数据，这个类别是比较相近的，分成四个体系。在运维数据中台上，对数据进行了一定的加工，便于做数据应用的时候可以很方便的获取标准化的数据。

再看看我们这个组织，这是我们现在的组织情况，下面是支撑的工具平台，我们去做这个东西的时候会发现在数据中心内部，同样存在着数据管理的问题。各个中心之间还有一些隔阂，信息的交流，透明程度，还远远没有那么高，确实存在这样的问题。我们要做智能运维就要打通，刚才讲了建立虚拟团队，按照项目的方式去组织虚拟团队，智能运维的项目，在数据中心层面下有领导挂帅，驱动数据中心的人一起参与进来，组织上的支撑也是很关键的，我们对数据模型算法和算力方面提供支持。我们还有运维工程师，运维开发工程师，还培养智能运维工程师，做算法开发。结合上面的智能运维的产品，结合我们的痛点和需求，我们做了几块，一个是智能故障的发现与分析，还有智能运维机器人，还有对运营数据的支持。我们发现人才很缺，我们和清华大学智能运维实验室进行合作，他们给我们提供一些培训，对算法上也有合作的开发。通过这个过程，我们发现效果也不错，一方面他们有他们的成果，但是他们缺场景，可以跟我们的场景结合起来。通过培训我们自己的人也掌握了这个能力，可以自己来做开发了，自己做算法开发。

这是我们大概的平台架构，现在数据中心目前都是双态的结构，有不同的工具，中间的数据运维平台解决数据模型，算法和算力的问题，同时数据中台对上提供服务接口，还有展示层去做开发。平台搭建大多数是基于开源的技术，也是契合国家要求的自主可控，我们底层的大数据平台是一起的。

下面简单讲一些场景，一个就是可视化，怎么做可视化？我们系统的情况也要做感知，我们应用系统放到显示屏上，对接了所有告警的数据，交易性能的数据都对接上去，包括系统架构图，整个呈现在上面。我们运行人员可以感知到系统的情况，如果某些情况出现问题，就看关联系统是什么，有哪些报警，都可以直观的呈现出来。

我们大概分三步，一个是故障发现，一个是故障定位，一个是故障解决，还有智能异常检测，自动故障定位，调用链路分析，底层就是用到的一些数据，基于网络流量的交易监控的指标，CMDB的数据，机器的监控指标，基于流量镜像的交易信息数据。

这是智能异常检测，我们和清华大学合作，2018年做了无监督的算法，对相似指标做了定位，因为我们系统非常多，要求还是很高的，算法整体上做了一些优化，平均的时间是1.5秒，把我们52套系统400多个业务指标进行异常检测，重点是关注业务，整体来看出了问题之后提高的有效率还是不错的。

故障定位，以前也做过，现在是我们机器学习，就是看指标异常不异常，我们指标非常多，我们可以加人，把异常的指标出来，人再去判断一下。故障出现前后的时间，我们利用这段时间，6.5分钟就可以算出异常的指标，右下角就是同时出现异常的情况，方便我们可以进一步排查。

调用链路分析，我们可以获得直观的呈现图，拿出一个系统来，其他系统调用都可以呈现出来，在日常运维过程中用得挺多的，可以去判断哪个系统有问题。

举一个案例，仪表盘报警了，我们做故障检测，形成这么一个图，发现这个系统都调其中一个系统，因为所有系统一起出问题的概率是很低的，我们去看这个问题的时候，通过我们刚才讲到的异常检测，会发现排名比较靠前的，最后发现就是这个问题，进程宕掉了，某一个数据库节点出问题了，这个筛选了2700多个指标，一起找出原因，效果还是不错的。

现在系统比较复杂，中间这个业务可能很多时候没有不能像以前的强一致性，我们要进行分析，看具体哪个交易出问题了，看本身的调用链路的耗时，也可以对接到日志平台，看当时日志的输出来进行判断，把我们的故障发现和处理的过程可以串接起来。还有日志检测，咨询机器人等等，就不一一讲了。

关于智能运维的思考，通过我们一年多的实践，运维数据的治理是非常重要的，只有规范集中的数据才能发挥最大的价值。就像人脸识别一样，拍的象素很低，让算法去识别，跟清晰度很高的效果绝对是不一样的。我们的智能运维还处于1.0阶段，我们要从痛点出发。我们认为大数据分析和可视化仍然有很多地方可以做，通过大数据分析跟可视化，可以给我们运维带来非常大的价值。

这是Gartner今年的技术成熟度的曲线，可以看到还处于前期探索的阶段，还有5到10年的时机，还是大有可为的，应该持续的投入。

（编辑：厦门网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

涌向云计算的速度赶超	十分钟完全理解 Redis
百度智能云启动新用户	成功开展云迁移的12个