IT运维(ITOM)在国外是一个成熟的领域。过去成长了很多独角兽公司,包括众所周知的市值数千亿美元的ServiceNow,还有后起之秀DataDog和Splunk。
相比之下,中国的IT运维市场也在这两年进入了快速发展阶段。前瞻产业研究院数据显示,2012-2019年,中国IT运维市场规模呈现波动趋势。从增速来看,2014年达到了近年来的最高增速17.34%,达到了1121.2亿元的市场规模。2019年,中国IT运维市场规模达到2324.3亿元,同比增长15.73%。2020年,中国IT运维市场规模将达到2690亿元。
中国创业者也在用过去十年的实践向外界传递这样一个信号:无论是专注于应用性能监控(APM)、日志分析、CMDB(运维管理平台)还是构建智能运维服务(AIOps),IT运维领域的竞争焦点正开始从单点同质产品向传统、政企行业转变,以用户为中心,为用户提供全生命周期的服务。
在这个格局中,既有以云志、青创科技、听云为代表的创新型企业,也有阿里巴巴、腾讯、百度、平安科技开发的产品线。
那么,如何打造全栈IT运维的技术“模型”呢?实现这个方案有什么困难?
银行投诉引发的思考
2018年,某银行VIP客户在使用其系统办理资金转账操作时,出现异常死机和无法登录的问题。这个略显不愉快的经历,让这位VIP直接把诉状交到了当时银行里的高层。但内部调查结果反馈显示,IT部门在监控过程中未发现任何异常。
实际上,由于用户手机型号和系统版本造成的兼容性问题,用户的网络接入问题,内存问题等。,可能是导致应用崩溃的罪魁祸首。
然而,这种对应用崩溃的多种可能性“无所适从”的感觉,让IT部门立即决定建立一个KPI:将应用崩溃率降低到千分之五。
后来这家银行的客户通过第三方服务商给出的解决方案,搭建了一个以用户视角的监控平台,以嵌入式SDK的方式,对真实用户的完整对话进行全量的采集和分析,如对话开始时间、设备型号、OS、地区、城市、IP地址、设备ID等维度,定位问题根源。最终,App崩溃率从2018年合作之初的8%下降到一年后的0.4‰,现在已经下降到3 ‰
就金融行业而言,他们已经有了非常成熟的数字化实践体系,也不乏对自身业务理解和适用性更强的IT运维管理体系。但从代码到用户从终端用户的角度构建一个应用监控平台,类似的场景和应用实践在之前并不成熟。
首先是海岛监控。在企业数字化的过程中,在不同的阶段建设了各种类型的监控平台。由于没有系统的规划,一系列工具无法形成有机的结合,往往导致系统一旦出现问题,很难在第一时间找到问题的原因。
其次,IT建设与业务目标脱节。企业业务的发展往往以业务和用户价值为导向,但在IT建设初期,往往建立在资源和服务器的可用性上。导致IT运维在后台做了大量的用户体验优化,却没有直观的数据和指标来衡量。
第三,AIOps的不成熟。目前很多企业做了很多承诺,但是真正落地的时候发现效果很差。一种是交互算法厂商,但是不具备数据收集和数据关联的能力。二是工具型监控厂商只能在本地落地,对实际业务的作用比较小。
第四,新技术监控的可视性不足。以云原生微服务技术为例。该技术封装了底层技术设施,使得系统运维所关注的信息不可见。这个时候业务只能上上层,以用户的视角作为运维体系。
第五,敏捷性不足。与产品RD需求的迭代速度不同,运维是对系统稳定性和最小改动的追求,这就导致it监控系统与DevOps的敏捷理念产生了极大的冲突。
事实上,目前的仪器化监控系统已经不能满足企业的运维需求。
集成运维已经在进行中
博瑞数据成立于2008年,2020年8月在科技创新板证券交易所上市。作为企业监控应用性能(APM)服务商,服务过腾讯、阿里巴巴、招商银行、华为、中国移动、平安等众多客户。
目前博瑞数据也和阿里云、腾讯云保持一定的合作背景,但问题是金融行业也是云厂商渗透的主要领域,客户业务都在云上。直接使用云厂商的运维监控服务可能更屌丝,也可能成为云厂商销售时的配套服务。另外,有些客户担心供应商锁定的问题,不希望自己的技术栈被锁定在某个供应商。
博瑞数据产品部高级总监孙立对钛媒体App表示,“目前云厂商自身的监控方案并不完善和成熟。基本上是基于底层度量,相关的监控能力主要是多产品组合拼凑而成,系统性较差。除非客户基于某一种云自上而下搭建自己的服务体系,否则只能使用云监控产品。一旦涉及混合云和多云管理,将进一步增加监控的隔离性。”
不久前,博瑞数据推出了集成智能可观测平台ONE,这是基于去年数据链DNA+的再次升级,也是博瑞数据自2020年上市以来最大的一次战略发布。
据了解,ONE平台从ITOM统一监控、AIOps智能运维、BizOps业务运营、DevOps效率提升四大应用场景出发,通过从代码到客户的全数据链DNA采集能力,结合大数据和AI能力,实现从传统产品工具到平台+架构的转变,构建以用户为中心的新型运维体系。
在孙立看来,“一个平台的跨平台、云无关属性恰恰是我们的优势。客户一旦要迁移到云上,就需要重新构建运维监控系统,成本很大,甚至会影响业务稳定性。基于中性的产品可以在任何地方部署和运行,而不管底层环境如何。”
博瑞数据目前主要面向互联网、金融、政企等大B客户,主要以定制和能力共建的形式提供服务。对于中小企业客户,基于其IT成熟度和实际业务量,博瑞数据希望ONE平台能够促进中小企业客户对集成工具的需求。
云原始时代的可观测性机会
与以往提到的监控技术不同,云原生时代基于微服务和容器化应用部署模式的改变,封装底层技术设施,尽量不让客户感知底层资源和环境,只关注向上的业务发展,导致系统运维关注的信息不可见。这也给了监测技术一个新名词:可观测性技术。
企业可观察的视野不再局限于应用,而是需要从全局角度洞察混合it基础设施、数据源、网络、云和边缘终端的应用状态,从而更加主动、自动、智能地提升企业运维的效率。
可观测性技术作为一个新兴的技术概念,在应用中不可避免地存在诸多困难,但不可否认的是,它已经成为各大创业公司甚至大云计算公司的关注点,比如阿里云的arm、腾讯云的TAPM、字节火山的APMPlus等等。
Gartner预测,到2024年,30%的企业将通过可观测技术提高数字业务的运行绩效,比2020年的10%高出3倍。
在这场技术赌注的背后,大家都在暗地里试图抢夺下一阶段的云原生时代红利。
(本文作者|杨力,编辑|盖宏达)
更多精彩内容,关注钛媒体微信号(ID: taimeiti),或下载钛媒体App