IT外包服务正通过智能监控从被动转向主动,这个过程把智能监控推到了标配的位置。随着数字化进程的推进,企业的IT系统变得越发复杂,传统工具已经不足以应对这种局面了。于是大家就需要更智能、覆盖更广的监控方案来应对。它能把基础设施、应用性能还有业务指标这些数据都拉通了看,把系统的全貌给你展示出来。这套系统不光能在出事前发现异常模式,还能预测接下来可能发生的问题。有个电商平台用了它以后成功预警了好几次大崩溃的危机,让运维人员提前做了准备。 以前的告警系统通常是等到问题出来了才反应过来,现在智能监控通过机器学习直接去挖掘异常的规律。对于做IT外包的服务商来说,有没有这套能力已经成了衡量专业程度的硬性标准。它还能给领导们做个可视化的运维大屏,让大家都能随时知道系统的状况。 实际上,智能监控算是AIOps的基础设施之一了,它彻底改变了运维人员的工作方式。重点是防患于未然,而不是事后补救。但要想让它好用起来,就得有高质量的数据支撑才行。部署这件事也很麻烦,得有专业的团队来搞定。 不过想要算清楚智能监控的ROI可不容易,它的准确性也得不停地优化才行。另外,怎么把它和业务指标挂起钩来也是个难题。告警策略得精心设计一番才行。数据存哪里得规划好。实时性得保证不能差。未来的扩展性也得提前考虑进去。可视化的展示效果还得再改改。告警该怎么升级还得走流程。故障定位的能力也得加强。还得先建立一套性能基线。趋势分析用什么算法好呢?异常识别又该用哪种模型呢?这些都是需要解决的问题。