AIOps平台关键部件

AIOps平台关键部件

解决方案goocz2025-01-16 10:20:5515A+A-

AIOps,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题

AIOps 指导原则

AIOps 能力分级

AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运维AI“学件”,再有多个具有AI能力的单运维能力点或学件组合成一个智能的运维流程,如智能化的监控预测及告警,免干预的自动化扩缩容,免干预的性能调优、免干预的成本组成调优等

AIOps 能力框架

AIOps平台关键部件

从众多大公司的IT运维实践中可以看到,一个企业级IT运营工具链的关键部件包括:监控生态系统、一个智能检测系统、一个工单与知识管理系统、一个自动化系统和一个数据湖

监控生态系统,提供可视化和创建跨物理和虚拟堆栈的日志收集能力。这些工具包括AppDynamicSolarwinds(网络安全管理软件产品。一个好的日志收集平台对于提升运维服务质量非常重要,但是过度负责的日志收集系统有时也会带来大量的数据噪声影响IT团队的工作效率


数据智能检测系统,降低数据噪音,实时将分析结果推送给相关运维人员。这是运营团队在响应运维事件时的第一选项。事实上,运用智能检测系统能够让你在第一时间知道系统内发生了哪些预料之外的问题,并且在最短时间内告诉你如何消除影响,通过应用机器学习和实时计算,智能检测系统可以做到早发现早响应,比如Moogsoft AIOps


工单与知识库,实现用户对IT需求的交互式响应,以及IT服务的文档化管理,通常我们用工单管理所有的问题单,并且会绑定资产库和服务目录以及案例库,从而实现知识积累和能力的不断提升。之类系统包括诸如ServiceNow和Jira

自动化系统可以根据具体事件自动应用脚本,以便减少繁重的重复性的劳动。常见的动作包括编排、运行库自动化和IT自动化。自动化系统包括ansible和Puppet等工具

最后,数据湖用于故障诊断、ad-hoc查询以及监控仪表盘。数据湖应包含所有与IT系统相关的数据和日志,数据湖对进行更深入的分析至关重要。数据湖工具包括Splunk版本和ELK


AIOps平台是IT运营的下一代解决方案

IT平台的复杂度和集成度将继续以指数级增长,而人的能力相对保持不变,从而变成制约业务发展的内在原因,而AIOps可以真正提升运维效率,提升洞察力,让运维人员关注真正需要关注的事情-用户满意度

产品

听云可以实现您的应用性能全方位可视化,从用户视角出发,全链路进行数据监测,帮助用户快速定位并解决问题,提升用户数字化运维能力

阿里云ARMS

实时洞察,即刻提升应用性能

从前端、应用至底层机器,ARMS 实时监控应用服务的每一次运行、每一个慢 SQL、每一个异常。ARMS 提供了完整的数据大盘监控,展示请求量、响应时间、FullGC 次数、慢 SQL 和异常次数、应用间调用次数与耗时等重要的关键指标,时刻了解应用程序的运行状况,确保向用户提供最优的使用体验


落地

AIOPS还没出现最佳的产品形态

时序指标派:选择这个路线的修真者前身大多都是做监控系统的,他们利用时序数据作为炼丹的原料,使出的招数包括单指标时序预测、多指标时序预测、单指标异常检测、多指标异常检测,还有一些大佬能使出高级招数,如 指标根因分析、指标因果推断、应用自动调参等

事件流派:选择这个路线的修真者采用文本型数据作为大阵的触媒,招数包括 事件降噪、事件发现、事件抑制。当然也会有一些高级招数,例如事件根因分析,异常事件发现、事件解决方案推荐等

知识派:这个流派认为基于知识图谱和知识库的智能运维机器人才是未来,通过使用知识检索、知识推理、等技术,结合运维知识库、这些基础数据,形成运维机器人,在原有ChatOps的基础上赋予AI的能力

点击这里复制本文地址 以上内容由goocz整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!

果子教程网 © All Rights Reserved.  蜀ICP备2024111239号-5