AIOpsLab指的是一个专注于智能运维的实验平台。
由微软公司、加州大学伯克利分校、伊利诺伊大学香槟分校以及微软研究院联合开发的AIOpsLab是一个用于构建、评估及优化云计算运营中AI运维代理原型框架的工具。该框架采用模块化结构,结合了应用程序模拟器、负载生成和故障注入机制,以仿真真实的生产环境场景。它通过代理-云接口(ACI)提供一套标准API供各种代理使用,并支持从检测问题到确定根本原因及实施补救措施的整个运维周期管理。AIOpsLab具备高度的数据可观测性功能,能够收集多层次的操作遥测数据,从而为AI运维工具的有效评估提供了丰富的环境信息背景,有助于增强云服务自身的维护和自我修复能力。该框架适用于各种规模和时间跨度下的运营需求。
AIOps实验室的核心特性
- 采用分块式构造方法采用模块化设计,能够轻松整合并拓展各类应用软件、负载发生器及故障模拟组件。
- 代表性的云端交互界面(RCII)以ACI充当代理和云环境间的协调角色,向代理供应统一标准的API接口。
- 负荷与失效仿真该架构配备了高性能的负载发生器与故障注入工具,能够仿真实际运行环境中多种负载情形及故障状况。
- 全方位的可观察性具备全面的观测能力层级,汇集多层次的远程监控信息,涵盖日志记录、性能指标及跟踪详情等。
- 运维全程服务支持该平台涵盖了云服务运作全周期的支持工作,涉及问题识别、深层成因探索以及应对策略实施等多个环节。
AIOps实验室的核心技术理念
- 排列工具作为关键部分,编排器的作用是管理代理与云环境间的互动。它会启动与代理的对话,并分享如任务详情、命令及API选项等信息;依据代理的需求执行具体行动。此外,编排器还能够激活负载生成工具和故障注入模块来制造服务中断情景,用于性能测试中的问题模拟。
- 服务概要通过对各类服务实施抽象处理,来再现生产环境中多样的应用场景。利用开源的应用程序集合与工具包,比如DeathStarBench及BluePrint等资源,在不同的系统架构下(包括但不限于微服务结构、无服务器计算模式以及传统单体应用框架),实现应用程序的部署和运维管理工作。
- 压力测试工具依据编排工具指定的标准,负荷创建模块会构建出相应的负荷形态。通过使用以实际生产数据训练而成的模型来产生负荷,能够仿真在各种常规及异常状况下用户的活动模式和资源利用率情况,从而向代理供应多样化的测试环境。
- 故障创造装置这款故障生成软件是一个多功能的错误植入解决方案,能够在多个系统的层次上制造异常情况,以此来仿真实际运营中可能遇到的各种复杂问题。该工具融合了应用层面的知识和技术领域的见解,设计出符合AIOps环境需求的工作方案和预测模型,并且注重保持逻辑的一致性及充分考量云环境中微服务间的相互依赖关系。
- 可观察性层级通过整合各种工具(例如Jaeger、Filebeat、Logstash及Prometheus等),观测层能够搜集系统中的各项遥感数据,涵盖跟踪记录、日志文件、性能指标以及基础架构详情等方面的信息。
AIOpsLab项目的仓库位置
- Git代码库:在GitHub上可以找到微软的AIOps实验室项目页面,网址是https://github.com/microsoft/AIOpsLab/
- 关于技术的arXiv论文访问该链接以查看文档的最新版本:https://arxiv.org/pdf/2407.12165,此文献包含了详尽的研究内容。请注意,上述链接直接指向了研究论文的PDF文件。
AIOpsLab的使用情境
- 云计算服务商:对云基础架构实施即时监视,并能自动化识别与应对各种异常情况,迅速查明及解决存在的问题,在降低人为介入需求的同时提升服务的稳定性以及增强用户的满足感。
- 公司信息技术支持与维护对企业IT系统的运行情况进行即时监督,并能自动化识别异常情况及反馈相关信息,助力维护人员迅速锁定问题根源并采取措施解决,确保服务的持续稳定运行。
- 金融业对交易系统实施持续监测,迅速发现并应对任何异常情况,以保证系统的平稳运作,并防止造成财务损失。
- 学习和探索向高等院校及科研单位供应实验平台,旨在辅助学者与科技探索者掌握AIOps技术以及云端运营治理知识。
© 版权声明
文章版权归作者所有,未经允许请勿转载。