当前位置 > 首頁 > 技術熱點 > 企業紛紛上雲,IT運維如何借力AI實現智能化

企業紛紛上雲,IT運維如何借力AI實現智能化

来源:中国数据分析行业网 | 时间:2018-04-26 | 作者:数据委

近几年,各行各业纷纷拥抱互联网+,借助云计算、大數據等技术来实现生产效率的提升,与之相关的就是企业IT系统越来越复杂。IT系统规模愈大、运维管理精细化要求更高、运维采集指标更多、响应时间需求更短等挑战接踵而来。面对大量运维数据,以及对数据的实时秒级分析处理要求,传统IT系统和模式越来越难以满足当前运维需求。

692

在過去,IT資源都是通過人工進行管理,需要經過手動定義系統網絡架構、配置並克隆虛擬機、配置OS、安裝數據庫等漫長的流程,才能夠使用,並且在部署過程中,人工操作易出錯。傳統運維壓力很大,疲于奔命和救火,必須要尋求改變,走向自動化、平台化、智能化。

在IT服務管理方面,借助ITSM以及自動化技術可以有效提升管理效率。ITSM中的自動化工具幫助企業更高效地提高管理任務,大大縮短應用發布流程,提高IT效率,提升對IT需求的響應速度,有效節省運維、開發人員的工作時間。

在IT運維方面,Docker、OpenStack、Puppet等技術的流行,以及微服務、CI/CD、DevOps等理念的落地生根,自動化運維的發展迎來了小高潮。整體來看,自動化運維平台幫助提升了運維的效率,並減少了因人工疏忽和流程操作失誤而引起的運維故障。

重新定義IT運維

隨著企業加速自身業務互聯網化的進程,新業務和新場景不斷湧現,這就要求企業在IT架構方面進行與之適應的調整,對于開發的訴求也更多放到需求實現上面。企業的數字化程度越高,運維的管理難度也越大。

技術界逐漸催生出了服務化的軟件架構,以及持續交付過程,同時隨著業務體量快速膨脹,因服務化帶來的大量的應用管理、持續交付、監控、穩定性、成本控制等非功能性體系的建設和保障就需要有專門的團隊來做,這時對于運維的訴求也在悄然發生著變化。

在這個過程中,雲計算的發展改變了IT資源供給模式的同時也對運維管理提出了新的變革要求,傳統的網絡、硬件和系統維護的職責在逐漸被弱化,也在逼迫著運維的關注點從底層轉向應用和業務層面,現有運行制度和人員角色需要進行重新定位。

AI使能IT運維

隨著AI時代的到來,我們工作和生活中的一切都在被重新定義。企業在嘗試通過AI技術提高運維服務的有效性乃至預測性,同時降低成本,實現業務轉型。

在2016年,Gartner提出了AIOps的概念,並預測到2020年,AIOps的采用率將會達到50%。簡單來說,AIOps就是希望基于已有的運維數據(日志、監控信息、應用信息等)並通過機器學習的方式來進一步解決在IT運維中通過自動化沒辦法解決的問題。

作爲一種將算法集成到工具裏的新型運維方式,AIOps可以幫助企業最大程度的簡化運維工作,把IT從耗時又容易出錯的流程中解放出來。傳統IT運維管理工具更爲關注突發事件(即告警)、配置和性能,而AIOps則更加關注問題、分析和預測,二者可謂互相補充相得益彰。

有了AIOps,当IT出现故障隐患,运维人员不需要再等待系统发出故障告警,通过内置的机器学习算法以及大數據技术,就能自动发现系统的各类异常,从而实现从异常入手判断故障发生的可能性、严重性和影响,依赖机器对数据的分析结果,判断最佳的应对方案。

数据只有全面才能进行科学的决策,很多时候如果看到的日志不全,或者拿到的监控数据不准,在做决策的时候肯定就会比较贸然。比如數據中心某业务链路出现问题,是不是要切换?数据是不是还能保持一致?这个时候在没有确定的数据来支撑你决策之前,你做决策时都会感到比较忐忑,犹豫不前。

就目前來看,國內的百度、搜狗、阿裏巴巴等互聯網廠商已經在探索嘗試AIOps,並且取得了不錯的效果。通過支持AIOps能力,平台能夠提供更大的分析調整自修複能力,更進一步提高IT效率。

如何從錯綜複雜的運維監控數據中得出我們所需要的信息和結果,一句話就是分辨和精煉。同時,確保業務和SLA服務級別,出現問題要及時響應、自動分析和優化,把處理的流程精簡和高效組合起來,讓問題匹配正確的場景,找到正確的人,在第一時間正確處理。

機器學習需要大量的數據來訓練,故障出現的形態是千奇百怪,對故障的曆史數據進行場景分類和標注,不斷用模式識別和數據來訓練機器識別和分析,然後讓機器自動准確判斷。

基于數據和模型來提高事件的處理能力。很多事件有的工程師處理的特別快,反之如果對這個故障不熟悉的人可能花費的時間就很長。這就需要構建一個策略知識庫,讓其他人來參考和學習,提高同類場景事件處理的能力。

我们以數據中心的管理与运维为例,數據中心的运维工作主要包括配置管理和监控,运维人员每天都要进行大量的模块维护操作,这个过程大部分程序是由人力手工操作完成的。一方面人的精力有限,不可能及时发现所有的故障,另一方面,这一过程中人为失误的可能性不可避免。将人工智能应用于數據中心的管理和控制,通过机器学习模型进行精细化管理,可以实现智能化运维的目标。

谷歌可以说是最早在數據中心的管理方面运用人工智能技术的代表了,它使用人工神经网络对大型數據中心的运行进行分析,对数据进行了收集和汇总(像數據中心基础设施的耗电量、为达到一定制冷效果所用的水的量),通过人工智能计算模型对數據中心的运行效率进行分析和评估,提出相应的改进數據中心运行效率的解決方案。

結語

AI使能下的IT運維目標就是減少對人的依賴,逐步信任機器,實現機器的自判、自斷和自決。技術在不斷進步,AI技術可以解決一些需要花費大量人力和時間才能解決的事情,但是AI不是一個很純粹的技術,它也需要結合具體的企業場景和業務,通過計算驅動和數據驅動,才能産生一個真正可用的産品。

AI下IT運維在企業的落地,不是一蹴而就的,是一個漸進和價值普及的過程。當前,IT運維已經處于變革的窗口期,可以預見在更高效和更多的平台實踐之後,AIOps將爲整個IT領域注入更多新鮮和活力,在未來發展和壯大下去,成爲引領潮流的重要性力量!

来源:中国大數據