農林漁牧網

您現在的位置是:首頁 > 畜牧業

遼寧農信:應用效能監控系統

2022-02-19由 金科課堂 發表于 畜牧業

鏈路預測是什麼

遼寧農信:應用效能監控系統

一、專案方案

隨著各種資訊系統的建設和應用的不斷深入,IT架構規模日趨複雜、變更頻率大,資料採集體量巨大,相應的系統管理與維護的難度與日俱增。因此,充分利用海量、高速、多樣、高價值的監控資料,透過AI演算法,替代以往的人力分析,自動分析監控資料並給出運維決策建議,建立一個“安全、穩定、規範、高效”的運維管理體系,將IT運維專案對業務連續執行影響降至最低,顯得尤為重要。應用效能監控系統依託於旁路流量無埋點技術,實時採集全量互動資料,透過搭建完整的交易資料採集與監測體系,監控應用系統對外的服務質量,管控應用系統各項交易指標;系統是基於大資料技術搭建的一體化資料視覺化互動平臺,技術架構涵蓋基礎資源架構、流量匯聚模組、資料採集解碼、資料計算處理、資料展現等五個層級,同時採用先進的分散式結構、微服務框架技術結合Hadoop、Yarn、Kafka、Spark、Zookeeper等大資料元件,基於Docker、K8s容器化部署;將多層次、多維度的監控資料進行整合和關聯分析,對各類業務資料的邏輯關係進行分析、整合和處理,透過效能預警、故障告警、潛在問題挖掘等多手段做到資料中心執行狀況視覺化,出現問題得到及時反饋並快速定位故障點,實現從被動運維向主動運維的關鍵性轉變,充分保障業務可靠、高速、高效、安全運轉,搭建 “交易實時檢測+分析工具+運營決策” 的資料服務體系,實現基於服務請求的系統監控、多層次的效能管理。

遼寧農信:應用效能監控系統

圖1系統架構圖

二、創新點

1、端到端交易效能視覺化

提供基於業務系統的交易效能展示,以交易型別為區分,動態展示交易量、交易響應率、交易成功率、平均響應時間、交易返回碼分佈等引數。透過對同一業務的交易經過的路徑設定多個監控點,將各個監控點旁路捕獲到的網路流量進行解碼分析並對各監控點的資料進行全程關聯分析,實現了網路流量和交易效能端到端的視覺化監控和管理。實時發現並定位系統出現的問題,利用大資料技術預測可能的故障,告別被動處理問題的局面。

2、多維度指標關聯分析及展現

打破傳統“豎井式”監控系統之間的壁壘,由大資料平臺將所有運維資訊進行關聯對比分析,以業務為單位,管理儲存原始交易記錄,針對特定交易記錄提供可追蹤分析的能力, 可以透過查詢介面,包括時間、IP、交易型別、交易結果等欄位,以及自選的擴充套件欄位,進行快速查詢,以提供快捷和深入的問題分析定位能力;也可以由多維統計檢視直接關聯查詢。在單個元件上,呈現每筆交易的詳細資訊,包括交易關鍵字(如流水號,可自選)、交易時間、交易結果、返回碼等詳細資訊。統一整合該業務各個層面的資訊,做到多維度立體化的交叉監控,加速故障定位。實現了多種型別的效能指標在統一平臺的展現和對比分析,大大提高故障點和故障原因定位的準確性和時效性,為IT運維人員贏得寶貴的時間。

3、基於硬體的資料捕獲

在網路流量捕獲和解碼處理方面,採用了基於硬體技術的集中採集分散式解碼技術,具備單臺裝置最高20Gbps的網路流量捕獲能力。資料捕獲探針採用專用網絡卡和處理晶片進行採集流量的資料捕獲和預處理,具備全線速資料處理能力,無丟包。

4、分散式儲存、計算叢集

解碼叢集和大資料叢集均採用分散式叢集的部署架構,具有可擴充套件的計算和儲存能力,使資料報的儲存和查詢更加靈活方便,系統擴充套件及裝置替換可以便捷的橫向調整而不影響平臺整體執行。大資料平臺採用通用的伺服器構建叢集,可根據儲存和計算資源的需求隨時擴充套件,有效應對業務量的增長。以Hadoop和Spark作為基礎,提供了一個統一的devops框架,其標準化和預構建的整合簡化了資料儲存、業務邏輯和計算的組合。它設計合理,提供強大的、自服務的、靈活的、安全的、受治理的和不會過時的方法在本地、雲或混合環境中來管理資料和資料應用程式。運維資料有很多不同的形式,來源也各不相同,可以從多個來源收集並處理資料,其中包括網路流量資料、各種日誌資料、實時輸出的資料等。即便資料看上去很複雜,也可以輕鬆的實時收集、轉換。

5、異常檢測

“異常檢測”是對監控指標的時間曲線進行檢測,基於不同的使用場景、不同監控指標以及對於異常的影響權重以及異常影響範圍不同,對於一條時間序列,首先對其特徵進行描述,之後根據其特徵,計算資源的分配以及資料的時間來合理選用不同的模型組合,可採用變分自編碼器、查分指數滑動平均、漸進梯度迴歸樹等場景化演算法,自動發現其反常行為,在檢測到異常之後,會第一時間將報警報給運維人員,達到“故障發現”的效果。

基於不同的分析場景,內建了三種主要演算法,以便於根據實際情況進行區分和統計。異常檢測演算法的目的是檢測出指標時間序列曲線的異常模式。 將異常檢測問題轉換成統計上的機率觀測模型, 具體思想是觀測曲線發生突變的機率,利用傳統的核密度估計的演算法來給出曲線的異常程度,解決為不同指標統一量化異常程度的問題。

此外由於資料存在一定的週期性的突變,透過運維人員的確認符合預期,不能被判定異常,比如早、晚高峰、實時程度啟動事件導致的異常突變。為了解決該問題,演算法增加了極致理論的方法做判斷,如果是週期性的突變,則不能判定成異常。 綜上所述,異常檢測的整體流程,針對單個KPI指標,先透過核密度估計算法計算出初步的異常程度分數,然後透過極值理論來解決週期性突變帶來的問題,給出最終的異常程度分數。

遼寧農信:應用效能監控系統

圖2異常指標檢測模型邏輯圖

6、異常機器和模組定位

應用監控系統採用自動化定位系統,在故障發生時,會觸發定位系統開始分析,系統會收集當前一段時間所有機器和模組的指標資料,並執行異常檢測演算法去檢測所有指標的異常程度,在基於多種機率密度模型的核密度分析和同環比,確定了每個指標產生異常的可能性,再透過對模組內機器的指標異常程度進行聚類和排序,從而分析出可能產生異常的模組,模組內有異常表現的機器叢集,以及異常機器產生異常的指標及綜合異常指數,並最終展現給運維人員, 自動化異常機器和模組的故障定位系統,自動化人工定位的流程,輔助運維人員找到以及問題所在,大大減少故障恢復時間,保證系統的穩定性。

遼寧農信:應用效能監控系統

圖3異常機器和模組定位

7、通用的動態基線模型

自主研發了一套完整的、通用的動態基線模型,可對運維繫統中的各種指標進行分析、趨勢預測和告警,並且可支援多指標綜合影響動態基線模型和單指標動態基線模型。通用的動態基線模型,包含線性資料模型和非線性資料模型,可對運維繫統中的各種指標進行趨勢預測和告警, 在使用者體驗受到影響前就介入處理,以提高告警精確度,降低業務異常對使用者的影響。

8、大資料管理平臺

為IT運維量身打造了一個大資料平臺,使得與企業IT架構相關的海量運維資料能夠集中於統一平臺,進行綜合分析、統一管理,提供了一個完整的安全和可治理的標準框架,將安全協議嵌入在框架中,極大地減少了開發過程中追求安全的瑣碎工作,對大資料叢集中所有關鍵操作型別的日誌進行審計,同時還管理元資料的流入、流出等,對外圍操作進行安全授權。單一的設計原則使企業能在滿足安全需求下治理資料。在處理或訪問底層系統的資料時,增加或只增加很少的負載。它還允許系統只需簡單地透過擴充套件底層基礎結構而無需最佳化平臺即可從TB擴充套件到PB。同樣該平臺按其分佈的節點數量來衡量底層系統的規模。

遼寧農信:應用效能監控系統

圖4大資料運維管理平臺

9、強大的整合能力

開放式架構,對外提供豐富的API介面,具有良好的對外資料交換能力,便於與現有的運維繫統整合,將第三方的監控系統的監控資料匯入大資料平臺進行關聯分析,如安全監控、機房監控、系統和應用日誌等資訊。同時,大資料平臺的分析結果在自有平臺展示的同時,還可以便捷的送往有資料需求的第三方。

三、技術實現特點

應用效能監控系統利用成熟的流量映象技術,透過解碼分析客戶端與服務端的互動資料包來監控應用資料視覺化系統對外的服務質量。以業務資料視覺化系統為單位,流量採集和交易效能跟蹤,實現基於服務請求的資料視覺化系統監控、多層次的效能管理。透過交易的響應時間、交易成功率、交易響應率等多個指標定義使用者交易體驗狀態;及時提供、精確的使用者體驗資料反饋;基於大資料一體化運維管理平臺解決方案,採用“多維度、立體化”的交叉監控方式,對資料中心內部的裝置、服務、業務等進行多方面的統一的監控管理。

1、資料資源平臺

透過旁路方式採集流量資料、日誌資料以及其他監控系統的資料。利用分散式協議解碼、流式計算技術,實現對網路全流量的採集管理,作為整個監控方案的資料入口。

1.1網路流量資料採集

透過交換機映象或分光器的方式旁路接入網路監聽網路資料,使用自主設計研發的硬體探針裝置,對多個關鍵節點的網路流量實現集中監測,提供萬兆網路流量資料採集,並對所獲取的資料包資訊進行實時還原解碼分析,將解析資料傳送至大資料平臺。探針在對網路流量資料進行分析的同時,還可將原始資料包儲存至探針的高容量儲存介質,並提供資料包下載功能,支援豐富過濾條件,檢索資料並快速輸出結果。

1.2檔案日誌採集

系統提供了高可用的,高可靠的,分散式的海量日誌採集、聚合和傳輸的能力。支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,提供對資料進行簡單處理,並寫到各種資料接受方的能力;支援從console(控制檯)、RPC(Thrift-RPC)、text(檔案)、tail(Linux tail)、syslog,exec(命令執行)等資料來源上收集資料。

1.3資料庫資料採集

系統提供了將系統儲存模組和關係型資料庫中的資料相互轉移的能力,可以將一個關係型資料庫中的資料導進到系統中,也可以將系統中的資料導進到關係型資料庫中。在資料收入後,首先進行預處理,結構化,封裝成平臺統一指標資料結構。然後將需要實時計算的資料發往計算引擎,實時計算異常,確保告警的及時性。當天需要查詢資料存放記憶體庫,快取記憶體確保及時異常相關的資料能最快速度被查詢到,提升異常診斷的效率。

2、統一資料平臺

透過構建統一的資料整合平臺將不同運維繫統的資料進行統一整合和管理,並提供資料規範化和封裝好的相關技術模組,從而為智慧分析模型提供豐富的運維資料來源和標準的運維狀態資訊。以Hadoop和Spark作為基礎,構建了一個統一的框架,如圖5所示,支援多種場景,實時分析、互動查詢、演算法模型等功能整合到統一處理平臺,提供多種演算法,引數並可隨需配置,適配各類業務場景,記憶體式計算方式,更優越的效能。透過使用標準的統一框架來定義和執行業務需求,簡化大資料技術的複雜性和挑戰,快速積累資料資產,實現資料驅動智慧運維。

遼寧農信:應用效能監控系統

圖5統一資料平臺框架

3、智慧業務分析平臺

透過內建的智慧分析引擎,建立以業務為導向的運維監控體系,結合智慧運維演算法,根據場景指定顆粒度,全面、快速響應業務變化,提供更優的運維體驗,解決諸如故障發現、故障止損、故障修復以及故障規避等方面的問題。建立以業務為導向的監控體系,實時性,細監控力度,快速響應業務變化;資料全面性,資料只有全面才能進行科學的決策;科學性,結合智慧運維演算法提供更優的運維體驗。

遼寧農信:應用效能監控系統

圖6智慧業務分析平臺

4、視覺化平臺

將智慧業務效能管理平臺的相關資料透過web頁面、大屏、移動APP、報表、郵件簡訊告警等形式進行視覺化的實時呈現和通知,監控面板由控制元件組裝,統一資料封裝中間層,分離資料和控制元件,實時推送指標和告警,支援視覺化追蹤統一實時資料推送,從後端推送告警、實時指標等資料到監控面板,實現實時視覺化監控追蹤,使使用者能快速高效的訪問這些資料。

5、物理佈署結構

總體部署採用“分佈部署、集中監控”的原則,採用叢集部署的流量匯聚裝置進行網路流量的匯聚、過濾和分發;透過獨立叢集的專用解碼裝置組成交易解碼平臺,進行資料包解碼和分析;透過獨立叢集的大資料平臺進行關聯分析和展現。監控工具網路流量分析系統主要由網路探針、大資料平臺和展現平臺三部分共同組成。監控節點的選擇原則上按照伺服器、負載均衡、防火牆、資料庫等節點進行分配,保證覆蓋整條業務鏈路上的各個故障高發點。系統部署儘量選擇在網路核心交換機上進行配置,以降低部署複雜度和重複流量。

遼寧農信:應用效能監控系統

圖7物理部署結構

6、應用監控指標體系

應用監控指標體系將定義業務系統關鍵服務的鍵康狀況和系統執行狀態,其中包含交易效能、應用效能、網路效能、標準協議、基礎資源等型別的效能指標以及日誌資訊。其中以明確定義的交易效能指標為基準來衡量系統服務質量和真實使用者體驗,其他層面的效能指標用來衡量各元件的執行狀態和內部服務狀態,主要用來進行故障定位、效能最佳化分析等。系統中主要的應用監控指標如下:

遼寧農信:應用效能監控系統

圖8應用監控指標體系

四、專案過程管理

專案過程分為四個階段,各階段詳細描述如下:

1、需求分析

此階段時間段為2019年11月至2020年1月,其間主要完成了專案立項、可行性研究、需求調研,功能點需求分析與確認及需求評審。

2、系統設計階段

此階段起始時間為2020年2月至2020年4月,其間根據需求分析的結果,將軟體分解成模組是指能實現某個功能的資料和程式說明、可執行程式的程式單元,對整個軟體系統進行設計,如概要設計,詳細設計、資料庫設計等。

3、系統編碼、測試和上線準備階段

此階段起始時間為2020年4月至2020年8月,其間完成了應用效能監控系統的編碼、單元測試、聯調測試、第三方聯調、驗收測試、缺陷修復工作以及投產上線準備工作,提交了應用效能監控系統測試用例、測試報告、投產演練方案等文件。

4、試執行上線階段

在為期3個月的試執行期間,完成了系統上線、使用者培訓等工作,系統執行正常穩定,功能可用,達到試執行標準。

五、運營情況

應用效能監控系統完成了基於大資料平臺的監控部署實施,實現了對生產核心網路流量、應用日誌的採集、彙總,並基於高效的分析模型和計算技術,實現了對各項指標資料秒級的分析預測能力。截至目前監控了對30個重要業務應用系統、16個數據庫的報文解碼和分析,透過建立面向服務質量的監控,以部分關鍵業務流程為監控目標,透過監控取樣業務執行資料流、響應情況,對業務系統可用性和執行健康情況進行監控和預警,出現異常時,自動記錄各處理節點系統、網路資源指標和後臺資料庫執行指標,為後期排錯和定位提供依據。目前已上線功能模組:主監控臺、智慧分析、場景分析、告警管理、綜合報表、監控大屏等。各功能模組起到了良好的根因分析及監控告警作用,實現了故障的快速定位和應用最佳化分析,並建立了基本監控指標體系的監控。

六、專案成效

應用效能監控系統自上線後,對新核心業務系統的運維帶來了先進的監控理念,從渠道到核心、到外聯,形成了對全行核心系統應用監控的全域性視角,對全行的交易進行視覺化管理,統一運維視角,實時呈現各業務系統的交易量、響應時間、成功率、響應率、交易型別、交易渠道、返回碼等交易指標,對業務系統執行情況進行監控與報告。當出現故障時,透過對比交易路徑或應用拓撲圖上不同應用系統的總量/分量交易指標的變化情況,將故障自動定位到某個應用系統的某個APP伺服器節點;確定節點後,對其應用的渠道、型別、返回碼等多層次多維度的熱點排序交易分析與鑽取,呈現每筆交易的詳細資訊,包括交易關鍵字(如流水號,可自選)、交易時間、交易結果、返回碼等所有效能資料以及交易要素資料,快速定位有問題的應用元件,並及時掌控對全域性的影響,保障業務持續性發展。

1、實時監測

透過資料的實時採集與分析多維度的展現業務和應用系統的實時執行狀態,實時記錄和發現各處理節點的執行情況,服務可用性和效率監控,反映系統整體執行情況。透過宏觀的檢視展示應用系統的關鍵效能指標。透過時間維度展現業務系統的當前狀態和歷史情況,在業務服務架構中實時展現當前業務應用的狀態與指標。

2、故障預測和告警

應用效能監控系統透過告警與檢視進行資料探勘,最終能定位到故障點。可以透過告警與檢視進行資料探勘與鑽取,能透過各種業務檢視一目瞭然查看出故障點,監控業務執行資料流、響應情況,對業務系統可用性和執行健康情況進行監控和預警,出現異常時,自動記錄各處理節點系統、網路資源指標和後臺資料庫執行指標,在系統風險發生前做出預警,並且及時提供準確快捷的告警能力,可以透過閾值和動態基線實現業務效能異常的及時告警,告警不但可以在監控頁面展示,同時透過簡訊、郵件等方式傳送至相關係統負責人。在故障出現時快速定位故障節點、故障伺服器,透過分析加速故障處理效率,減少系統風險的發生。

3、業務效能分析

透過採集端到端的網路流量,來實現對業務端到端的監測分析,包括前臺、介面、後臺應用及資料庫對應各關鍵環節。並反映端到端之間每一段節點的效能情況。其中前臺環節能夠實現單筆交易的效能分析,後臺(介面、應用、資料庫)能夠實現業務級環節效能分析。透過多檢視效能對比和分析,查看出效能瓶頸和規律透過宏觀的頂層檢視展示應用系統的關鍵效能指標與檢視。

4、提高資料使用價值

以大資料平臺為基礎,將運維資訊與銀行業務緊密結合,有效提升了監控資料的使用價值,為建立科學的決策機制奠定了堅實的基礎。

按照天自動週期性生成各個業務系統的效能報表,展示業務系統性能資料和異常交易,對歷史資料進行統計,為後期排錯和定位提供依據。提升資料使用價值,提高系統可用性。

5、業務功能和交易訪問使用者體驗監控

從使用者終端、網路接入端、渠道類(使用者接入)應用端實時獲取各個業務交易程式碼、業務功能、服務渠道、對端客戶機構等多維度的交易量、成功率、響應時間等交易指標,建立每個指標每分鐘時點的取樣值組成的動態基線,全面準確反映業務應用系統的執行情況,解決了傳統系統運維的多項難點:問題發現滯後、故障排查方向不明確、運維完全依賴日誌、程式碼等,導致故障場景復現困難,應急效率低下等問題。主動監控業務系統服務質量,從系統使用者的角度監測系統,感知故障,提高監控準確度,提高使用者體驗。

七、經驗總結

透過對系統應用資料進行分析,全面規範化的運維了各種資料,監控了各項指標監控,在故障發生之前實現對系統故障自動化的感知、預測、預警,並將訊號與處置機制自動對接,結合運維智慧演算法,逐步實現運維的智慧化,降低了運維成本,減少了對人力和經驗的依賴,同時在對大資料、記憶體資料庫、流計算、訊息匯流排等各類新技術的學習和實踐過程中,使得團隊在技術能力上也有了大幅提升,運維團隊可以站在技術的最前沿,不僅對運維本身有很大的推動,也對應用管理團隊更好地理解各類基於新技術的新業務應用,從而使得運維與開發之間的溝通更加有效,提高了運維效率,保障了業務系統持續、高效、穩定的執行。未來仍需提升運維能力和自動化水平,加強人員的培養,挖掘運維大資料的價值,為決策提供有力支撐, 用資料驅動運維,為業務增長提供支援和保障,更加高效地適應各類新技術的發展,並且將新的技術引入到運維工作中,提升運維工作的效率。

更多金融科技案例,請登入數字金融創新知識服務平臺- 金科創新社(FintechinChina.com)官網案例庫檢視。