新聞中心

創(chuàng)新互聯(lián)專注于網(wǎng)站建設(shè),為客戶提供做網(wǎng)站、成都網(wǎng)站制作、網(wǎng)頁設(shè)計開發(fā)服務(wù),多年建網(wǎng)站服務(wù)經(jīng)驗,各類網(wǎng)站都可以開發(fā),成都品牌網(wǎng)站建設(shè),公司官網(wǎng),公司展示網(wǎng)站,網(wǎng)站設(shè)計,建網(wǎng)站費用,建網(wǎng)站多少錢,價格優(yōu)惠,收費合理。
?引言
ITIL將IT服務(wù)管理分為十個核心流程管理和一項管理職能,目前國內(nèi)銀行的運維體系大多基于ITIL規(guī)范建立。在ITIL十個核心流程之一的事件管理中,事件是指任何不符合標準操作且已經(jīng)引起或可能引起服務(wù)中斷和服務(wù)質(zhì)量下降的操作。銀行的IT系統(tǒng)中,“事件”的表現(xiàn)形式五花八門,但處理事件的要訣只有一個“天下武功,唯快不破”,根據(jù)事件的分類、影響范圍和緊急程度,用一切可能的辦法“不擇手段”地快速解決。本文想淺談G行應(yīng)用管理中事件的發(fā)現(xiàn)過程,即應(yīng)用監(jiān)控的建設(shè),以及從應(yīng)用監(jiān)控到可視化運營的發(fā)展方向。
傳統(tǒng)監(jiān)控體系概況
傳統(tǒng)的應(yīng)用監(jiān)控指從應(yīng)用層對應(yīng)用交易的處理性能、流量、帶寬占用、用戶行為、渠道來源、服務(wù)占用等進行實時監(jiān)控、分析、報警,下表簡單羅列了通用的應(yīng)用基礎(chǔ)監(jiān)控。
|
應(yīng)用基礎(chǔ)監(jiān)控 | |||||
|
類別 |
監(jiān)控方式 |
指標 |
類別 |
監(jiān)控方式 |
指標 |
|
資源層 |
進程 |
進程數(shù)量 |
應(yīng)用層 |
應(yīng)用功能 |
健康檢查 |
|
進程 |
GC次數(shù)/分鐘 |
業(yè)務(wù)層 |
聯(lián)機交易 |
整體交易成功率 | |
|
文件 |
COREDUMP |
整體交易響應(yīng)時間 | |||
|
異常文件 |
整體交易量 | ||||
|
文件 |
缺失關(guān)鍵文件 |
整體交易響應(yīng)率 | |||
|
文件 |
密鑰交換狀態(tài) |
聯(lián)機交易 |
單支交易成功率 | ||
|
文件 |
日志關(guān)鍵字 |
單支交易響應(yīng)時間 | |||
|
網(wǎng)絡(luò) |
端口監(jiān)控 |
單支交易量 | |||
|
網(wǎng)絡(luò) |
網(wǎng)絡(luò)長連接 |
單支交易響應(yīng)率 | |||
|
組件層 |
線程池 |
線程池狀態(tài) |
WEB頁面 |
頁面監(jiān)控 | |
|
數(shù)據(jù)庫連接池 |
JEDIS連接池 |
批量任務(wù) |
批量任務(wù)狀態(tài) | ||
|
應(yīng)用API |
加密API連接 |
集群環(huán)境 |
F5池可用率 | ||
|
應(yīng)用隊列 |
隊列深度 |
部署層 |
集群環(huán)境 |
集群狀態(tài) | |
應(yīng)用監(jiān)控主要確保應(yīng)用基礎(chǔ)環(huán)境和運行性能正常,并提供積極的用戶體驗,應(yīng)用監(jiān)控工具為IT管理提供必要的信息,幫助進行事件處置:隔離、服務(wù)降級或重啟。
1. 傳統(tǒng)監(jiān)控體系下的應(yīng)用基礎(chǔ)監(jiān)控
Google SRE 定義了四個需要監(jiān)控的關(guān)鍵指標。延遲(Latency),流量(Traffic),錯誤(Errors)和飽和度(Saturation)。
延遲 (Latency)
延遲是服務(wù)處理傳入請求和發(fā)送響應(yīng)所用時間的度量。測量服務(wù)延遲有助于及早發(fā)現(xiàn)服務(wù)的緩慢。
- 流量 (Traffic)
流量可以更好地理解服務(wù)需求。通常稱為服務(wù) QPS(每秒查詢數(shù)),流量是服務(wù)請求量的度量。此信號可幫助您決定何時需要擴大服務(wù)規(guī)模以應(yīng)對不斷增長的客戶需求,或縮小服務(wù)規(guī)模以提高成本效益。
- 錯誤 (Errors)
錯誤是對客戶端請求失敗的度量。這些故障可以根據(jù)應(yīng)用程序的響應(yīng)返回碼、日志中的關(guān)鍵字輕松識別。在某些情況下,由于錯誤的結(jié)果數(shù)據(jù)或違反了約定,響應(yīng)被認為是錯誤的。除了響應(yīng)碼之外,可能還需要其他的代碼邏輯輸出的錯誤日志來捕獲錯誤。
- 飽和度 (Saturation)
飽和度是服務(wù)器資源利用率的度量。這個信號告訴你服務(wù)資源的狀態(tài)以及它們有多“滿”。這些資源包括內(nèi)存、cpu、網(wǎng)絡(luò) I/O 等。在資源利用率達到 100% 之前,服務(wù)性能也會緩慢下降。因此,有一個利用率目標很重要。延遲的增加是飽和度的一個很好的指標。
正如Google SRE所討論的,通過各類技術(shù)工具Zabbix、Prometheus、grafana等實現(xiàn)衡量服務(wù)的四個指標,可以實現(xiàn)對一個業(yè)務(wù)系統(tǒng)最基礎(chǔ)的監(jiān)控。
2. 傳統(tǒng)監(jiān)控體系的痛點
- 以交易為中心而不是以客戶為中心
傳統(tǒng)的應(yīng)用監(jiān)控大多是以技術(shù)組件可用性和交易性能為中心。在Bank4.0時代,場景金融被廣泛提及,其將視角從傳統(tǒng)以產(chǎn)品和交易為中心投向以客戶為中心,將服務(wù)的物理空間從銀行為中心轉(zhuǎn)向以場景為中心,通過連接客戶生活、生產(chǎn)場景中產(chǎn)生的金融需求而提供端到端的服務(wù),帶來金融的創(chuàng)新和業(yè)態(tài)轉(zhuǎn)化。應(yīng)用管理中的監(jiān)控體系也必須不斷的進化和迭代以適應(yīng)業(yè)務(wù)的快速發(fā)展,其出發(fā)點也必須轉(zhuǎn)變:從以交易為中心到以客戶為中心,未來的實踐方向或為監(jiān)控場景化。
- 業(yè)務(wù)和技術(shù)監(jiān)控視角不統(tǒng)一
另外我們需要討論的一個問題是,在傳統(tǒng)監(jiān)控推送一個監(jiān)控信息后,如何判斷業(yè)務(wù)影響范圍?由于業(yè)務(wù)人員和IT管理人員的視角存在明顯的偏差,對業(yè)務(wù)影響的準確判斷也存在明顯的偏差,這里我們可以通過埃舍爾的視錯覺的圖來描述這一現(xiàn)象,結(jié)果到底是鴨還是兔?
當銀行IT系統(tǒng)監(jiān)控平臺推送一個聯(lián)機服務(wù)擁堵的信息,從應(yīng)用管理的角度事件定義為服務(wù)擁堵,某幾支聯(lián)機交易無法正常處理,但是從業(yè)務(wù)管理角度看到的是支付系統(tǒng)貸記往報出現(xiàn)宕賬。業(yè)務(wù)視角和IT視角的不同,對事件的重要性和緊迫程度會有截然不同的判斷,對事件處置的決策會產(chǎn)生重大影響。當信息不足以準確分析環(huán)境中的復(fù)雜情況時,我們會根據(jù)固有的認知、邏輯和習(xí)慣進行猜測和補充。如何統(tǒng)一技術(shù)和業(yè)務(wù)視角、精確定位業(yè)務(wù)影響范圍是必須要思考的另一個難題。
G行從應(yīng)用監(jiān)控到業(yè)務(wù)可視化運營的探索
為適應(yīng)“科技、敏捷、生態(tài)”戰(zhàn)略轉(zhuǎn)型要求,實現(xiàn)打造一流財富管理銀行”戰(zhàn)略目標,G行投入建設(shè)了“可視化運營”項目。該項目遵循數(shù)字化轉(zhuǎn)型戰(zhàn)略,切實做好安全運營保障、提升運維治理能力,為提升信息系統(tǒng)整體可用性、科技賦能業(yè)務(wù)發(fā)展、促進數(shù)字化銀行轉(zhuǎn)型提供有力支持。
可視化運營最大的特點就是:由業(yè)務(wù)人員和IT管理人員共同提出監(jiān)控需求,解決“鴨兔”問題;實現(xiàn)重點應(yīng)用系統(tǒng)重點業(yè)務(wù)場景化監(jiān)控覆蓋、全流程管理。業(yè)務(wù)監(jiān)控功能將從交易量、客戶、商戶等維度,利用生產(chǎn)數(shù)據(jù),通過全國熱點地圖、柱狀圖、動態(tài)展示圖等形式對業(yè)務(wù)運行現(xiàn)狀進行呈現(xiàn),以完成下述目標:
1. 通過監(jiān)控掌握業(yè)務(wù)發(fā)展趨勢,對業(yè)務(wù)發(fā)展方向提供預(yù)判。
2. 通過對客戶行為數(shù)據(jù)的監(jiān)控掌握客戶的行為軌跡,促進交易量提升。
3. 通過對業(yè)務(wù)的實時監(jiān)控可及時發(fā)現(xiàn)業(yè)務(wù)功能是否能夠正常處理,如遇異??杉皶r做到科技業(yè)務(wù)聯(lián)動、總分行聯(lián)動、集中指揮,統(tǒng)一應(yīng)急處理,提高業(yè)務(wù)整體運營能力。
4. 風(fēng)險違規(guī)防范的監(jiān)控功能,對重要業(yè)務(wù)場景深挖可能存在的業(yè)務(wù)風(fēng)險點;通過對實時數(shù)據(jù)的監(jiān)控,及時發(fā)現(xiàn)隱患進行應(yīng)急處置。
5. 對監(jiān)管考核事項重點監(jiān)控,確保在各監(jiān)管機構(gòu)的合規(guī)率100%。
針對支付清算業(yè)務(wù),G行定義了本幣支付清算5大業(yè)務(wù)場景(分別是:大額支付、小額支付、超級網(wǎng)銀、CIPS、ACS)和外幣清算場景。與傳統(tǒng)監(jiān)控全流程只需要科技人員不同,可視化業(yè)務(wù)運營需要業(yè)務(wù)人員、開發(fā)人員和運維人員一起來指定場景的設(shè)定范圍、指標、閾值。項目實施的關(guān)鍵是整體需求的制定,整個過程需要大量和業(yè)務(wù)溝通確認的工作。G行可視化運管管理平臺在本幣支付清算場景,整體上梳理4個本幣場景中系統(tǒng)監(jiān)控、系統(tǒng)管理、業(yè)務(wù)管理、統(tǒng)計分析、工作管理5大類123個重點需求,具體實現(xiàn)如下文所述。
對各場景整體狀態(tài)、交易量、交易金額、系統(tǒng)響應(yīng)率等全面覆蓋。
傳統(tǒng)監(jiān)控更多的是對一個點的監(jiān)控,業(yè)務(wù)場景下更注重對業(yè)務(wù)流程化的運營管理。重點清算支付業(yè)務(wù)場景分級層層下鉆,按業(yè)務(wù)類型實時分析和統(tǒng)計,異常時在來往報告警信息中予以顯示,處理成功后根據(jù)終態(tài)結(jié)果自動核銷,自動判斷清算異常、流動性異常(頭寸預(yù)警、清算排隊)。
行內(nèi)考核指標和監(jiān)管考核指標全面覆蓋,G行關(guān)注信息(大額來往報異常、小額來往報異常、超網(wǎng)來往報異常、CIPS來往報異常、ACS異常數(shù)據(jù));人行考核數(shù)據(jù)回復(fù)率及發(fā)起應(yīng)答報文數(shù)量(查詢查復(fù)、退回申請、人行狀態(tài)查詢、客戶信息查詢、支付申請)。異常業(yè)務(wù)可自動推送通知至總分行管理人員,實現(xiàn)科技——業(yè)務(wù),總行——分行實時聯(lián)動。
外幣清算一體化運營。
結(jié)語
未來銀行在業(yè)務(wù)及產(chǎn)品服務(wù)模式創(chuàng)新方面,有必要結(jié)合第一性原理進行開創(chuàng)性創(chuàng)新。對銀行本身而言,也應(yīng)以第一原理思想,不斷突破固有思維模式,走出一條適應(yīng)自身發(fā)展的創(chuàng)新之路。未來銀行的金融服務(wù)與我們的生活場景、消費場景深度融合,作為應(yīng)用管理中業(yè)務(wù)監(jiān)控的探索也必將深入場景,實現(xiàn)從以交易為中心到以客戶為中心的轉(zhuǎn)變:第一時間發(fā)現(xiàn)問題,準確做出業(yè)務(wù)判斷,及時解決問題,有效提升客戶體驗,從技術(shù)層面的應(yīng)用監(jiān)控走向業(yè)務(wù)可視化運營。
網(wǎng)站名稱:從應(yīng)用監(jiān)控到業(yè)務(wù)可視化運營的探索
標題鏈接:http://fisionsoft.com.cn/article/cceesce.html


咨詢
建站咨詢
