新聞中心
作者 | 悟空聊架構(gòu)

創(chuàng)新互聯(lián)成立于2013年,我們提供高端網(wǎng)站建設(shè)、成都網(wǎng)站制作、網(wǎng)站設(shè)計、網(wǎng)站定制、營銷型網(wǎng)站建設(shè)、小程序制作、微信公眾號開發(fā)、seo優(yōu)化排名服務(wù),提供專業(yè)營銷思路、內(nèi)容策劃、視覺設(shè)計、程序開發(fā)來完成項(xiàng)目落地,為成都邊坡防護(hù)網(wǎng)企業(yè)提供源源不斷的流量和訂單咨詢。
來源 | 悟空聊架構(gòu)(ID:PassJava666)
滾滾長江東逝水,浪花淘盡英雄。
是非成敗轉(zhuǎn)頭空。青山依舊在,幾度夕陽紅。
-- 來自《三國演義》
本篇將會通過三國中的赤壁之戰(zhàn)來講述周瑜、黃蓋和諸葛亮是怎么把服務(wù)雪崩玩到極致的。
本文已收錄到我的 Github,點(diǎn)擊文末的閱讀原文打開。給個Star吧~
https://github.com/Jackson0714/PassJava-Learning
赤壁之戰(zhàn)
話說東漢末年,曹操、孫權(quán)、劉備在長江赤壁(今湖北蒲圻西北)進(jìn)行了一次爭奪老大位置的大戰(zhàn),這就是有名的赤壁之戰(zhàn)。
一、還原赤壁之戰(zhàn)
曹操統(tǒng)一北方后,南下打敗了劉備,占領(lǐng)荊襄之地后,還想干掉東邊的孫權(quán),于是劉備和孫權(quán)一起聯(lián)合抗擊曹軍八十萬大軍。
曹操的軍隊(duì)大部分都是北方的,對于水上作戰(zhàn)的經(jīng)驗(yàn)非常欠缺,而且很多士兵暈船,于是曹操命令軍隊(duì)將船尾用鐵索相連,減弱了風(fēng)浪顛簸,利于士兵演練。
鐵索連環(huán)-圖片來源網(wǎng)絡(luò)
我們來看看周瑜、黃蓋、諸葛亮的對話:
三人對話@悟空聊架構(gòu)
黃蓋:曹操是真的蠢啊,把船連著,如果船燒著了,其他船會跟著一起燒著的。鎖鏈不易解開,船都逃不了了。我們用火攻,直接把曹軍干趴下。
周瑜:但如何接近他們的船呢?
黃蓋:我用詐降帶幾艘船出發(fā),船上載浸油的干草,等接近曹軍時,點(diǎn)燃干草,沖向曹軍的連環(huán)船,引燃他們的船只。
周瑜:妙啊!可是哪來的東風(fēng)?
諸葛亮:我來借東風(fēng)~
赤壁之戰(zhàn)那天,火船乘風(fēng)闖入曹軍船陣,頓時一片火海。聯(lián)軍乘勢攻擊,曹軍傷亡慘重,最后以聯(lián)軍大勝結(jié)束,成為了以少勝多的經(jīng)典戰(zhàn)役。
引燃連鎖船-圖片來源網(wǎng)絡(luò)
二、戰(zhàn)情分析
周瑜和黃蓋看出了連環(huán)船的弱點(diǎn):「如果一只船被燒著了,也會把連著的船燒著」 。
這就很像我們的系統(tǒng)中出現(xiàn)的服務(wù)雪崩問題。
假定我們系統(tǒng)引進(jìn)了微服務(wù)的思想,將多個服務(wù)進(jìn)行拆分,每個服務(wù)都是通過接口調(diào)用來完成的,看似功能通過微服務(wù)化后,功能和職責(zé)單一,正是我們想要的。
但隨著業(yè)務(wù)的增長,服務(wù)的數(shù)量也是隨之增多,邏輯也會更加復(fù)雜,一個服務(wù)的某個邏輯需要依賴多個其他服務(wù)才能完成。假如一個被依賴的服務(wù)不能向上游的服務(wù)提供服務(wù),則很可能造成雪崩效應(yīng),最后導(dǎo)致整個服務(wù)不可訪問。
就像雪山上某一處出現(xiàn)積雪崩塌的現(xiàn)象,慢慢地帶動其他片區(qū)的積雪崩塌,產(chǎn)生了級聯(lián)反應(yīng),最后造成大片的積雪崩塌,這就是常見的雪崩場景。
「小結(jié)」 一個服務(wù)失敗,導(dǎo)致整條鏈路的服務(wù)都失敗的場景,稱為服務(wù)雪崩。
那曹軍應(yīng)該怎么避免這個問題呢?別急,后面再看答案。
三、系統(tǒng)中的雪崩效應(yīng)
微服務(wù)之間往往采用 RPC 或者 HTTP 調(diào)用,一般都會設(shè)置調(diào)用超時的限制,或者通過失敗重試機(jī)制來確保服務(wù)成功執(zhí)行。但如果不考慮服務(wù)的熔斷和限流,還是很容易產(chǎn)生服務(wù)雪崩的。下面用例子來講解下雪崩效應(yīng)是怎么產(chǎn)生的。
雪崩效應(yīng)
- 我們系統(tǒng)中三個服務(wù):訂單服務(wù)、商品服務(wù)、庫存服務(wù)。
- 下單場景:用戶下單了一個商品,客戶端調(diào)用訂單服務(wù)來生成預(yù)付款訂單,訂單服務(wù)調(diào)用商品服務(wù)查看下單的哪款商品,商品服務(wù)調(diào)用庫存服務(wù)判斷這款商品是否有庫存,如有庫存,則可以生成預(yù)付款訂單。
- 假定因雙十一流量暴增,庫存服務(wù)不可用(如響應(yīng)超時等),庫存服務(wù)收到的很多請求都未處理完,它將無法處理更多請求。
- 而上游的商品服務(wù)依賴庫存服務(wù),商品服務(wù)的超時和重試機(jī)制會被執(zhí)行。商品服務(wù)新的調(diào)用不斷產(chǎn)生,會導(dǎo)致商品服務(wù)的調(diào)用被大量積壓,產(chǎn)生大量的調(diào)用等待和重試調(diào)用,慢慢耗盡商品服務(wù)的資源,比如內(nèi)存,結(jié)果導(dǎo)致商品服務(wù)也宕機(jī)了。
而訂單服務(wù)也會重走商品服務(wù)的老路。結(jié)果就是三個服務(wù)都不可用了。
四、造成雪崩的真實(shí)場景
1.4.1 服務(wù)提供者不可用
- 硬件故障:如網(wǎng)絡(luò)故障、硬盤損壞等。
- 程序的 bug:如算法需要占用大量 CPU 的計算時間導(dǎo)致 CPU 使用率過高。
- 緩存擊穿:比如應(yīng)用剛重啟,短時間內(nèi)緩存是失效的,導(dǎo)致大量請求直接訪問到了數(shù)據(jù)庫,數(shù)據(jù)庫不堪重負(fù),服務(wù)不可用。
- 秒殺和大促:服務(wù)短時間承載不了那么多請求量。
1.4.2 重試加大流量
- 用戶連續(xù)重試:比如用戶看到界面上沒有響應(yīng),所以又操作了一遍,結(jié)果又增加了一倍請求量。
- 程序重試機(jī)制:比如代碼中有多次重試的邏輯,一次失敗后,過幾秒后再重試,重試個三次就取消重試,走異常處理分支了。也是增加了請求量。
五、如何防止雪崩
方案
出問題前預(yù)防:限流、主動降級、隔離
出問題后修復(fù):熔斷、被動降級
六、熔斷原理和算法
1.6.1 熔斷概念
保險絲熔斷
熔斷這個概念來源于電路系統(tǒng)中的保險絲熔斷。當(dāng)電流過大時,保險絲熔斷,防止因電流過大損壞電器元器件,或因電流過大,導(dǎo)致元器件熱度過高,發(fā)生火災(zāi)。
保險絲長啥樣
「物理公式」 電功率 P = I^2 * R,I 代表電流,元器件的電阻 R 不變的情況下,電流越大,電功率約大,電阻做的電功大部分都用來發(fā)熱了,所以電功率越大,發(fā)熱越嚴(yán)重。(還好高中物理沒忘。)
放到我們系統(tǒng)中,怎么理解熔斷?
如果在某段時間內(nèi),調(diào)用某個服務(wù)非常慢甚至超時,就可以將這個服務(wù)熔斷,后續(xù)其他服務(wù)再調(diào)用這個服務(wù)就直接返回,告訴其他服務(wù):「“已經(jīng)熔斷了,你別調(diào)用我了,過段時間再來試下吧。”」
1.6.2 如何熔斷
「熔斷有個原則」 一段時間內(nèi),統(tǒng)計失敗的次數(shù)或者失敗請求的占比超過一定閾值,就進(jìn)行熔斷。
詳細(xì)的原理如下圖所示:
熔斷原理圖&悟空聊架構(gòu)
1.6.3 統(tǒng)計請求的算法
- 請求訪問到后臺服務(wù)后,首先判斷熔斷開關(guān)是否打開。
- 如果熔斷開關(guān)已打開,則表明當(dāng)前請求不能被處理。
- 如果熔斷開關(guān)未打開,則判斷時間窗口是否已滿。
- 如果時間窗口未滿,則請求桶中的請求數(shù)加 1。
- 如果返回的響應(yīng)有異常,則失敗桶的失敗數(shù)加 1,如果返回的響應(yīng)沒有異常,則成功桶的成功數(shù)加 1。
- 如果時間窗口已滿,則開始判斷是否需要熔斷。
1.6.4 熔斷的恢復(fù)算法
- 當(dāng)熔斷后,開關(guān)切換到斷開狀態(tài)。
- 過一段時間后,開關(guān)切換為半斷開狀態(tài)(Half-Open)。半斷開狀態(tài)下,允許對應(yīng)用程序的一定數(shù)量的請求可以去調(diào)用服務(wù),如果調(diào)用成功,則認(rèn)為服務(wù)可以正常訪問了,于是將開關(guān)切換為閉合狀態(tài)。
- 如果半斷開狀態(tài)下,還是有調(diào)用失敗的情況,則認(rèn)為服務(wù)還沒有恢復(fù),開關(guān)從半斷開狀態(tài)切換到斷開狀態(tài)。
1.6.5 統(tǒng)計失敗率的時間窗口
統(tǒng)計失敗率的時間窗口@悟空聊架構(gòu)
- 時間窗口可以比喻為人坐在窗戶邊,看外面來往的車輛,一定時間內(nèi)從窗戶外經(jīng)過的車輛。
- 每次請求,都會判斷時間窗口是否已滿(如5分鐘),如果時間窗口已滿,則重新開始計時,且清理請求數(shù)/成功數(shù)/失敗數(shù)。
- 注意:第一次開始的起始時間默認(rèn)為當(dāng)前時間。
1.6.6 嘗試恢復(fù)服務(wù)的時間窗口
嘗試恢復(fù)服務(wù)的時間窗口@悟空聊架構(gòu)
開關(guān)為斷開的狀態(tài),經(jīng)過一定時間后,比如 1 分鐘,設(shè)置為半斷開的狀態(tài),嘗試發(fā)送請求檢測服務(wù)是否恢復(fù)。
如果已恢復(fù),則切換狀態(tài)為關(guān)閉狀態(tài)。如果未恢復(fù),則切換狀態(tài)為斷開的狀態(tài),經(jīng)過 1 分鐘后,重復(fù)上面的步驟。
這里的時間窗口可以根據(jù)環(huán)境的運(yùn)行狀態(tài)進(jìn)行動態(tài)調(diào)整,比如第一次是 1 分鐘,第二次是 3 分鐘,第三次是 10 分鐘。
七、熔斷中間件
肯定有人會問了,你這上面講的原理,難道還真的自己去寫這套算法?
「答案:是的,項(xiàng)目中我們自己造了一個輪子:熔斷器。」
但這里我不推薦大家這么做。市面上還有更優(yōu)秀的開源組件供大家使用,比如阿里系的 Sentinel(推薦),Netflix 的 Hystrix(已停止更新)。
當(dāng)然 Sentinel 就不在這篇講了,后續(xù)奉上~
八、扭轉(zhuǎn)戰(zhàn)局
曹操大敗是因?yàn)檫B鎖船的原因,那如何給曹操提供一妙計,助他扭轉(zhuǎn)戰(zhàn)局呢?
「方案有如下幾個」
可以用麻繩代替鎖鏈,因繩子更容易割斷。(熔斷機(jī)制)
將船劃分到幾個區(qū)域,區(qū)域之間保持一定距離,即使某個區(qū)域燒著了,也不會影響其他區(qū)域。(熔斷+資源隔離)
在湖面上提前設(shè)關(guān)卡,黃蓋過來的話,先檢查船和人,有問題不予通行。(熔斷)
九、限流、降級
本來是想在這篇把限流和降級也寫完的,發(fā)現(xiàn)熔斷的內(nèi)容越寫越多了,那就把限流和降級放在后面幾篇吧。也是三國故事哦~
寫在最后
《三國演義》也是我非常喜歡的一部文學(xué)作品,書大概看了 80 %,電視劇是看完了的。
最喜歡的角色當(dāng)然是軍師諸葛亮啦,還有梟雄曹操~~
本文轉(zhuǎn)載自微信公眾號「悟空聊架構(gòu)」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系悟空聊架構(gòu)公眾號。
網(wǎng)頁標(biāo)題:東漢末年,他們把「服務(wù)雪崩」玩到了極致
URL標(biāo)題:http://fisionsoft.com.cn/article/dhpojic.html


咨詢
建站咨詢
