新聞中心
“資源供應(yīng)區(qū)”方案失敗 云服務(wù)故障切換成Amazon巨大挑戰(zhàn)
原創(chuàng)
作者:核子可樂譯 2011-04-29 09:48:53
云計算 上周發(fā)生的Amazon EC2服務(wù)器停轉(zhuǎn)事件,再次為當(dāng)今所采用的保障應(yīng)用程序正常運(yùn)行的負(fù)載平衡及故障切換系統(tǒng)的功能局限性敲響了警鐘。但Amazon只是個突出的例子,在云服務(wù)供應(yīng)商中,任何一家都無法保證自己的系統(tǒng)能夠提供100%的正常運(yùn)行率。

創(chuàng)新互聯(lián)建站網(wǎng)站建設(shè)公司,提供成都做網(wǎng)站、網(wǎng)站設(shè)計,網(wǎng)頁設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);可快速的進(jìn)行網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,是專業(yè)的做網(wǎng)站團(tuán)隊,希望更多企業(yè)前來合作!
Amazon的EC2 服務(wù)器停轉(zhuǎn)事件將當(dāng)下故障切換系統(tǒng)的局限性推向風(fēng)口浪尖,但Amazon并不是惟一無法保證云服務(wù)正常工作率達(dá)到100%的供應(yīng)商。
上周發(fā)生的Amazon EC2服務(wù)器停轉(zhuǎn)事件,再次為當(dāng)今所采用的保障應(yīng)用程序正常運(yùn)行的負(fù)載平衡及故障切換系統(tǒng)的功能局限性敲響了警鐘。但Amazon只是個突出的例子,在云服務(wù)供應(yīng)商中,任何一家都無法保證自己的系統(tǒng)能夠提供100%的正常運(yùn)行率。
構(gòu)建以云技術(shù)為基礎(chǔ)的應(yīng)用程序時,要實現(xiàn)當(dāng)某座數(shù)據(jù)中心發(fā)生故障時,所有應(yīng)用功能都可以及時由其它運(yùn)行正常的中心來提供,這一要求不僅是對供應(yīng)商技術(shù)力量的挑戰(zhàn),同時可能也要求客戶具備良好的技術(shù)支持團(tuán)隊。因為客戶必須與云供應(yīng)商緊密協(xié)作并購置第三方出品的負(fù)載平衡產(chǎn)品來保證當(dāng)類似Amazon事件發(fā)生時,相關(guān)的應(yīng)用程序仍能正常運(yùn)行。
GoGrid,這家公司以一種與Amazon類似的形式提供基礎(chǔ)設(shè)施即服務(wù)(簡稱IaaS)計算,并且向消費(fèi)者做出了一系列當(dāng)數(shù)據(jù)中心出現(xiàn)故障時的承諾。但是這并不意味著整套云服務(wù)體系絕不會出現(xiàn)當(dāng)機(jī)情況。
“對于我們所提供的服務(wù)來說,我們希望能夠使其好評率達(dá)到100%,并且不會發(fā)生有損雙方利益的事故,”GoGrid公司創(chuàng)始人同時也是現(xiàn)任CEO的John Keagy說道。“而一旦事故發(fā)生了,客戶不應(yīng)該把100%的好評率解釋為100%的正常運(yùn)行率?!?/p>
但消費(fèi)者仍然能夠通過部署一些災(zāi)備措施的方式,來保障其應(yīng)用程序在發(fā)生服務(wù)器停機(jī)事故時仍能正常運(yùn)作,Keagy說道。那些沒有做過任何事故恢復(fù)及故障切換準(zhǔn)備工作的Amazon客戶,在上周的停機(jī)事件中所遭受的損失很可能遠(yuǎn)遠(yuǎn)大于那些做過相關(guān)準(zhǔn)備的客戶,他說。
GoGrid公司的云服務(wù)產(chǎn)品部署在十一座數(shù)據(jù)中心當(dāng)中,而其主要負(fù)載以主機(jī)代管的形式實現(xiàn)??蛻魝兿M跒?zāi)難性事件發(fā)生時自己的應(yīng)用程序支持可以由一個數(shù)據(jù)中心切換至另一個的愿望,能夠借助第三方公司提供的全局流量管理產(chǎn)品來實現(xiàn),Keagy說??蛻暨€可以通過與GoGrid公司所提供的增值服務(wù)來對自己的應(yīng)用部署這套完整的保護(hù)方案,但“必須與我們協(xié)同進(jìn)行構(gòu)建工作,”Keagy說。
“這就是關(guān)于必要的基礎(chǔ)設(shè)施的全部內(nèi)容,”Keagy說道。“這跟服務(wù)器類的運(yùn)行平臺或是軟件不同,這是從基礎(chǔ)設(shè)施的源頭上進(jìn)行改造,需要使用者對整套執(zhí)行體系有一定的了解?!?/p>
Amazon的方案是將客戶的主機(jī)應(yīng)用程序部署在多個“資源供應(yīng)區(qū)”內(nèi)來應(yīng)對局部故障,但這些區(qū)域彼此之間的距離到底有多遠(yuǎn)、是否真的能立即提供切換并保持應(yīng)用流暢還是未知數(shù)。至少從上周的情況來看,多個“資源供應(yīng)區(qū)”這套方案徹底失敗了。
雖然包括Foursquare,Reddit,Quora以及Hootsuite在內(nèi)的許多站點(diǎn)相繼發(fā)生斷線事故,但SmugMug這一照片分享網(wǎng)站的成功經(jīng)驗表明了做好預(yù)防工作確實能夠幫助客戶成功應(yīng)對故障。上周的Amazon事件,SmugMug公司的CEO Don MacAskill將其稱為“Amazon啟示錄”。
SmugMug將其服務(wù)分別部署于三個資源供應(yīng)區(qū)中,并且決定不采用Amazon的“彈性模塊存儲”方案,因為其“性能無法保證且耐用性不理想,”MacAskill在他的博文中寫道。而數(shù)據(jù)存儲服務(wù)在上周的大崩潰中需要承擔(dān)主要責(zé)任。
如果大家打算將自己的關(guān)鍵性應(yīng)用服務(wù)依靠云技術(shù)實現(xiàn),MacAskill的建議是應(yīng)將其分散部署于Amazon各地的機(jī)房(包括東海岸及西海岸等)或是干脆采用多家云服務(wù)供應(yīng)商。
Amazon的負(fù)載平衡服務(wù)無法在跨地區(qū)的前提下正常發(fā)揮作用,因此客戶必須親自做一些額外的工作,并依靠引入第三方軟件的辦法來徹底實現(xiàn)該保障方案,Gartner公司的分析師Drue Reeves說。然而,將應(yīng)用程序分散部署在多家服務(wù)供應(yīng)商那里雖然不是不可能,但也難度極大,因為各供應(yīng)商的服務(wù)之間缺乏一套統(tǒng)一的標(biāo)準(zhǔn)和交互操作規(guī)范。
Rackspace公司,另一家基礎(chǔ)設(shè)施即服務(wù)供應(yīng)商,最近開始提供云負(fù)載平衡服務(wù),借以在某臺服務(wù)器失效時,保護(hù)其上的特定應(yīng)用程序。但是負(fù)載平衡工具的運(yùn)作機(jī)理并不是將信息分別部署在不同的數(shù)據(jù)中心當(dāng)中。
Josh Odom,Rackspace公司云平臺產(chǎn)品開發(fā)的負(fù)責(zé)人,指出將應(yīng)用程序運(yùn)行于多個數(shù)據(jù)中心以保證100%的正常運(yùn)行時間是最理想的,而Rackspace公司正在嘗試使客戶能夠更容易地利用第三方的負(fù)載平衡工具及故障切換機(jī)制來達(dá)成上述目標(biāo)。***的挑戰(zhàn)并非來自應(yīng)用程序本身,而是來自數(shù)據(jù),Odom說。“任何與相關(guān)數(shù)據(jù)庫系統(tǒng)有聯(lián)系的數(shù)據(jù)庫復(fù)制工作都是相當(dāng)麻煩的,”O(jiān)dom說。“而我們所做的正是盡量清理這類阻礙。”
Rackspace公司部署于德克薩斯州的數(shù)據(jù)中心曾于2009年遭遇了一些電力供應(yīng)中斷狀況,這迫使該公司不得不向客戶做出信譽(yù)承諾。此后,公司引入了新的數(shù)據(jù)中心管理專家,并對低端以及高端的全部設(shè)施進(jìn)行了重新審核,Odom說道。不管過去發(fā)生了什么樣的問題,Odom說,如今Rackspace公司的數(shù)據(jù)中心已經(jīng)被設(shè)計為專門抵御“災(zāi)難性故障”,包括主要供電中斷以及網(wǎng)絡(luò)問題。
雖然基礎(chǔ)設(shè)施層面上的事故恢復(fù)規(guī)劃對技術(shù)水平有所要求,但并不是所有的云服務(wù)都需要配備專門的管理人員。平臺即服務(wù)產(chǎn)品——例如微軟的Windows Azure或谷歌的App Engine——旨在盡量減少基礎(chǔ)設(shè)施的介入,并為開發(fā)人員提供一個相對簡單的方式來建立并托管網(wǎng)頁應(yīng)用程序。
然而負(fù)載平衡以及數(shù)據(jù)中心之間的故障切換體系對于平臺即服務(wù)這類云產(chǎn)品仍然具有巨大的積極意義。
微軟近來公布了一款名為“微軟Azure流量管理器”的工具,據(jù)說它將使“同一款應(yīng)用程序的開發(fā)過程以拓?fù)湫问江h(huán)狀部署于各數(shù)據(jù)中心當(dāng)中,并構(gòu)成故障切換及負(fù)載平衡功能的基礎(chǔ)?!盇zure流量管理器目前僅在某個社區(qū)中展示技術(shù)預(yù)覽效果,這意味著它并不能為每一類客戶提供幫助。雖然Windows Azure流量管理器將流量分布在不同的數(shù)據(jù)中心中,但SQL Azure數(shù)據(jù)同步工具,同樣處于測試階段,能夠復(fù)制“不同數(shù)據(jù)中心中的數(shù)據(jù)庫信息以防止資料在直接傳輸過程中的丟失,”微軟如是說。
開發(fā)人員Rober McLaws在Twitter上發(fā)布文章稱,即使沒有Windows Azure流量管理器,客戶們?nèi)匀荒軌驗樽约旱膽?yīng)用程序構(gòu)建起數(shù)據(jù)中心之間的故障切換機(jī)制,只要我們“事必躬親地進(jìn)行管理”。
谷歌的App Engine服務(wù)能夠?qū)?yīng)用程序及數(shù)據(jù)從一個數(shù)據(jù)中心轉(zhuǎn)移到另一個,而不會在故障發(fā)生時造成數(shù)據(jù)丟失或是當(dāng)機(jī),谷歌產(chǎn)品經(jīng)理Greg D’alesandre說。谷歌沒有透露該種切換是否對數(shù)據(jù)中心之間的距離有所限制,但他說:“該系統(tǒng)的設(shè)計使單一地理區(qū)域內(nèi)的主機(jī)故障不再產(chǎn)生影響?!?/p>
而與此同時,Amazon方面被指責(zé)沒有為上周的事件提供詳盡的故障說明。Amazon將其歸咎于“網(wǎng)絡(luò)問題”,即“由大量的鏡像引用所造成的”存儲量,引發(fā)了短暫的服務(wù)中斷,并導(dǎo)致虛擬機(jī)無法連接。
Thorsten von Eicken,RightScale公司的創(chuàng)始人及CTO,曾為Amazon EC2提供過功能強(qiáng)化服務(wù),而對于上述事態(tài),他的意見是Amazon在公關(guān)交流水平方面“只得了F”,并且完全沒有提供一套深層次的事故原因分析。
原文名:Cloud failover a challenge for Amazon competitors, too 作者:Jon Brodkin
【本文乃51CTO精選譯文,轉(zhuǎn)載請標(biāo)明出處!】
【編輯推薦】
- 使用Microsoft Azure 讓云遷移變得簡便的5種方法
- VMware的混合云遷移工具:vCloud Connector
- 企業(yè)CRM等業(yè)務(wù)系統(tǒng)遷移到 "云"中的***實現(xiàn)
- 云計算該“遷移”還是“自建”?
- 云遷移全攻略:哪些應(yīng)用適合遷移
- 亞馬遜 谷歌 微軟三大試用云服務(wù)大比拼(上)
- 亞馬遜推出1年免費(fèi)云計算服務(wù)
- 亞馬遜EC2中斷 “可用區(qū)”遭質(zhì)疑
- 從亞馬遜云服務(wù)故障中吸取的七個教訓(xùn)
本文標(biāo)題:“資源供應(yīng)區(qū)”方案失敗云服務(wù)故障切換成Amazon巨大挑戰(zhàn)
本文鏈接:http://fisionsoft.com.cn/article/dhdejhi.html


咨詢
建站咨詢
