辰东,梦入神机,遮天辰东小说笔趣阁

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

“資源供應(yīng)區(qū)”方案失敗云服務(wù)故障切換成Amazon巨大挑戰(zhàn)

原創(chuàng)
作者：核子可樂譯 2011-04-29 09:48:53

云計算上周發(fā)生的Amazon EC2服務(wù)器停轉(zhuǎn)事件，再次為當(dāng)今所采用的保障應(yīng)用程序正常運(yùn)行的負(fù)載平衡及故障切換系統(tǒng)的功能局限性敲響了警鐘。但Amazon只是個突出的例子，在云服務(wù)供應(yīng)商中，任何一家都無法保證自己的系統(tǒng)能夠提供100%的正常運(yùn)行率。

創(chuàng)新互聯(lián)建站網(wǎng)站建設(shè)公司，提供成都做網(wǎng)站、網(wǎng)站設(shè)計，網(wǎng)頁設(shè)計，建網(wǎng)站，PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);可快速的進(jìn)行網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展；專業(yè)做搜索引擎喜愛的網(wǎng)站，是專業(yè)的做網(wǎng)站團(tuán)隊，希望更多企業(yè)前來合作!

Amazon的EC2 服務(wù)器停轉(zhuǎn)事件將當(dāng)下故障切換系統(tǒng)的局限性推向風(fēng)口浪尖，但Amazon并不是惟一無法保證云服務(wù)正常工作率達(dá)到100%的供應(yīng)商。

上周發(fā)生的Amazon EC2服務(wù)器停轉(zhuǎn)事件，再次為當(dāng)今所采用的保障應(yīng)用程序正常運(yùn)行的負(fù)載平衡及故障切換系統(tǒng)的功能局限性敲響了警鐘。但Amazon只是個突出的例子，在云服務(wù)供應(yīng)商中，任何一家都無法保證自己的系統(tǒng)能夠提供100%的正常運(yùn)行率。

構(gòu)建以云技術(shù)為基礎(chǔ)的應(yīng)用程序時，要實現(xiàn)當(dāng)某座數(shù)據(jù)中心發(fā)生故障時，所有應(yīng)用功能都可以及時由其它運(yùn)行正常的中心來提供，這一要求不僅是對供應(yīng)商技術(shù)力量的挑戰(zhàn)，同時可能也要求客戶具備良好的技術(shù)支持團(tuán)隊。因為客戶必須與云供應(yīng)商緊密協(xié)作并購置第三方出品的負(fù)載平衡產(chǎn)品來保證當(dāng)類似Amazon事件發(fā)生時，相關(guān)的應(yīng)用程序仍能正常運(yùn)行。

GoGrid，這家公司以一種與Amazon類似的形式提供基礎(chǔ)設(shè)施即服務(wù)（簡稱IaaS）計算，并且向消費(fèi)者做出了一系列當(dāng)數(shù)據(jù)中心出現(xiàn)故障時的承諾。但是這并不意味著整套云服務(wù)體系絕不會出現(xiàn)當(dāng)機(jī)情況。

“對于我們所提供的服務(wù)來說，我們希望能夠使其好評率達(dá)到100%，并且不會發(fā)生有損雙方利益的事故，”GoGrid公司創(chuàng)始人同時也是現(xiàn)任CEO的John Keagy說道。“而一旦事故發(fā)生了，客戶不應(yīng)該把100%的好評率解釋為100%的正常運(yùn)行率?！?/p>

但消費(fèi)者仍然能夠通過部署一些災(zāi)備措施的方式，來保障其應(yīng)用程序在發(fā)生服務(wù)器停機(jī)事故時仍能正常運(yùn)作，Keagy說道。那些沒有做過任何事故恢復(fù)及故障切換準(zhǔn)備工作的Amazon客戶，在上周的停機(jī)事件中所遭受的損失很可能遠(yuǎn)遠(yuǎn)大于那些做過相關(guān)準(zhǔn)備的客戶，他說。

GoGrid公司的云服務(wù)產(chǎn)品部署在十一座數(shù)據(jù)中心當(dāng)中，而其主要負(fù)載以主機(jī)代管的形式實現(xiàn)?？蛻魝兿Ｍ跒?zāi)難性事件發(fā)生時自己的應(yīng)用程序支持可以由一個數(shù)據(jù)中心切換至另一個的愿望，能夠借助第三方公司提供的全局流量管理產(chǎn)品來實現(xiàn)，Keagy說?？蛻暨€可以通過與GoGrid公司所提供的增值服務(wù)來對自己的應(yīng)用部署這套完整的保護(hù)方案，但“必須與我們協(xié)同進(jìn)行構(gòu)建工作，”Keagy說。

“這就是關(guān)于必要的基礎(chǔ)設(shè)施的全部內(nèi)容，”Keagy說道。“這跟服務(wù)器類的運(yùn)行平臺或是軟件不同，這是從基礎(chǔ)設(shè)施的源頭上進(jìn)行改造，需要使用者對整套執(zhí)行體系有一定的了解?！?/p>

Amazon的方案是將客戶的主機(jī)應(yīng)用程序部署在多個“資源供應(yīng)區(qū)”內(nèi)來應(yīng)對局部故障，但這些區(qū)域彼此之間的距離到底有多遠(yuǎn)、是否真的能立即提供切換并保持應(yīng)用流暢還是未知數(shù)。至少從上周的情況來看，多個“資源供應(yīng)區(qū)”這套方案徹底失敗了。

雖然包括Foursquare，Reddit，Quora以及Hootsuite在內(nèi)的許多站點(diǎn)相繼發(fā)生斷線事故，但SmugMug這一照片分享網(wǎng)站的成功經(jīng)驗表明了做好預(yù)防工作確實能夠幫助客戶成功應(yīng)對故障。上周的Amazon事件，SmugMug公司的CEO Don MacAskill將其稱為“Amazon啟示錄”。

SmugMug將其服務(wù)分別部署于三個資源供應(yīng)區(qū)中，并且決定不采用Amazon的“彈性模塊存儲”方案，因為其“性能無法保證且耐用性不理想，”MacAskill在他的博文中寫道。而數(shù)據(jù)存儲服務(wù)在上周的大崩潰中需要承擔(dān)主要責(zé)任。

如果大家打算將自己的關(guān)鍵性應(yīng)用服務(wù)依靠云技術(shù)實現(xiàn)，MacAskill的建議是應(yīng)將其分散部署于Amazon各地的機(jī)房（包括東海岸及西海岸等）或是干脆采用多家云服務(wù)供應(yīng)商。

Amazon的負(fù)載平衡服務(wù)無法在跨地區(qū)的前提下正常發(fā)揮作用，因此客戶必須親自做一些額外的工作，并依靠引入第三方軟件的辦法來徹底實現(xiàn)該保障方案，Gartner公司的分析師Drue Reeves說。然而，將應(yīng)用程序分散部署在多家服務(wù)供應(yīng)商那里雖然不是不可能，但也難度極大，因為各供應(yīng)商的服務(wù)之間缺乏一套統(tǒng)一的標(biāo)準(zhǔn)和交互操作規(guī)范。

Rackspace公司，另一家基礎(chǔ)設(shè)施即服務(wù)供應(yīng)商，最近開始提供云負(fù)載平衡服務(wù)，借以在某臺服務(wù)器失效時，保護(hù)其上的特定應(yīng)用程序。但是負(fù)載平衡工具的運(yùn)作機(jī)理并不是將信息分別部署在不同的數(shù)據(jù)中心當(dāng)中。

Josh Odom，Rackspace公司云平臺產(chǎn)品開發(fā)的負(fù)責(zé)人，指出將應(yīng)用程序運(yùn)行于多個數(shù)據(jù)中心以保證100%的正常運(yùn)行時間是最理想的，而Rackspace公司正在嘗試使客戶能夠更容易地利用第三方的負(fù)載平衡工具及故障切換機(jī)制來達(dá)成上述目標(biāo)。***的挑戰(zhàn)并非來自應(yīng)用程序本身，而是來自數(shù)據(jù)，Odom說。“任何與相關(guān)數(shù)據(jù)庫系統(tǒng)有聯(lián)系的數(shù)據(jù)庫復(fù)制工作都是相當(dāng)麻煩的，”O(jiān)dom說。“而我們所做的正是盡量清理這類阻礙。”

Rackspace公司部署于德克薩斯州的數(shù)據(jù)中心曾于2009年遭遇了一些電力供應(yīng)中斷狀況，這迫使該公司不得不向客戶做出信譽(yù)承諾。此后，公司引入了新的數(shù)據(jù)中心管理專家，并對低端以及高端的全部設(shè)施進(jìn)行了重新審核，Odom說道。不管過去發(fā)生了什么樣的問題，Odom說，如今Rackspace公司的數(shù)據(jù)中心已經(jīng)被設(shè)計為專門抵御“災(zāi)難性故障”，包括主要供電中斷以及網(wǎng)絡(luò)問題。

雖然基礎(chǔ)設(shè)施層面上的事故恢復(fù)規(guī)劃對技術(shù)水平有所要求，但并不是所有的云服務(wù)都需要配備專門的管理人員。平臺即服務(wù)產(chǎn)品——例如微軟的Windows Azure或谷歌的App Engine——旨在盡量減少基礎(chǔ)設(shè)施的介入，并為開發(fā)人員提供一個相對簡單的方式來建立并托管網(wǎng)頁應(yīng)用程序。

然而負(fù)載平衡以及數(shù)據(jù)中心之間的故障切換體系對于平臺即服務(wù)這類云產(chǎn)品仍然具有巨大的積極意義。

微軟近來公布了一款名為“微軟Azure流量管理器”的工具，據(jù)說它將使“同一款應(yīng)用程序的開發(fā)過程以拓?fù)湫问江h(huán)狀部署于各數(shù)據(jù)中心當(dāng)中，并構(gòu)成故障切換及負(fù)載平衡功能的基礎(chǔ)?！盇zure流量管理器目前僅在某個社區(qū)中展示技術(shù)預(yù)覽效果，這意味著它并不能為每一類客戶提供幫助。雖然Windows Azure流量管理器將流量分布在不同的數(shù)據(jù)中心中，但SQL Azure數(shù)據(jù)同步工具，同樣處于測試階段，能夠復(fù)制“不同數(shù)據(jù)中心中的數(shù)據(jù)庫信息以防止資料在直接傳輸過程中的丟失，”微軟如是說。

開發(fā)人員Rober McLaws在Twitter上發(fā)布文章稱，即使沒有Windows Azure流量管理器，客戶們?nèi)匀荒軌驗樽约旱膽?yīng)用程序構(gòu)建起數(shù)據(jù)中心之間的故障切換機(jī)制，只要我們“事必躬親地進(jìn)行管理”。

谷歌的App Engine服務(wù)能夠?qū)?yīng)用程序及數(shù)據(jù)從一個數(shù)據(jù)中心轉(zhuǎn)移到另一個，而不會在故障發(fā)生時造成數(shù)據(jù)丟失或是當(dāng)機(jī)，谷歌產(chǎn)品經(jīng)理Greg D’alesandre說。谷歌沒有透露該種切換是否對數(shù)據(jù)中心之間的距離有所限制，但他說：“該系統(tǒng)的設(shè)計使單一地理區(qū)域內(nèi)的主機(jī)故障不再產(chǎn)生影響?！?/p>

而與此同時，Amazon方面被指責(zé)沒有為上周的事件提供詳盡的故障說明。Amazon將其歸咎于“網(wǎng)絡(luò)問題”，即“由大量的鏡像引用所造成的”存儲量，引發(fā)了短暫的服務(wù)中斷，并導(dǎo)致虛擬機(jī)無法連接。

Thorsten von Eicken，RightScale公司的創(chuàng)始人及CTO，曾為Amazon EC2提供過功能強(qiáng)化服務(wù)，而對于上述事態(tài)，他的意見是Amazon在公關(guān)交流水平方面“只得了F”，并且完全沒有提供一套深層次的事故原因分析。

原文名：Cloud failover a challenge for Amazon competitors, too 作者：Jon Brodkin

【本文乃51CTO精選譯文，轉(zhuǎn)載請標(biāo)明出處！】

【編輯推薦】

使用Microsoft Azure 讓云遷移變得簡便的5種方法
VMware的混合云遷移工具：vCloud Connector
企業(yè)CRM等業(yè)務(wù)系統(tǒng)遷移到 "云"中的***實現(xiàn)
云計算該“遷移”還是“自建”?
云遷移全攻略：哪些應(yīng)用適合遷移
亞馬遜谷歌微軟三大試用云服務(wù)大比拼（上）
亞馬遜推出1年免費(fèi)云計算服務(wù)
亞馬遜EC2中斷 “可用區(qū)”遭質(zhì)疑
從亞馬遜云服務(wù)故障中吸取的七個教訓(xùn)

本文標(biāo)題：“資源供應(yīng)區(qū)”方案失敗云服務(wù)故障切換成Amazon巨大挑戰(zhàn)
本文鏈接：http://fisionsoft.com.cn/article/dhdejhi.html

新聞中心

“資源供應(yīng)區(qū)”方案失敗 云服務(wù)故障切換成Amazon巨大挑戰(zhàn)

其他資訊

“資源供應(yīng)區(qū)”方案失敗云服務(wù)故障切換成Amazon巨大挑戰(zhàn)