新聞中心
運(yùn)維發(fā)展歷程與工業(yè)革命異曲同工,工業(yè)的三次革命分別是機(jī)械化、電氣化與信息化,運(yùn)維則是原始手工、腳本與自動(dòng)化工具。那么工業(yè)4.0悄然來臨的今天,智能化又將會(huì)給運(yùn)維帶來哪些影響?坦白講,AIOps是新概念,目前并沒有準(zhǔn)確且廣泛使用的定義,對(duì)AIOps的認(rèn)知也會(huì)隨實(shí)踐、反思和討論的不斷積累發(fā)生演變。但AIOps所指代的整體趨勢(shì)是毋庸置疑的,智能化將逐步走進(jìn)IT行業(yè)乃至社會(huì)生活的各個(gè)方面。

創(chuàng)新互聯(lián)建站網(wǎng)站建設(shè)公司一直秉承“誠(chéng)信做人,踏實(shí)做事”的原則,不欺瞞客戶,是我們最起碼的底線! 以服務(wù)為基礎(chǔ),以質(zhì)量求生存,以技術(shù)求發(fā)展,成交一個(gè)客戶多一個(gè)朋友!專注中小微企業(yè)官網(wǎng)定制,網(wǎng)站設(shè)計(jì)制作、網(wǎng)站設(shè)計(jì),塑造企業(yè)網(wǎng)絡(luò)形象打造互聯(lián)網(wǎng)企業(yè)效應(yīng)。
今天, 由 主辦的第十六期以“Tech Neo”為主題的技術(shù)沙龍活動(dòng)如期舉行,此次沙龍邀請(qǐng)了來自陌陌科技SRE團(tuán)隊(duì)負(fù)責(zé)人王景學(xué)、去哪兒網(wǎng)DevOps工程師葉璐和ThoughtWorks高級(jí)咨詢師顧宇。希望講師們這些基于平臺(tái)、建站、深度學(xué)習(xí)等不同方式的自動(dòng)化運(yùn)維實(shí)踐經(jīng)驗(yàn),多少可以為運(yùn)維/開發(fā)人員帶來一些的新思路。
自動(dòng)化運(yùn)維與 DevOps”沙龍現(xiàn)場(chǎng)
陌陌在k8s容器方面的實(shí)踐
首位演講的是王景學(xué)老師,主要分享陌陌在k8s容器方面的實(shí)踐和應(yīng)用遷移方面的一些經(jīng)驗(yàn)。當(dāng)時(shí)陌陌選用k8s進(jìn)行實(shí)踐的主要原因是,應(yīng)用發(fā)布時(shí)間過長(zhǎng)、緊急擴(kuò)容吃力,效率低且應(yīng)用運(yùn)行環(huán)境軟件版本不一致,配置復(fù)雜,維護(hù)成本比較高,硬件資源利用率不高,總體成本比較高。
k8s方面的設(shè)計(jì)目標(biāo)有五點(diǎn),分別是:提高服務(wù)的可用性,可管理性、使用k8s來管理docker集群、開發(fā)不需要關(guān)心服務(wù)器、提高資源隔離性,實(shí)現(xiàn)服務(wù)混合部署,應(yīng)用級(jí)別基礎(chǔ)資源監(jiān)控,服務(wù)平滑遷移等。針對(duì)這些問題和目標(biāo),通過自研發(fā)布系統(tǒng),基于docker和k8s的容器管理平臺(tái),便于開發(fā)者便捷地部署自己的應(yīng)用程序。
如下圖,是K8s架構(gòu)
針對(duì)K8s架構(gòu),王景學(xué)老師還分享了基于location和group標(biāo)簽的集群調(diào)度、基于ovs的網(wǎng)絡(luò)節(jié)點(diǎn)架構(gòu)和實(shí)現(xiàn)、集群在阿里云擴(kuò)展和支持,測(cè)試環(huán)境中有狀態(tài)應(yīng)用的嘗試、容器基礎(chǔ)資源監(jiān)控方面的指標(biāo)等,還有在應(yīng)用遷移過程中,遇到了Swap、cpu軟中斷及資源利用率,應(yīng)用白名單等問題。
于未來,希望可以實(shí)現(xiàn)對(duì)應(yīng)用請(qǐng)求量,線程數(shù),流量等指標(biāo)的監(jiān)控?;鶞?zhǔn)值部分,達(dá)到單實(shí)例可承載請(qǐng)求量,線程數(shù),流量。伸縮方面,做到最小保留實(shí)例數(shù),最大擴(kuò)容實(shí)例數(shù),根據(jù)監(jiān)控反饋和基準(zhǔn)值計(jì)算需要擴(kuò)容和縮容的實(shí)例數(shù), 按照各個(gè)集群資源余量按比例伸縮。
去哪兒網(wǎng)基于Kubernetes/Ceph的機(jī)器學(xué)習(xí)云實(shí)踐
第二位演講者是有豐富云平臺(tái)建設(shè)、運(yùn)維、容器云落地等經(jīng)驗(yàn)的葉璐老師,演講的主題是去哪兒網(wǎng)基于Kubernetes/Ceph的機(jī)器學(xué)習(xí)云實(shí)踐。
葉璐老師以深度學(xué)習(xí)的興起為演講開端,這要涉及深度學(xué)習(xí)的概念、興起的原因、深度學(xué)習(xí)加速器-GPU等方面的內(nèi)容。緊接著分享了深度學(xué)習(xí)在Qunar的應(yīng)用,像智能客服,拿去花用戶信用評(píng)級(jí),酒店推薦等都是經(jīng)典實(shí)踐。
演講最核心的部分是如何應(yīng)對(duì)GPU使用資源的一系列問題,如環(huán)境無隔離、采購(gòu)周期長(zhǎng)、 資源利用率低、各種工具的環(huán)境部署成本高等。
針對(duì)這些問題,去哪網(wǎng)采用的方式是構(gòu)建GPU云,第一期的目標(biāo)是GPU資源云化, 持業(yè)務(wù)線同學(xué)快捷定制機(jī)器學(xué)習(xí)應(yīng)用,秒建秒刪,一鍵釋放GPU資源,建立統(tǒng)GPU 資源申請(qǐng)和管理等入口到Portal,降低業(yè)務(wù)線同學(xué)的接入和學(xué)習(xí)成本。做到環(huán)境隔離同時(shí)保證訓(xùn)練數(shù)據(jù)在分布式環(huán)境下的持久化和可靠性,以及支持Tensorflow全工具鏈。
如下圖,是機(jī)器學(xué)習(xí)應(yīng)用的一種部署情況
葉璐表示,目前一期已經(jīng)完成正在公測(cè)中,使用前后對(duì)比,在環(huán)境秒起秒刪、環(huán)境隔離給開發(fā)同學(xué)提供極大的便利。在對(duì)接Ceph后,數(shù)據(jù)的可用性和可靠性大大提升,不用擔(dān)心因?yàn)楦鼡Q機(jī)器帶來的訓(xùn)練數(shù)據(jù)遷移,丟失。
GPU云基礎(chǔ)環(huán)境固化,讓開發(fā)同學(xué)免受環(huán)境安裝之苦是第一步?,F(xiàn)在Spectrum第二期也在開發(fā)中,開發(fā)工程師隨時(shí)固化到Kubernetes Post-Install,提供了更高的環(huán)境定制自由度;同時(shí)Tensorflow serving的上線,為機(jī)器學(xué)習(xí)應(yīng)用真正落地提供了更完整的pipeline,同時(shí)還有其他的優(yōu)化,上下游的數(shù)據(jù)獲取管道,預(yù)處理流程優(yōu)化,Jupyter插件系統(tǒng)集成。
用基礎(chǔ)設(shè)施即代碼自動(dòng)化架構(gòu)遷移
最后一位演講人是專注于 DevOps、持續(xù)交付,微服務(wù)以及全功能產(chǎn)品團(tuán)隊(duì)的設(shè)計(jì)、實(shí)踐、落地以及經(jīng)驗(yàn)推廣的顧宇老師。他的演講主題是用基礎(chǔ)設(shè)施即代碼自動(dòng)化架構(gòu)遷移。
演講由一個(gè)真實(shí)的架構(gòu)遷移案例展開,分享了在一個(gè)東南亞互聯(lián)網(wǎng)企業(yè)并購(gòu)案例中的 DevOps 的實(shí)施案例。通過在 AWS上使用 Ansible 和 CloudFormation作為基礎(chǔ)設(shè)施即代碼的工具實(shí)現(xiàn)產(chǎn)品架構(gòu)的遷移。
在互聯(lián)網(wǎng)企業(yè)的并購(gòu)過程中,不光是組織結(jié)構(gòu)的融合,更是產(chǎn)品架構(gòu)和產(chǎn)品團(tuán)隊(duì)的融合。然而在不同的企業(yè)文化、技術(shù)能力甚至是不同的國(guó)家法律法規(guī)上的融合更多的是看不到的隱形成本。
通過 DevOps 的基礎(chǔ)設(shè)施即代碼實(shí)踐,把架構(gòu)以及開發(fā)/運(yùn)維實(shí)踐固化為配置和代碼。讓所有的團(tuán)隊(duì)和成員能夠依照同樣的規(guī)則進(jìn)行開發(fā)和運(yùn)維。通過自動(dòng)化的手段加速團(tuán)隊(duì)和產(chǎn)品和架構(gòu)的融合過程,提升整個(gè)組織的技術(shù)水平。
首先,根據(jù)康威定理,組織和架構(gòu)和基礎(chǔ)設(shè)施架構(gòu)要保持一致,就可以根據(jù)未來的組織結(jié)構(gòu)設(shè)計(jì)系統(tǒng)架構(gòu),可以減少系統(tǒng)架構(gòu)演進(jìn)中的適應(yīng)性浪費(fèi)。
其次,把整個(gè)架構(gòu)分層次封裝:基礎(chǔ)設(shè)施、應(yīng)用和數(shù)據(jù) 三種類型分別進(jìn)行封裝:
- 基礎(chǔ)設(shè)施通過配置管理技術(shù)封裝在 Ansible 的 Playbook里,把 Ansible 作為 Cloudformation的引擎。
- 應(yīng)用通過 Docker 鏡像進(jìn)行封裝,根據(jù)不同的地區(qū)在構(gòu)建過程中進(jìn)行合并。
- 數(shù)據(jù)通過自動(dòng)化的備份腳本和自動(dòng)化的遷移腳本(Migration Scripts)實(shí)時(shí)保證可用性。
然后,根據(jù)使用場(chǎng)景,設(shè)計(jì)基礎(chǔ)設(shè)施即代碼的架構(gòu)。能夠自動(dòng)的把整個(gè)架構(gòu)自動(dòng)的搭建和還原。根據(jù)使用場(chǎng)景設(shè)計(jì)安全策略,避免人為操作,減少人為故障。
顧宇老師表示,基礎(chǔ)設(shè)計(jì)即代碼和基礎(chǔ)設(shè)施是類和對(duì)象的關(guān)系。根據(jù)不同的場(chǎng)景,可以采用面向?qū)ο笤瓌t進(jìn)行邏輯分層。隔離不同場(chǎng)景的關(guān)注點(diǎn)。例如:持續(xù)交付關(guān)注Docker 鏡像的部署和變更,應(yīng)用維護(hù)關(guān)注日志的查詢和操作。
最后在該案例中,顧宇老師總結(jié)了利用基礎(chǔ)設(shè)施即代碼技術(shù)的幾個(gè)關(guān)鍵要點(diǎn):
- 架構(gòu)遷移要為組織結(jié)構(gòu)遷移服務(wù)
- 把自動(dòng)化和基礎(chǔ)設(shè)施即代碼當(dāng)做制度使用(康威定理和逆定理)
- 把基礎(chǔ)設(shè)施即代碼當(dāng)做一個(gè)產(chǎn)品開發(fā)
- 安全的架構(gòu)和架構(gòu)的安全
- 基礎(chǔ)設(shè)施邏輯分層基礎(chǔ)設(shè)施即代碼本質(zhì)上是一套類庫(kù),從面向?qū)ο蟮脑瓌t考慮基礎(chǔ)設(shè)施的設(shè)計(jì)。
- 構(gòu)建每日可用架構(gòu)
活動(dòng)結(jié)束時(shí),現(xiàn)場(chǎng)很多開發(fā)者還意猶未盡,圍著諸位老師就自動(dòng)化運(yùn)維的部署、遷移等方面問題,進(jìn)行探討交流。
隨智能化在各個(gè)應(yīng)用領(lǐng)域的落地及實(shí)踐,IT運(yùn)維也將迎來一個(gè)智能化運(yùn)維的新時(shí)代。讓我們共同見微知著、未雨綢繆,當(dāng)機(jī)器能越來越智能地工作,我們也要變得越來越聰明。
Tech Neo技術(shù)沙龍是在2016年開始定期組織的IT技術(shù)人員線下交流活動(dòng),目前僅限北京地區(qū),周期為每月1次,每期關(guān)注一個(gè)話題,范圍涉及大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)等多個(gè)技術(shù)領(lǐng)域。
名稱欄目:未雨綢繆,迎接運(yùn)維新時(shí)代——TechNeo第十六期技術(shù)沙龍
本文來源:http://fisionsoft.com.cn/article/dpociic.html


咨詢
建站咨詢
