云不懂運(yùn)營的苦惱,就像白天不懂黑夜。回首團(tuán)隊(duì)十余載的“激情燃燒”歲月,往事歷歷在目,115科技創(chuàng)始人賴霖楓感慨道,“我們甚至成立了一個(gè)專門的‘換盤隊(duì)’,7個(gè)人的團(tuán)隊(duì)每天都會更換硬盤,奔走于東莞、佛山、梅州等地的數(shù)據(jù)中心。接下來小編就給大家介紹一下快云云計(jì)算運(yùn)維是什么,一起來看看吧。
云計(jì)算運(yùn)維是什么?
十年磨一劍,賴霖楓及其團(tuán)隊(duì)一手建造支撐115網(wǎng)盤“帝國大廈”的IT基礎(chǔ)設(shè)施,更是在運(yùn)營方面積累了非常豐富的實(shí)戰(zhàn)經(jīng)驗(yàn):文件校驗(yàn)、故障監(jiān)控報(bào)警、數(shù)據(jù)防丟失恢復(fù)...連哈希算法都有自己的一套,團(tuán)隊(duì)上下做了許多特殊底層的事情。
"我們幾乎研究、實(shí)踐了所有的東西。就拿存儲器來說,DDN的系統(tǒng),我們已經(jīng)做到了能夠?qū)ζ溥M(jìn)行二次改造的程度。
完全適應(yīng)自身應(yīng)用實(shí)際,滿足使用場景需求,多年來一路“摸爬滾打”,115團(tuán)隊(duì)已形成穩(wěn)定的運(yùn)營體系,積聚的知識庫更稱得上行業(yè)“無出其右”。那到底是什么因素促使115轉(zhuǎn)向云端,把自己已經(jīng)非常熟悉的事情交給別人去做呢?賴霖楓對以下幾點(diǎn)進(jìn)行總結(jié)。
第一,核心業(yè)務(wù)網(wǎng)盤多年穩(wěn)定運(yùn)行的背后,離不開IT基礎(chǔ)設(shè)施運(yùn)營團(tuán)隊(duì)的大量投入。為了提高網(wǎng)絡(luò)連接的效率,115小組自行建立CDN。至后期,正式的機(jī)房設(shè)備維護(hù)升級中斷,實(shí)際使用過程中遇到許多BUG。
對此,團(tuán)隊(duì)甚至自研了一套分布式存儲器準(zhǔn)備更換,但無奈工程量太大,反復(fù)調(diào)試效果不理想,難以投入實(shí)際生產(chǎn)。在底層工作中投入了大量的人力、物力資源,長期來看,未必能跟上業(yè)務(wù)發(fā)展的需要。
成本高、效率低、壓力大;網(wǎng)盤成本是網(wǎng)盤界需要重點(diǎn)考慮的問題。自建資源池的使用對于大容量冷數(shù)據(jù)存儲的實(shí)際效果并不好。事實(shí)上,大量的機(jī)器被壓在機(jī)房里,長期這樣必然會導(dǎo)致成本的大幅上升。賴霖楓表示:“當(dāng)數(shù)據(jù)量達(dá)到這個(gè)規(guī)模時(shí),資源投入、成本效益等因素更需要綜合考慮,謹(jǐn)慎權(quán)衡。
另外一個(gè)現(xiàn)實(shí)因素就是當(dāng)時(shí)的115科技在佛山的機(jī)房被一家公司收購,團(tuán)隊(duì)迫不及待地去尋找新機(jī)房。如自行搬機(jī)房,一方面系統(tǒng)風(fēng)險(xiǎn)高實(shí)施周。
一方面,設(shè)備機(jī)房面臨不得不搬遷的“窘境”,另一方面,與運(yùn)維經(jīng)驗(yàn)增長“比翼齊飛”,資源瓶頸日益凸顯。上云還是不上?初步了解廠商相關(guān)信息,簡單核算后,賴霖楓和他的團(tuán)隊(duì)發(fā)現(xiàn)上云其實(shí)是可行的,不如把專業(yè)的事情交給專業(yè)的人做,把精力都投入到業(yè)務(wù)上。
接下來就是評估各家方案,做決定的過程。“我們最后采用的思路就是和阿里云提議高度一致的方案。”賴霖楓表示,“阿里云的遷移方案整體性非常強(qiáng),涉及文件遷移、網(wǎng)絡(luò)遷移、業(yè)務(wù)系統(tǒng)遷移,不同模塊是相互區(qū)分的。包括阿里云特色的‘閃電立方’服務(wù),針對MySQL二次開發(fā)的能力等,都是我們重點(diǎn)考慮的因素。”
據(jù)了解,此次合作中,阿里云為115科技量身定制遷移方案,為確保115科技的業(yè)務(wù)不受任何影響,方案將不同地區(qū)物理機(jī)內(nèi)的數(shù)據(jù)與云上的放置位置進(jìn)行了一一對應(yīng)的規(guī)劃,保證每一比特?cái)?shù)據(jù)都有跡可循,并制定了非常有效的物理機(jī)回收計(jì)劃。
賴霖楓表示,與阿里云合作,印象最深刻的有兩點(diǎn)。一是速度快,整體遷移僅耗時(shí)45天,創(chuàng)造了新的“中國速度”。2018年6月7日,115科技和阿里云宣布完成阿里云史上最大數(shù)據(jù)遷移上云項(xiàng)目,115科技的全部數(shù)據(jù)都搬遷至阿里云上,規(guī)模超過100PB,這也是中國互聯(lián)網(wǎng)史上涉及用戶量最多、數(shù)據(jù)規(guī)模最大的遷移項(xiàng)目之一。二是充分保障用戶數(shù)據(jù)安全,整個(gè)數(shù)據(jù)傳輸過程嚴(yán)格遵循“加密→解密→進(jìn)庫”規(guī)范,一步都沒有省。
到今天,云計(jì)算的工業(yè)實(shí)現(xiàn)已經(jīng)不太難了。現(xiàn)在有開源軟件 KVM 和 Xen,這兩個(gè)東西基本把虛擬化搞定;而 OpenStack 則把管理、控制系統(tǒng)搞定,也很成熟。
PaaS 也有相應(yīng)的開源,比如 OpenShift,而 Java 里也有 N 多的中間件框架和技術(shù)。另外分布式文件系統(tǒng) GFS/TFS,分布式計(jì)算系統(tǒng) Hadoop/Hbase 等等,分布式的東西都不神秘了。技術(shù)的實(shí)現(xiàn)在以前可能是問題,現(xiàn)在不是了。
對于云計(jì)算工程方面,現(xiàn)在最難的是運(yùn)維。管 100 臺、1 萬臺還是 100 萬臺機(jī)器,那是完全不同的。機(jī)器少你可以用人管理,機(jī)器多是不可能靠人的。
運(yùn)維系統(tǒng)不屬于功能性的東西,用戶看不見,所以這是被大家嚴(yán)重低估的東西。只要你做大了,就必然要在運(yùn)維系統(tǒng)上做文章。數(shù)據(jù)中心 / 云計(jì)算拼的就是運(yùn)維能力。
為什么我說運(yùn)維比較復(fù)雜,原因有這么幾個(gè)。
一方面,云計(jì)算要用廉價(jià)設(shè)備取代那些昂貴的解決方案。所謂互聯(lián)網(wǎng)的文化就是屌絲文化,屌絲就是便宜,互聯(lián)網(wǎng)就是要用便宜的東西搭建出高質(zhì)量的東西,硬件和資源一定不會走高端路線——比如 EMC、IBM 小型機(jī)、SGI 超級計(jì)算機(jī)等等,你如果用它去搭建云計(jì)算,成本太貴。
用廉價(jià)的解決方案代替昂貴的解決方案是整個(gè)計(jì)算機(jī)發(fā)展史中到今天唯一不變的事情。所以如果你要讓夏利車跑出奔馳車的感覺,你需要自己動手做很多事,搭建一個(gè)智能的系統(tǒng)。用廉價(jià)的東西做出高質(zhì)量的東西,運(yùn)維好廉價(jià)的設(shè)備其實(shí)是云計(jì)算工程里最大的挑戰(zhàn)。
另一方面,因?yàn)槟銠C(jī)器多了,然后你用的又不是昂貴的硬件,所以故障就變成了常態(tài),硬盤、主板、網(wǎng)絡(luò)天天壞。所以,沒什么好想的,運(yùn)維就必須要跟上。云計(jì)算的目標(biāo)是在故障成為常態(tài)的情況下保證高可用——也就是我們所說的,你服務(wù)的可用性是 3 個(gè) 9、4 個(gè) 9 還是 5 個(gè) 9。
[免責(zé)聲明]
文章標(biāo)題: 快云——云計(jì)算運(yùn)維是什么?
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個(gè)工作日內(nèi)處理。