国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

熱門文章> 快云——云計(jì)算運(yùn)維是什么? >

快云——云計(jì)算運(yùn)維是什么?

36氪企服點(diǎn)評小編
2021-08-09 19:24
875次閱讀

   云不懂運(yùn)營的苦惱,就像白天不懂黑夜。回首團(tuán)隊(duì)十余載的“激情燃燒”歲月,往事歷歷在目,115科技創(chuàng)始人賴霖楓感慨道,“我們甚至成立了一個(gè)專門的‘換盤隊(duì)’,7個(gè)人的團(tuán)隊(duì)每天都會更換硬盤,奔走于東莞、佛山、梅州等地的數(shù)據(jù)中心。接下來小編就給大家介紹一下快云云計(jì)算運(yùn)維是什么,一起來看看吧。

快云——云計(jì)算運(yùn)維是什么?云計(jì)算運(yùn)維是什么?


   十年磨一劍,賴霖楓及其團(tuán)隊(duì)一手建造支撐115網(wǎng)盤“帝國大廈”的IT基礎(chǔ)設(shè)施,更是在運(yùn)營方面積累了非常豐富的實(shí)戰(zhàn)經(jīng)驗(yàn):文件校驗(yàn)、故障監(jiān)控報(bào)警、數(shù)據(jù)防丟失恢復(fù)...連哈希算法都有自己的一套,團(tuán)隊(duì)上下做了許多特殊底層的事情。

   "我們幾乎研究、實(shí)踐了所有的東西。就拿存儲器來說,DDN的系統(tǒng),我們已經(jīng)做到了能夠?qū)ζ溥M(jìn)行二次改造的程度。

   完全適應(yīng)自身應(yīng)用實(shí)際,滿足使用場景需求,多年來一路“摸爬滾打”,115團(tuán)隊(duì)已形成穩(wěn)定的運(yùn)營體系,積聚的知識庫更稱得上行業(yè)“無出其右”。那到底是什么因素促使115轉(zhuǎn)向云端,把自己已經(jīng)非常熟悉的事情交給別人去做呢?賴霖楓對以下幾點(diǎn)進(jìn)行總結(jié)。

   第一,核心業(yè)務(wù)網(wǎng)盤多年穩(wěn)定運(yùn)行的背后,離不開IT基礎(chǔ)設(shè)施運(yùn)營團(tuán)隊(duì)的大量投入。為了提高網(wǎng)絡(luò)連接的效率,115小組自行建立CDN。至后期,正式的機(jī)房設(shè)備維護(hù)升級中斷,實(shí)際使用過程中遇到許多BUG。

   對此,團(tuán)隊(duì)甚至自研了一套分布式存儲器準(zhǔn)備更換,但無奈工程量太大,反復(fù)調(diào)試效果不理想,難以投入實(shí)際生產(chǎn)。在底層工作中投入了大量的人力、物力資源,長期來看,未必能跟上業(yè)務(wù)發(fā)展的需要。

   成本高、效率低、壓力大;網(wǎng)盤成本是網(wǎng)盤界需要重點(diǎn)考慮的問題。自建資源池的使用對于大容量冷數(shù)據(jù)存儲的實(shí)際效果并不好。事實(shí)上,大量的機(jī)器被壓在機(jī)房里,長期這樣必然會導(dǎo)致成本的大幅上升。賴霖楓表示:“當(dāng)數(shù)據(jù)量達(dá)到這個(gè)規(guī)模時(shí),資源投入、成本效益等因素更需要綜合考慮,謹(jǐn)慎權(quán)衡。

   另外一個(gè)現(xiàn)實(shí)因素就是當(dāng)時(shí)的115科技在佛山的機(jī)房被一家公司收購,團(tuán)隊(duì)迫不及待地去尋找新機(jī)房。如自行搬機(jī)房,一方面系統(tǒng)風(fēng)險(xiǎn)高實(shí)施周。

   一方面,設(shè)備機(jī)房面臨不得不搬遷的“窘境”,另一方面,與運(yùn)維經(jīng)驗(yàn)增長“比翼齊飛”,資源瓶頸日益凸顯。上云還是不上?初步了解廠商相關(guān)信息,簡單核算后,賴霖楓和他的團(tuán)隊(duì)發(fā)現(xiàn)上云其實(shí)是可行的,不如把專業(yè)的事情交給專業(yè)的人做,把精力都投入到業(yè)務(wù)上。

   接下來就是評估各家方案,做決定的過程。“我們最后采用的思路就是和阿里云提議高度一致的方案。”賴霖楓表示,“阿里云的遷移方案整體性非常強(qiáng),涉及文件遷移、網(wǎng)絡(luò)遷移、業(yè)務(wù)系統(tǒng)遷移,不同模塊是相互區(qū)分的。包括阿里云特色的‘閃電立方’服務(wù),針對MySQL二次開發(fā)的能力等,都是我們重點(diǎn)考慮的因素。”

   據(jù)了解,此次合作中,阿里云為115科技量身定制遷移方案,為確保115科技的業(yè)務(wù)不受任何影響,方案將不同地區(qū)物理機(jī)內(nèi)的數(shù)據(jù)與云上的放置位置進(jìn)行了一一對應(yīng)的規(guī)劃,保證每一比特?cái)?shù)據(jù)都有跡可循,并制定了非常有效的物理機(jī)回收計(jì)劃。

   賴霖楓表示,與阿里云合作,印象最深刻的有兩點(diǎn)。一是速度快,整體遷移僅耗時(shí)45天,創(chuàng)造了新的“中國速度”。2018年6月7日,115科技和阿里云宣布完成阿里云史上最大數(shù)據(jù)遷移上云項(xiàng)目,115科技的全部數(shù)據(jù)都搬遷至阿里云上,規(guī)模超過100PB,這也是中國互聯(lián)網(wǎng)史上涉及用戶量最多、數(shù)據(jù)規(guī)模最大的遷移項(xiàng)目之一。二是充分保障用戶數(shù)據(jù)安全,整個(gè)數(shù)據(jù)傳輸過程嚴(yán)格遵循“加密→解密→進(jìn)庫”規(guī)范,一步都沒有省。

   到今天,云計(jì)算的工業(yè)實(shí)現(xiàn)已經(jīng)不太難了。現(xiàn)在有開源軟件 KVM 和 Xen,這兩個(gè)東西基本把虛擬化搞定;而 OpenStack 則把管理、控制系統(tǒng)搞定,也很成熟。

   PaaS 也有相應(yīng)的開源,比如 OpenShift,而 Java 里也有 N 多的中間件框架和技術(shù)。另外分布式文件系統(tǒng) GFS/TFS,分布式計(jì)算系統(tǒng) Hadoop/Hbase 等等,分布式的東西都不神秘了。技術(shù)的實(shí)現(xiàn)在以前可能是問題,現(xiàn)在不是了。

   對于云計(jì)算工程方面,現(xiàn)在最難的是運(yùn)維。管 100 臺、1 萬臺還是 100 萬臺機(jī)器,那是完全不同的。機(jī)器少你可以用人管理,機(jī)器多是不可能靠人的。

   運(yùn)維系統(tǒng)不屬于功能性的東西,用戶看不見,所以這是被大家嚴(yán)重低估的東西。只要你做大了,就必然要在運(yùn)維系統(tǒng)上做文章。數(shù)據(jù)中心 / 云計(jì)算拼的就是運(yùn)維能力。
為什么我說運(yùn)維比較復(fù)雜,原因有這么幾個(gè)。

   一方面,云計(jì)算要用廉價(jià)設(shè)備取代那些昂貴的解決方案。所謂互聯(lián)網(wǎng)的文化就是屌絲文化,屌絲就是便宜,互聯(lián)網(wǎng)就是要用便宜的東西搭建出高質(zhì)量的東西,硬件和資源一定不會走高端路線——比如 EMC、IBM 小型機(jī)、SGI 超級計(jì)算機(jī)等等,你如果用它去搭建云計(jì)算,成本太貴。

   用廉價(jià)的解決方案代替昂貴的解決方案是整個(gè)計(jì)算機(jī)發(fā)展史中到今天唯一不變的事情。所以如果你要讓夏利車跑出奔馳車的感覺,你需要自己動手做很多事,搭建一個(gè)智能的系統(tǒng)。用廉價(jià)的東西做出高質(zhì)量的東西,運(yùn)維好廉價(jià)的設(shè)備其實(shí)是云計(jì)算工程里最大的挑戰(zhàn)。

   另一方面,因?yàn)槟銠C(jī)器多了,然后你用的又不是昂貴的硬件,所以故障就變成了常態(tài),硬盤、主板、網(wǎng)絡(luò)天天壞。所以,沒什么好想的,運(yùn)維就必須要跟上。云計(jì)算的目標(biāo)是在故障成為常態(tài)的情況下保證高可用——也就是我們所說的,你服務(wù)的可用性是 3 個(gè) 9、4 個(gè) 9 還是 5 個(gè) 9。

快云信息科技有限公司,成立于2015年10月,注冊資金5000萬元,隸屬景安集團(tuán)(股票代碼:832757)旗下,是國內(nèi)專業(yè)的云計(jì)算公司之一!公司自主研發(fā)云計(jì)算平臺,擁有“快云”品牌,提供計(jì)算、存儲、網(wǎng)絡(luò)等企業(yè)必需的基礎(chǔ)IT資源,同時(shí)深入了解互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、傳統(tǒng)企業(yè)等不同的應(yīng)用場景,為其提供相應(yīng)的行業(yè)解決方案。 公司現(xiàn)有快云服務(wù)器、快云VPS、快云數(shù)據(jù)庫、快云存儲等計(jì)算存儲產(chǎn)品,快云抗D、快云CDN、快云SSL、快云Waf等云安全產(chǎn)品,以及快云行業(yè)解決方案等一系列云計(jì)算產(chǎn)品。目前快云依托鄭州、北京、香港等云計(jì)算節(jié)點(diǎn)已為超過40萬家的企業(yè)用戶提供了云計(jì)算服務(wù),致力成為國內(nèi)可信賴、優(yōu)口碑的專業(yè)云計(jì)算服務(wù)提供商。

   最后,這一大堆機(jī)器和設(shè)備都放在一起,你的安全就是一個(gè)挑戰(zhàn),一方面是 Security,另一方面是 Safety,保證數(shù)十臺數(shù)百臺的設(shè)備的安全還好說,但是對于數(shù)萬數(shù)十萬臺的設(shè)計(jì),就沒有那么簡單了。

   所以,面對這樣的難題,人是無法搞得定的,你只能依靠技術(shù)來管理和運(yùn)維整個(gè)平臺。比如必須有監(jiān)控系統(tǒng)。這跟操作系統(tǒng)一樣,對資源的管理,對網(wǎng)絡(luò)流量、CPU 利用率、進(jìn)程、內(nèi)存等等的狀態(tài)肯定要全部收集的。收集整個(gè)集群各種節(jié)點(diǎn)的狀態(tài),是必然每個(gè)云計(jì)算都有的,都是大同小異的。
 
   然后,你還要找到可用性更好的節(jié)點(diǎn),這需要有一些故障自檢的功能。比如阿里云就遇到過磁盤用到一定時(shí)候就會莫名其妙的不穩(wěn)定,有些磁盤的 I/O 會變慢。變慢的原因有可是硬盤不行了,于是硬盤控制器可能因?yàn)?CRC 校驗(yàn)出錯(cuò)需要要多讀幾次,這就好比 TCP 的包傳過來,數(shù)據(jù)出錯(cuò)了,需要重新傳。

   在這種硬盤處理半死不活的狀態(tài)時(shí),你肯定是需要一個(gè)自動檢測或自動發(fā)現(xiàn)的程序去監(jiān)控這種事情,當(dāng)這個(gè)磁盤可能不行了,標(biāo)記成壞磁盤,別用它,到別的磁盤上讀復(fù)本去。我們要有故障自動檢測、預(yù)測的措施,才能驅(qū)動故障,而不是被動響應(yīng)故障,用戶體驗(yàn)才會好。換句話說,我們需要自動化的、主動的運(yùn)維。

   為了數(shù)據(jù)的高可用性,你只能使用數(shù)據(jù)冗余,寫多份到不同的節(jié)點(diǎn)——工業(yè)界標(biāo)準(zhǔn)寫三份是安全。然而,你做了冗余,又有數(shù)據(jù)一致性問題。為了解決冗余帶來的一致性問題,才有了 paxos 的投票玩法,大家投票這個(gè)能不能改,于是你就需要一個(gè)強(qiáng)大的控制系統(tǒng)來控制這些東西。

   此外,公共云人來人往,里面的資源和服務(wù)今天用明天不用,有分配有釋放,有凍結(jié),你還得建立一個(gè)資源管理系統(tǒng)來管理這些資源的生命狀態(tài)。也有權(quán)限管理,就像AWS的IAM一樣,如果沒有像AWS這樣的IAM權(quán)限管理系統(tǒng),AWS可能會像今天這樣被許多大公司使用。企業(yè)級云平臺需要企業(yè)級運(yùn)營和管理能力。以上就是小編為大家介紹的云計(jì)算運(yùn)維是什么,希望對您有幫助。

[免責(zé)聲明]

文章標(biāo)題: 快云——云計(jì)算運(yùn)維是什么?

文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個(gè)工作日內(nèi)處理。

相關(guān)文章
最新文章
查看更多
關(guān)注 36氪企服點(diǎn)評 公眾號
打開微信掃一掃
為您推送企服點(diǎn)評最新內(nèi)容
消息通知
咨詢?nèi)腭v
商務(wù)合作