上海韻凱智能科技有限公司
電話:
郵箱:
地址:上海市嘉定(ding)區鶴旋路26弄(nong)(江橋萬(wan)達廣場)9號樓915室
網址 : njkoi.com
互(hu)聯網(wang)運維工作(zuo),以(yi)服(fu)務為(wei)中心,以(yi)穩(wen)定(ding)、安全、高(gao)效為(wei)三個基本點(dian),確保公司的(de)互(hu)聯網(wang)業務能夠 7×24 小時為(wei)用戶(hu)提供高(gao)質量的(de)服(fu)務。
運維人員對(dui)(dui)公司互聯網(wang)業(ye)務(wu)所依賴的基(ji)礎設施、基(ji)礎服(fu)務(wu)、線上業(ye)務(wu)進(jin)(jin)行穩定性加(jia)強,進(jin)(jin)行日常巡檢發現服(fu)務(wu)可能存在的隱患,對(dui)(dui)整體架構進(jin)(jin)行優化(hua)以屏(ping)蔽常見的運行故(gu)障,多數據中接入提高業(ye)務(wu)的容災能力(li)。
通(tong)過監控、日志分析等(deng)技術手段,及時(shi)發現和響應服務故障,減(jian)少(shao)服務中斷的時(shi)間,使(shi)公司的互聯(lian)網業務符(fu)合(he)預期(qi)的可用(yong)性要求,持續穩(wen)定地為用(yong)戶(hu)提供務
在安全方面,運維人員需要關(guan)注業(ye)務(wu)運行所涉(she)及的各個層面,確(que)保(bao)用戶能夠安全、完整地訪問在線業(ye)務(wu)。
從網絡邊界劃分、ACL 管理、流量分析、DDoS 防御(yu),到操作(zuo)系(xi)統、開(kai)源(yuan)軟件的(de)漏洞掃描和(he)修補(bu),再(zai)到應用服務的(de)XSS、SQL注入防護;
從安全流(liu)程梳(shu)、代碼白盒黑盒掃描、權限審計,到入侵行(xing)為(wei)檢(jian)測、業務風險控(kong)制等。
運維人員需(xu)(xu)要保障(zhang)公(gong)司(si)提(ti)供(gong)的(de)互聯網業(ye)(ye) 運行在安(an)全(quan)、可控(kong)的(de)狀態下,確保公(gong)司(si)業(ye)(ye)務數(shu)據和(he)用戶隱(yin)私數(shu)據的(de)安(an)全(quan),同時還需(xu)(xu)要具(ju)備抵御各種惡意攻(gong)擊的(de)能力。
在確保業務(wu)(wu)穩定、安全的前提(ti)下(xia),還(huan)需(xu)保障業務(wu)(wu)高(gao)效的運(yun)轉,公司內(nei)快速(su)的產出。運(yun)維工作(zuo)需(xu)要對業務(wu)(wu)進行(xing)各方面優化(hua)。
比如,IO 優(you)化提升數(shu)據庫性能,圖片壓縮(suo)降低帶(dai)寬使用量等,提供的互(hu)聯網業務以較小的資源投(tou)入帶(dai)來(lai)最大的用戶價值和體驗。
同時,還(huan)需要(yao)通(tong)過各種(zhong)工具平臺(tai)提升(sheng)內部產品(pin)發(fa)布(bu)交付的效率,提升(sheng)公(gong)司內運維相關的工作效率。
工作分類運維
運(yun)維(wei)(wei)的(de)工作方向比較(jiao)多,隨著業(ye)務規模的(de)不斷(duan)發(fa)展,越成熟的(de)互聯網公司,運(yun)維(wei)(wei)崗位會劃(hua)分(fen)得越細。
當前很多大(da)型(xing)的(de)互聯網公(gong)司(si),在初創(chuang)時期只有系統運維(wei),隨著(zhu)服務規模、服務質量的(de)要求,也逐漸進(jin)行了工作細分。
系統運維
系統運維負責(ze)IDC、網絡、CDN和(he)基礎服務的(de)建設(she)(LVS、NTP、DNS);負責(ze)資產(chan)管理,服務器(qi)選(xuan)型、交(jiao)付(fu)和(he)維修。詳細(xi)的(de)工作職責(ze)如下。
1.IDC數據中心建設
收集業務(wu)需(xu)求,預(yu)估未(wei)來數(shu)據中(zhong)心(xin)(xin)的發展規(gui)模,從骨干網的分布,數(shu)據中(zhong)心(xin)(xin)建筑,以及Internet接(jie)入、網絡攻擊防(fang)御能力(li)(li)、擴容(rong)能力(li)(li)、空間預(yu)留、外接(jie)專線能力(li)(li)、現(xian)場(chang)服務(wu)支撐能力(li)(li)等(deng)方面(mian)評估選(xuan)型數(shu)據中(zhong)心(xin)(xin)。負責(ze)數(shu)據中(zhong)心(xin)(xin)的建設、現(xian)場(chang)維護工作。
2.網絡建設
設計及規劃生產網絡(luo)架(jia)構,這(zhe)里(li)面(mian)包括:數據(ju)中心(xin)網絡(luo)架(jia)構、傳輸網架(jia)構、CDN網絡(luo)架(jia)構等,以及網絡(luo)調優等日常運維工(gong)作。
3.LVS 負(fu)載均(jun)衡和(he) SNAT 建設
LVS 是(shi)整個(ge)站點架(jia)構中的(de)(de)流量入(ru)口,根據網(wang)(wang)絡(luo)規模和業務(wu)(wu)需求,構建負載均衡集(ji)群(qun)。完成網(wang)(wang)絡(luo)與業務(wu)(wu)服務(wu)(wu)器的(de)(de)銜接,提供高(gao)(gao)性(xing)能、高(gao)(gao)可用(yong)的(de)(de)負載調度能力(li),以及統一的(de)(de)網(wang)(wang)絡(luo)層防攻擊能力(li)。SNAT .集(ji)中提供數(shu)據中心的(de)(de)公(gong)網(wang)(wang)訪問(wen)服務(wu)(wu),通過集(ji)群(qun)化部署,保證出網(wang)(wang)服務(wu)(wu)的(de)(de)高(gao)(gao)性(xing)能與高(gao)(gao)可用(yong)。
4.CDN 規劃(hua)和建設
CDN 工(gong)作劃分為第三方和自(zi)建(jian)兩部分。建(jian)立第三方 CDN 的選型和調度(du)控制;根(gen)據業務發(fa)展趨(qu)勢,規劃CDN新節點建(jian)設布局;完善CDN業務及(ji)監(jian)控,保障CDN 系統穩定、高效運行。分析業務加速(su)頻道的文件特性和數量,制定最優的加速(su)策略(lve)和資源匹配;負責(ze)用戶劫(jie)持等CDN日常故障排查(cha)工(gong)作。
5.服務器(qi)選型、交(jiao)付和(he)維護
負責服(fu)務(wu)器(qi)的(de)測試(shi)選型,包含服(fu)務(wu)器(qi)整機、部(bu)件的(de)基礎性測試(shi)和業務(wu)測試(shi),降低整機功率,提升機架部(bu)署密度(du)等。
結(jie)合對公司業務(wu)(wu)的了解,推(tui)廣(guang)新硬(ying)件、新方案減少(shao)業務(wu)(wu)的服務(wu)(wu)器投入規模。負(fu)責服務(wu)(wu)器硬(ying)件故障的診(zhen)斷定位,服務(wu)(wu)器硬(ying)件監控、健(jian)康檢查工(gong)具(ju)的開(kai)發和維護。
6.OS、內(nei)核(he)選型和 OS 相關維護工作(zuo)
負責整體平臺(tai)的(de) OS 選(xuan)型、定制和(he)(he)內(nei)核優化,以及 Patch 的(de)更新和(he)(he)內(nei)部版本(ben)發布;建立(li)基礎(chu)的(de)YUM包管理和(he)(he)分(fen)發中心,提(ti)供常用包版本(ben)庫;跟(gen)進日常各類 OS 相(xiang)關故障;針對不同的(de)業(ye)務類型,提(ti)供定向的(de)優化支持。
7.資產管理
記錄和管理運維相關的基(ji)礎(chu)物(wu)理信息(xi),包括數據(ju)(ju)中心、網絡(luo)、機(ji)柜、服務器、ACL、IP等各種資源(yuan)信息(xi),制定有效的流(liu)程,確保(bao)信息(xi)的準(zhun)確性;開放(fang)API接口,為自動化運維提供數據(ju)(ju)支持(chi)。
8.基礎服務建設
業務對 DNS、NTP、SYSLOG 等基礎服(fu)務的依賴非常高,需要設計(ji)高可用架構避免單點,提供(gong)穩定的基礎服(fu)務。
應用運維
應(ying)用(yong)運維負責線上服務(wu)的變(bian)更(geng)、服務(wu)狀態監(jian)控、服務(wu)容災(zai)和數(shu)據備份等工作,對服務(wu)進行例(li)行排查、故障應(ying)急處理等工作。詳細的工作職責如(ru)下所述。
1.設計評審
在產(chan)品(pin)研發階段,參與(yu)產(chan)品(pin)設計評審,從運(yun)(yun)維的角度提(ti)出評審意見,使服務滿足運(yun)(yun)維準入的高可用要求。
2.服務管理
負責(ze)制(zhi)定(ding)(ding)線(xian)上(shang)業務升(sheng)級變(bian)更及(ji)回滾方案,并進行變(bian)更實(shi)施。掌握所負責(ze)的服(fu)(fu)(fu)務及(ji)服(fu)(fu)(fu)務間關聯關系、服(fu)(fu)(fu)務依賴的各(ge)種資源。能(neng)夠(gou)發現(xian)(xian)服(fu)(fu)(fu)務上(shang)的缺陷,及(ji)時(shi)通(tong)報并推進解決。制(zhi)定(ding)(ding)服(fu)(fu)(fu)務穩(wen)定(ding)(ding)性指(zhi)標及(ji)準入標準,同時(shi)不斷完(wan)善和優化程序和系統的功能(neng)、效率,提(ti)高運(yun)行質量。完(wan)善監控內容,提(ti)高報警準確度。在線(xian)上(shang)服(fu)(fu)(fu)務出現(xian)(xian)故障時(shi),第一時(shi)間響(xiang)應,對已(yi)知線(xian)上(shang)故障能(neng)按(an)流程進行通(tong)報并按(an)預案執(zhi)行,未知故障組織相關人員聯合排障。
3.資源管理
對各服(fu)(fu)務的(de)服(fu)(fu)務器(qi)資產進行管理(li),梳(shu)理(li)服(fu)(fu)務器(qi)資源(yuan)狀況、數據中(zhong)心分(fen)布(bu)情況、網絡專線及(ji)帶寬情況,能夠合理(li)使(shi)用服(fu)(fu)務器(qi)資源(yuan),根據不同(tong)服(fu)(fu)務的(de)需求,分(fen)配不同(tong)配置的(de)服(fu)(fu)務器(qi),確保服(fu)(fu)務器(qi)資源(yuan)的(de)充分(fen)利用。
4.例行檢查
制(zhi)定(ding)服(fu)(fu)務(wu)(wu)例行(xing)排查點(dian),并(bing)不斷完善。根據制(zhi)定(ding)的(de)服(fu)(fu)務(wu)(wu)排查點(dian),對服(fu)(fu)務(wu)(wu)進(jin)行(xing)定(ding)期檢查。對排查過程中(zhong)發現的(de)問題,及時進(jin)行(xing)追(zhui)查,排除(chu)可能(neng)存在的(de)隱患(huan)。
5.預案管理
確(que)定(ding)服(fu)務所需的(de)各(ge)項監控(kong)、系統指標的(de)閾值或臨界(jie)點,以及出(chu)現(xian)該情(qing)況后的(de)處理預(yu)案(an)。建立和更新服(fu)務預(yu)案(an)文檔,并根(gen)據日常故障情(qing)況不斷補充完善,提高(gao)預(yu)案(an)完備性。能(neng)夠(gou)制定(ding)和評審各(ge)類預(yu)案(an),周期性進行(xing)預(yu)案(an)演練(lian),確(que)保預(yu)案(an)的(de)可(ke)執(zhi)行(xing)性。
6.數據備份
制定(ding)(ding)數(shu)據備(bei)份策略,按規范進行數(shu)據備(bei)份工作(zuo)。保證數(shu)據備(bei)份的(de)可用性(xing)和完整(zheng)性(xing),定(ding)(ding)期開(kai)展數(shu)據恢(hui)復性(xing)測試。
數據庫運維
數據庫運(yun)維(wei)負責數據存儲方案設(she)計、數據庫表(biao)設(she)計、索引設(she)計和SQL優化(hua),對數據庫進(jin)行變(bian)更、監控、備份、高可用設(she)計等工(gong)(gong)作(zuo)。詳細的工(gong)(gong)作(zuo)職責如(ru)下所述。
1.設計評審
在產品研(yan)發初始階段,參與設(she)計方(fang)案評審(shen),從DBA的角(jiao)度提出數據(ju)(ju)存儲方(fang)案、庫表(biao)設(she)計方(fang)案、SQL開發標準、索引(yin)設(she)計方(fang)案等,使服務滿足數據(ju)(ju)庫使用的高(gao)可用、高(gao)性能(neng)要求。
2.容量規劃
掌握所(suo)負責服務的(de)數據庫的(de)容量上(shang)限,清楚地了解(jie)當前瓶頸點,當服務還未到達(da)容量上(shang)限時,及(ji)時進行優化(hua)、分拆或者擴容。
3.數據備份與災備
制定(ding)數據備份與災備策略,定(ding)期完(wan)成數據恢復性(xing)測試,保證數據備份的可用(yong)性(xing)和完(wan)整性(xing)。
4.數據庫監控
完善數(shu)(shu)據庫存活和性能監控,及(ji)時了解(jie)數(shu)(shu)據庫運行狀態及(ji)故障(zhang)。數(shu)(shu)據庫安全建(jian)設數(shu)(shu)據庫賬號(hao)體系,嚴格控制賬號(hao)權限與開放(fang)范圍,降低誤操作(zuo)和數(shu)(shu)據泄露(lu)的(de)風險;加強離線(xian)備份數(shu)(shu)據的(de)管理,降低數(shu)(shu)據泄露(lu)的(de)風險。
5.數據(ju)庫高可用和性能優(you)化
對(dui)(dui)數(shu)(shu)據庫(ku)單點風險和故障(zhang)設計相應的(de)切(qie)換方(fang)案(an),降低(di)故障(zhang)對(dui)(dui)數(shu)(shu)據庫(ku)服務(wu)的(de)影響;不(bu)斷(duan)對(dui)(dui)數(shu)(shu)據庫(ku)整體性能進行優(you)化(hua)(hua),包括新存儲方(fang)案(an)引進、硬件(jian)(jian)優(you)化(hua)(hua)、文(wen)件(jian)(jian)系統優(you)化(hua)(hua)、數(shu)(shu)據庫(ku)優(you)化(hua)(hua)、SQL優(you)化(hua)(hua)等(deng),在保障(zhang)成本不(bu)增加(jia)或者少量(liang)增加(jia)的(de)情況(kuang)下,數(shu)(shu)據庫(ku)可以支(zhi)撐更多(duo)的(de)業(ye)務(wu)請求。
6.自動化系統建設
設計開(kai)發數據庫自(zi)(zi)動化運維系統,包括數據庫部署、自(zi)(zi)動擴(kuo)容、分(fen)庫分(fen)表、權(quan)限管理(li)、備份恢復(fu)、SQL審核和上線、故障切換等(deng)功能(neng)。
7.運維研發
運維(wei)(wei)(wei)研(yan)發負責通(tong)用的(de)(de)運維(wei)(wei)(wei)平臺設計和(he)研(yan)發工(gong)作,如:資產管(guan)理、監控系(xi)統、運維(wei)(wei)(wei)平臺、數據權限管(guan)理系(xi)統等(deng)。提供各(ge)種API供運維(wei)(wei)(wei)或(huo)研(yan)發人員使(shi)用,封裝更高層的(de)(de)自(zi)動化運維(wei)(wei)(wei)系(xi)統。詳細(xi)的(de)(de)工(gong)作職責如下所(suo)述。
8.運維平臺
記錄和管(guan)(guan)理服務及其關(guan)聯關(guan)系,協助(zhu)運(yun)維人員自動化、流(liu)程(cheng)化地完成日常運(yun)維操作(zuo),包括機(ji)器管(guan)(guan)理、重啟、改(gai)名、初始化、域(yu)名管(guan)(guan)理、流(liu)量切換和故障(zhang)預案(an)實(shi)施等。
9.監控系統
負責監(jian)控系統的(de)(de)設(she)計、開發工(gong)作,完成(cheng)公司服務(wu)器(qi)和(he)各種網絡(luo)設(she)備的(de)(de)資源指(zhi)標(biao)、線上業(ye)務(wu)運(yun)行指(zhi)標(biao)的(de)(de)收(shou)集、告警、存儲(chu)、分(fen)析、展示和(he)數據挖掘等工(gong)作,持續提(ti)高告警的(de)(de)及時性、準確(que)性和(he)智能性,促進公司服務(wu)器(qi)資源的(de)(de)合理化調(diao)配(pei)。
10.自動化部(bu)署系統
參與部(bu)署自動(dong)化系統的開發(fa)(fa)(fa),負(fu)責(ze)自動(dong)化部(bu)署系統所需要的基礎數據(ju)和信(xin)息,負(fu)責(ze)權限管理、API開發(fa)(fa)(fa)、Web端開發(fa)(fa)(fa)。結合云計算(suan),研發(fa)(fa)(fa)和提供(gong)PaaS相關高可用平臺,進(jin)一步提高服(fu)務的部(bu)署速(su)度和用戶體(ti)驗,提升資源利用率。
運維安全
運維安全負責網絡、系統和業務等方面的(de)(de)安全加(jia)固工(gong)作(zuo),進(jin)行常規的(de)(de)安全掃描、滲透測試,進(jin)行安全工(gong)具(ju)和系統研發以及安全事(shi)件應(ying)急處理。詳細(xi)的(de)(de)工(gong)作(zuo)職責如下所述。
1.安全制度建立
根據(ju)公司內(nei)部的(de)具(ju)體流(liu)程,制(zhi)定切實可(ke)行,且行之有效(xiao)的(de)安全制(zhi)度。
2.安全培訓
定期向(xiang)員工提供具有針對性的安(an)全培訓和(he)考核,在全公司內建立安(an)全負責人制度。
3.風險評估
通(tong)過黑白盒測(ce)試和檢查機制,定期產生對物理網(wang)絡、服務器、業(ye)務應(ying)用、用戶數據等方面的總體風(feng)險(xian)評估結果。
4.安全建設
根據風(feng)險評估結果(guo),加固最薄弱的環(huan)節,包(bao)括設計安全防線、部署安全設備(bei)、及(ji)時更新補丁、防御病毒、源代碼自動掃描和業務產品安全咨詢等(deng)。為(wei)了降低可能泄(xie)露(lu)數(shu)據的價(jia)值,通過(guo)加密(mi)、匿名化、混淆數(shu)據,乃至定期刪除等(deng)技術手段和流程來達到目的。
5.安全合規
為了(le)滿(man)足例如支(zhi)付牌(pai)照等(deng)合規性要求,安全(quan)團隊承擔著安全(quan)合規的對外接口人工作。
6.應急響應
建立(li)安全報警系統,通過安全中(zhong)心收集第三(san)方發現的安全問題(ti),組(zu)織各部門對已經發現的安全問題(ti)進行修復、影響面(mian)評估(gu)、事后安全原因追查(cha)。
運維工作發展過程
早期的(de)運維(wei)團隊在(zai)人員(yuan)較(jiao)少的(de)情況下,主要是(shi)進行數(shu)據中(zhong)心建設(she)、基礎網絡建設(she)、服務(wu)器(qi)采(cai)購和服務(wu)器(qi)安(an)裝交(jiao)付(fu)工作。幾乎很少涉(she)及(ji)線上服務(wu)的(de)變更、監控、管理等工作。
這個時候的運(yun)維團隊更多的屬于基礎建設的角(jiao)色,提供一(yi)個簡單、可(ke)用的網(wang)絡環境和系統環境即可(ke)。
隨著業(ye)務(wu)產品的逐漸成熟,對(dui)于服務(wu)質量(liang)方面(mian)就有了更高的要求。這個時(shi)候(hou)的運維團隊還(huan)會承(cheng)擔一些服務(wu)器(qi)監控(kong)的工作(zuo),同時(shi)會負責 LVS、Nginx 等與業(ye)務(wu)邏輯(ji)無關的 4/7 層運維工作(zuo)。
這(zhe)個時候服務變更(geng)更(geng)多(duo)的(de)(de)是逐臺的(de)(de)手工(gong)操(cao)作,或者有(you)一(yi)些簡(jian)單批量腳本的(de)(de)出現。監控(kong)的(de)(de)焦點更(geng)多(duo)的(de)(de)在服務器狀(zhuang)態和(he)資源使用(yong)(yong)情(qing)況上,對服務應用(yong)(yong)狀(zhuang)態的(de)(de)監控(kong)幾乎很少,監控(kong)更(geng)多(duo)的(de)(de)使用(yong)(yong)各種開源系統如(ru)Nagios、Cacti等。
由于業務規模和復雜(za)度的持續增加,運維(wei)團隊會逐(zhu)漸劃分為應用運維(wei)和系統運維(wei)兩大塊。應用運維(wei)開始接手線上(shang)業務,逐(zhu)步開展服務監控(kong)梳理、數據(ju)備(bei)份以(yi)及服務變更的工作。
隨(sui)著(zhu)對(dui)服(fu)務的(de)深(shen)入,應用(yong)運(yun)維工(gong)程師有能(neng)力開(kai)始(shi)對(dui)服(fu)務進行一(yi)些簡單的(de)優化。同(tong)時(shi),為了應對(dui)每天大量(liang)的(de)服(fu)務變更(geng)(geng),我們也開(kai)始(shi)編寫各類運(yun)維工(gong)具,針對(dui)某些特定的(de)服(fu)務能(neng)夠(gou)很方便的(de)批量(liang)變更(geng)(geng)。
隨(sui)著業務規模的增大,基礎設施(shi)由于容量(liang)規劃不足或抵御風險(xian)能力較弱(ruo)導致的故障(zhang)也越(yue)來(lai)越(yue)多,迫使運(yun)維人(ren)員開(kai)始將更多的精(jing)力投(tou)入到多數據(ju)中心(xin)容災(zai)、預案(an)管理的方(fang)向(xiang)上。
業(ye)(ye)務規模達到一定程度(du)后,開源(yuan)的(de)監控系統在性能(neng)和(he)功(gong)能(neng)方面(mian),已經(jing)無法(fa)滿足業(ye)(ye)務需(xu)求(qiu);大量(liang)的(de)服務變(bian)更、復雜的(de)服務關系,以(yi)前(qian)靠(kao)人(ren)工記錄、工具(ju)變(bian)更的(de)方式不(bu)管在效率(lv)還是準確性方面(mian)也都無法(fa)滿足業(ye)(ye)務需(xu)求(qiu)。
在安(an)全方面也(ye)出現了各種大大小小的事(shi)件(jian),迫使我們投入更多的精(jing)(jing)力在安(an)全防御(yu)上。逐漸的,運維團隊(dui)形成之(zhi)前提(ti)到的5個大的工(gong)作分類,每個分類都需要有專精(jing)(jing)的人才(cai)。
這個時候系統(tong)運維更(geng)專(zhuan)注于基礎(chu)設(she)施的建設(she)和(he)運維,提供穩定、高效的網絡環(huan)境(jing),交付服(fu)務器等資(zi)源(yuan)給應(ying)用運維工程師。應(ying)用運維更(geng)專(zhuan)注于服(fu)務運行(xing)狀態和(he)效率(lv)。
數(shu)(shu)據(ju)庫(ku)(ku)運維屬于(yu)應用運維工作(zuo)的細化,更專注于(yu)數(shu)(shu)據(ju)庫(ku)(ku)領(ling)域的自動化、性能(neng)優化和安全防(fang)御。運維研發(fa)和運維安全提供各類(lei)平(ping)臺、工具,進一步提升運維工程師的工作(zuo)效率,使業務服務運行得更加穩定、高(gao)效和安全。
我們(men)將運維發展過程劃(hua)分為(wei)4個階(jie)段:
手工管理階段:業務流量不大,服務器數量相對較少,系統復雜度不高。對于日常的業務管理操作,大家更多的是逐臺登錄服務器進行手工操作,屬于各自為戰,每個人都有自己的操作方式,缺少必要的操作標準、流程機制,比如業務目錄環境都是各式各樣的。
工具批量操作(zuo)(zuo)(zuo)階段:隨著服務器規模、系統復雜度的增加(jia),全(quan)人(ren)工的操作(zuo)(zuo)(zuo)方式已經不能(neng)滿足業務的快(kuai)速(su)發展(zhan)需要。因此,運維人(ren)員逐漸開始使用批量化的操作(zuo)(zuo)(zuo)工具,針對不同(tong)操作(zuo)(zuo)(zuo)類型出現了不同(tong)的腳本程序。
但(dan)各團隊都(dou)有自(zi)己的(de)工(gong)具,每次操作需求發生變化時都(dou)需要(yao)調(diao)整工(gong)具。這主(zhu)要(yao)是因為對(dui)于(yu)環境、操作的(de)規(gui)范(fan)不夠(gou),導致可程(cheng)序化處理能力較弱。此時,雖(sui)然效率(lv)提升了(le)一部分(fen),但(dan)很快又遇到(dao)了(le)瓶頸。
操(cao)作(zuo)的質量并沒有太多(duo)的提升(sheng),甚至可能因為批量執行而導致更大規模的問題出現。我們開始建立(li)大量的流程規范,比如復(fu)查機制,先上線一(yi)臺(tai)服務器觀察10分鐘后再繼續后面的操(cao)作(zuo),一(yi)次(ci)升(sheng)級完成后至少要觀察20分鐘等。
這些主(zhu)要還是靠(kao)人來(lai)監督和執(zhi)(zhi)行(xing),但(dan)在實(shi)際(ji)過程中執(zhi)(zhi)行(xing)往往不到位,反而(er)降(jiang)低了工作效率。
平臺(tai)管理階段:在這個階段,對(dui)于(yu)運維效率和誤操作率有(you)了更高的要(yao)求,我們決定開(kai)始建設運維平臺(tai),通過平臺(tai)承(cheng)載(zai)標準、流(liu)程,進而解放人力和提高質量。
這(zhe)個時(shi)候(hou)對服(fu)(fu)務(wu)(wu)的(de)變更動作(zuo)進行了抽象,形成了操(cao)作(zuo)方法、服(fu)(fu)務(wu)(wu)目錄(lu)環境、服(fu)(fu)務(wu)(wu)運行方式等統一(yi)的(de)標(biao)準,如程序的(de)啟(qi)停接口必須包括啟(qi)動、停止(zhi)、重載等。通過(guo)平臺來(lai)約束操(cao)作(zuo)流(liu)程,如上面提到的(de)上線一(yi)臺服(fu)(fu)務(wu)(wu)器觀察10分鐘。
在平臺(tai)中強制設(she)定暫停(ting)檢(jian)查點,在第一臺(tai)服務器操作完成(cheng)后,需(xu)要(yao)運維人員填寫相應的(de)檢(jian)查項,然后才可以(yi)繼續(xu)執行后續(xu)的(de)部署動作。
系統自調度階段:更大規模(mo)的(de)(de)服務數(shu)量、更復(fu)雜的(de)(de)服務關聯關系、各個運維平(ping)臺的(de)(de)林立,原有的(de)(de)將批(pi)量操作(zuo)轉化成平(ping)臺操作(zuo)的(de)(de)方式已經不再適合,需要對服務變更進行更高一層(ceng)的(de)(de)抽象。
將每(mei)一臺服務(wu)器抽象成(cheng)一個容(rong)器,由(you)調(diao)度系(xi)統(tong)根據(ju)資源(yuan)使用情(qing)況,將服務(wu)調(diao)度、部署到合(he)適的(de)服務(wu)器上,自動(dong)化完(wan)成(cheng)與周邊各個運維系(xi)統(tong)的(de)聯動(dong),比如(ru)監控(kong)系(xi)統(tong)、日志系(xi)統(tong)、備份(fen)系(xi)統(tong)等。
通過自(zi)調度系(xi)統,根據服(fu)務運(yun)行情(qing)況(kuang)動(dong)(dong)態伸縮容量(liang),能夠自(zi)動(dong)(dong)化處理(li)常見的服(fu)務故障。運(yun)維人員(yuan)的工作(zuo)也會前置到產品設計階段,協助研發(fa)人員(yuan)改(gai)造服(fu)務使其可以接入(ru)到自(zi)調度系(xi)統中。
在(zai)整個運(yun)維(wei)的(de)(de)發展過程中(zhong),希望(wang)所有(you)的(de)(de)工(gong)作都自動(dong)化起來,減少人的(de)(de)重復工(gong)作,降(jiang)低知識(shi)傳遞的(de)(de)成本,使我們的(de)(de)運(yun)維(wei)交付更高效、更安全,使產品運(yun)行更穩(wen)定。對于故障的(de)(de)處(chu)理(li),也希望(wang)由事(shi)后(hou)處(chu)理(li)變成提前發現,由人工(gong)處(chu)理(li)變成系統自動(dong)容災。