柚子快報激活碼778899分享:后端 Partition架構(gòu)
柚子快報激活碼778899分享:后端 Partition架構(gòu)
優(yōu)質(zhì)博文:IT-BLOG-CN
Partition架構(gòu)
【1】結(jié)構(gòu): Region至少3個Zone,Zone內(nèi)至少兩個Partition,Partition內(nèi)至少1個K8S Member Cluster; 【2】故障域: 故障域及核心鏈路至少Zone內(nèi)收斂,甚至Partition收斂。故障域之間不應(yīng)該有交互(狀態(tài)流等); 【3】變更規(guī)范: 不同時變更多個Zone,甚至不同時變更多個Partition; 【4】Federation:Regional調(diào)度及控制面,負責Region內(nèi)資源、容量調(diào)度; 【5】應(yīng)用部署: 應(yīng)用副本根據(jù)可用性級別分布在多個Zone內(nèi)的多個Partition;
故障域隔離FederatedHPA: 場景梳理并分級,匹配不同故障域隔離要求。 【1】應(yīng)用擴容鏈路: 高頻+核心,Partition(Cluster)故障域內(nèi)收斂,單個Partition故障不影響其他Partition正常擴容; 【2】HPA參數(shù)變更鏈路: 低頻+非核心,Region故障域內(nèi)收斂,故障會影響整個Region的HPA發(fā)布變更; 【3】Cluster間Rebalance鏈路: 低頻+非核心,Region故障域內(nèi)收斂,故障會影響整個Region的容量Rebalance;
方案: 【1】HPA系統(tǒng)組件在Partition(Cluster)內(nèi)完整部署并封閉,擴縮容鏈路與其它Partition完全隔離; 【2】FederatedHPA只負責Partition/Zone間的Rebalance協(xié)調(diào)與變更分發(fā);
效果: 單個AZ、Partition及Federation的故障不影響其它AZ、Partition的應(yīng)用擴縮容。
應(yīng)用部署的Group(Rollout)為Region級別。由Federation控制與分發(fā)到多個Zone內(nèi)的Partition。Group不同時變更多個Zone。
容量調(diào)度問題 【1】流量上漲,Zone A擴容成功率下降(其他系統(tǒng)正在擴容等),需要降低Zone A流量比例,擴容成功率恢復(fù)后,需要恢復(fù)流量比例關(guān)系; 【2】Zone流量比例發(fā)生傾斜,如果單個Zone故障,Zone的Capacity會比非傾斜時高,需要主動觸發(fā)提前擴容Node; 【3】混合云場景,私有云Zone容量不足,將部分應(yīng)用容量公有云Zone傾斜,過峰后,因成本因素,恢復(fù)原有狀態(tài);
方案: 【1】Autopilot監(jiān)聽各Zone的資源用量、容量、擴容成功率以及SRE運營規(guī)則; 【2】Autopilot生成流量調(diào)度結(jié)果,并下發(fā)調(diào)度; 【3】HPA感知負載變化進行擴縮; 【4】Autopilot根據(jù)當前各Zone用量更新Capacity,并指導(dǎo)提前Node擴容;
多機房庫存問題
用戶的請求保證在同一機房內(nèi)完成閉環(huán),但部分場景并不適合劃分單元化,比如多機房庫存扣減問題。面對多機房庫存扣減問題目前的策略如下: 【1】業(yè)務(wù)扣庫存邏輯不調(diào)整,還是同步扣庫存,但事先根據(jù)流量分配好每個機房庫存; 【2】增加庫存調(diào)配機制,當庫存不足時觸發(fā)庫存調(diào)配,從有多余庫存的機房進行調(diào)配; 【3】增加監(jiān)控和庫存不足告警通知,除了自動資源調(diào)配,對活動上線后進行機房間的庫存情況實時觀測和實時手動調(diào)配;
柚子快報激活碼778899分享:后端 Partition架構(gòu)
參考鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。