Google云服務(wù)故障:只因同時(shí)做了兩項(xiàng)升級(jí)
本月11日13時(shí)13分到15時(shí),Google位于美國(guó)數(shù)據(jù)中心的App Engine服務(wù)出現(xiàn)大面積故障。其中3%的應(yīng)用出錯(cuò)概率超過(guò)50%,18%的應(yīng)用訪(fǎng)問(wèn)出錯(cuò)概率在10%到50%之間,14%的應(yīng)用出錯(cuò)概率在1%到10%之間,有2%的應(yīng)用出錯(cuò)率在1%以下但依然高于正常水平。剩余63%的應(yīng)用訪(fǎng)問(wèn)正常。
本文引用地址:http://m.ptau.cn/article/201608/296024.htm近日Google在其云服務(wù)官方日志中公開(kāi)了故障原因,原來(lái)只因?yàn)楣こ處焸冊(cè)诶芯S護(hù)時(shí)同時(shí)做了兩件事。
出于負(fù)載均衡的考慮,Googe的工程師配置了新的數(shù)據(jù)中心,把老數(shù)據(jù)中心一定比例的App遷移到了新的數(shù)據(jù)中心,然后把流量從之前的服務(wù)器導(dǎo)向新的數(shù)據(jù)中心。
至此相安無(wú)事,但不湊巧的是,數(shù)據(jù)中心的多臺(tái)路由器正在軟件升級(jí),需要滾動(dòng)式重啟,網(wǎng)絡(luò)流量處理能力不如平常。
同時(shí),新遷移的許多應(yīng)用由于啟動(dòng)緩慢,導(dǎo)致舊服務(wù)器大量重復(fù)向新服務(wù)器發(fā)送啟動(dòng)應(yīng)用的請(qǐng)求,進(jìn)一步加重路由器負(fù)載,最終造成偶然丟失外部用戶(hù)的訪(fǎng)問(wèn)。
對(duì)此意外,Google方面表示將會(huì)加大對(duì)硬件的投入,修正導(dǎo)入流量的方式,并修改針對(duì)新服務(wù)器的重試請(qǐng)求。
評(píng)論